Possibility of predicting the probability of thyroid cancer recurrence by machine learning methods

M. А. Barulina; Барулина М. А.; I. Yu. Bendik; Бендик И. Ю.; I. I. Kovalenko; Коваленко И. И.; М. A. Polidanov; Полиданов М. А.; R. P. Petrunkin; Петрунькин Р. П.; V. N. Kudashkin; Кудашкин В. Н.; K. А. Volkov; Волков К. А.; A. R. Kravchenya; Кравченя А. Р.; V. V. Maslyakov; Масляков В. В.; S. V. Kapralov; Капралов С. В.; H. E. Aslanov; Асланов Г. Э.; Ye. V. Losyakova; Лосякова Е. В.; I. S. Obukhov; Обухов И. С.; A. D. Osina; Осина А. Д.; A. K. Kurmaeva; Курмаева А. К.

doi:10.17816/pmj423130-143

Possibility of predicting the probability of thyroid cancer recurrence by machine learning methods

Authors: Barulina M.А.¹, Bendik I.Y.¹, Kovalenko I.I.¹, Polidanov М.A.², Petrunkin R.P.², Kudashkin V.N.³, Volkov K.А.⁴, Kravchenya A.R.⁴, Maslyakov V.V.⁴^,5, Kapralov S.V.⁴, Aslanov H.E.⁴, Losyakova Y.V.³, Obukhov I.S.³, Osina A.D.⁴, Kurmaeva A.K.⁴
Affiliations:
1. Perm State National Research University
2. University «Reaviz»
3. Samara State Medical University
4. Saratov State Medical University named after V.I. Razumovsky
5. Medical University «Reaviz»
Issue: Vol 42, No 3 (2025)
Pages: 130-143
Section: Methods of diagnosis and technologies
Submitted: 18.01.2025
Published: 23.07.2025
URL: https://permmedjournal.ru/PMJ/article/view/646351
DOI: https://doi.org/10.17816/pmj423130-143
ID: 646351

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

Objective. To develop a machine learning model for predicting the fact of recurrence in patients with thyroid cancer after surgical intervention.

Materials and Methods. According to the aim of the study, the case histories of 300 patients who had undergone surgical intervention for thyroid cancer were analyzed. The average age was 43.54 years. All patients included in the study underwent a comprehensive examination according to the clinical recommendations on the diagnosis and treatment of patients with thyroid cancer. Selection of the most appropriate model in machine learning is critical as it directly affects the accuracy and efficiency of prediction. Selection of the best model was done through comparing the performance of different algorithms on the same training sample using cross-validation. Each model was evaluated on such metrics as average accuracy and standard deviation to determine which model demonstrates the best results. The random forest model performed best in terms of average accuracy and was used hereafter. The model was trained using a matrix of predefined features. Using param grid, we can efficiently adjust hyperparameters such as the number of trees, maximum depth and minimum number of samples for separation, which will help us to find the optimal settings for our task. RandomizedSearchCV method was used to select the hyperparameters. During the hyperparameter search process, the model was trained on training data selected as 70% of the original dataset. The search resulted in the following best hyperparameters for the random forest model for our data specifically: n_estimators = 161; min_samples_split = 5; max_leaf_nodes = 39; max_depth = 12; bootstrap = True.

Results. A model that demonstrated high target feature accuracy was trained during the study. The proportion of patients with postoperative recurrence correctly identified by the model was 98 % of all patients with recurrence, and the proportion of patients without recurrence correctly classified by the model «as patients at no risk of recurrence» was 95 % of all patients without recurrence. This shows that the developed model effectively handles the task of classification based on medical parameters, which may be particularly important for decision making in clinical practice. The high accuracy indicates the reliability of the model and its ability to identify cases of recurrence correctly, this may contribute to the improvement of diagnostics and treatment.

Conclusions. A machine learning model to predict a high probability of thyroid cancer recurrence based on the analysis of medical parameters was developed while carrying out the study. The development process began with careful data preprocessing, which is a critical step in reliable models’ construction. During preprocessing, outliers and columns containing monotonic values were removed to improve the data quality and avoid distortions in the model training. Categorical variables were also coded to ensure that they could be used correctly in machine learning algorithms, and correlated features were excluded to minimize multicollinearity and increase the interpretability of the model.

Keywords

Thyroid cancer, thyroid, machine learning, recurrence prediction, random forest, python

Full Text

Введение

Рак щитовидной железы (РЩЖ) является одним из наиболее распространенных видов рака среди эндокринных заболеваний [1–4]. Несмотря на высокие показатели выживаемости при раннем обнаружении и адекватном лечении, проблема рецидива остается актуальной и требует особого внимания [5–7]. Рецидив заболевания может произойти даже после успешного лечения, что делает необходимым регулярное наблюдение за пациентами [8–11]. Однако предсказание рецидива на основе клинических показателей представляет собой сложную задачу для медицины в целом.

Специалисты в области онкологии сталкиваются с несколькими трудностями при оценке риска рецидива заболевания. Во-первых, клинические данные о пациентах могут быть разнообразными и многогранными, включая возраст, пол, степень дифференцировки опухоли, наличие метастазов и результаты предыдущих анализов. Эти факторы могут взаимодействовать друг с другом сложным образом, что затрудняет их интерпретацию. Во-вторых, традиционные методы оценки риска часто основаны на субъективных оценках врачей, что может привести к вариативности в диагнозах и рекомендациях по лечению.

Кроме того, время, затрачиваемое на анализ данных и принятие решений, может быть значительным. В условиях ограниченных ресурсов и увеличивающейся нагрузки на медицинских специалистов важно оптимизировать процесс диагностики и мониторинга пациентов. Неправильная оценка риска рецидива может привести не только к ухудшению состояния пациента, но и к ненужным затратам на дополнительные обследования и лечение.

В связи с вышеописанными трудностями возникает необходимость в разработке автоматизированной модели предсказания рецидива заболевания РЩЖ. Использование методов машинного обучения позволяет анализировать большие объемы данных и выявлять скрытые закономерности между различными клиническими показателями и вероятностью рецидива. Модель может быть обучена на исторических данных о пациентах, что позволит ей делать более точные прогнозы на основе новых входных данных.

Разработка такой модели не только повысит точность предсказаний, но и значительно сократит время, необходимое для анализа данных, что позволит врачам сосредоточиться на более важных аспектах лечения пациентов и улучшить качество медицинской помощи. Кроме того, автоматизация процесса оценки риска рецидива может привести к экономии средств как для медицинских учреждений, так и для пациентов.

Таким образом, создание модели предсказания рецидива заболевания РЩЖ представляет собой важный шаг к улучшению диагностики и лечения пациентов.

Цель исследования – разработка модели машинного обучения по предсказанию факта рецидива у пациентов с раком щитовидной железы после проведенного оперативного вмешательства.

Материалы и методы исследования

В соответствии с целью исследования были проанализированы истории болезни 300 пациентов с выполненным оперативным вмешательством по поводу РЩЖ. Средний возраст – 43,54 года. Всем включенным в исследование было проведено комплексное обследование согласно клиническим рекомендациям [12] по диагностике и лечению больных РЩЖ. Исходя из комплекса результатов обследования, отобраны пациенты, соответствующие следующим критериям включения: больные РЩЖ без подтвержденных метастазов со стадией заболевания от T1N0M0 до Т3N0M0; отсутствие предшествующего и сопутствующего специального лечения (иммунотерапия или таргетная терапия); наличие информированного согласия на проводимое оперативное вмешательство и участие в исследовании.

Выбор наиболее подходящей модели в машинном обучении критически важен, так как он напрямую влияет на точность и эффективность предсказаний¹. Правильная модель позволяет лучше выявлять закономерности в данных и адаптироваться к специфике задачи. Неподходящая модель может привести к низкой производительности, «переобучению» или «недообучению», что затруднит интерпретацию результатов и принятие решений.

Было рассмотрено несколько самых распространенных:

Logistic Regression (LR);
Linear Discriminant Analysis (LDA);
K-Nearest Neighbors (KNN);
Classification and Regression Trees (CART);
Gaussian Naive Bayes (NB);
Support Vector Machines (SVM);
Random Forest Classifier (RF).

Отбор лучшей модели был произведен через сравнение производительности различных алгоритмов на одной и той же обучающей выборке с использованием кросс-валидации. Каждая модель оценивалась по метрикам, таким как средняя точность и стандартное отклонение, что позволяло определить, какая из них демонстрирует наилучшие результаты (табл. 1).

Лучше всего по показателю средней точности выявила себя модель случайного леса, она же в дальнейшем и использовалась.

Обучение модели было произведено по матрице заранее определенных признаков, так как это позволяет систематически исследовать влияние различных параметров на производительность модели. Используя параметрическую сетку (param_grid), можно эффективно настраивать гиперпараметры², такие как количество деревьев, максимальная глубина и минимальное количество образцов для разделения, что поможет найти оптимальные настройки для нашей задачи.

Для подбора гиперпараметров использовался метод RandomizedSearchCV. Его особенность в том, что вместо того, чтобы проверять все возможные комбинации этих гиперпараметров, RandomizedSearchCV случайным образом выбирает заданное количество комбинаций, что позволяет быстрее находить оптимальные настройки и особенно полезно при большом количестве гиперпараметров или их значений, так как помогает избежать чрезмерных затрат ресурсов и времени на обучение моделей. В процессе поиска этих гиперпараметров модель и обучается на тренировочных данных, отобранных как 70 % от исходного датасета, что впоследствии задается при вызове функции для обучения. Визуализация поиска и обучения изображена на рис. 1.

Таблица 1. Результаты работы моделей

Название модели	Accuracy	Loss
Logistic Regression (LR)	0,894737	0,074432
Linear Discriminant Analysis (LDA)	0,884211	0,077352
K-Nearest Neighbors (KNN)	0,563158	0,094297
Classification and Regression Trees (CART)	0,921053	0,053931
Gaussian Naive Bayes (NB)	0,836842	0,086322
Support Vector Machines (SVM)	0,552632	0,026316
Random Forest Classifier (RF)	0,942105	0,043719

Рис. 1. Поиск гиперпараметров и обучение модели

случайным образом выбирает заданное количество комбинаций, что позволяет быстрее находить оптимальные настройки и особенно полезно при большом количестве гиперпараметров или их значений, так как помогает избежать чрезмерных затрат ресурсов и времени на обучение моделей. В процессе поиска этих гиперпараметров модель и обучается на тренировочных данных, отобранных как 70 % от исходного датасета, что впоследствии задается при вызове функции для обучения. Визуализация поиска и обучения изображена на рис. 1.

В поиске определились следующие лучшие гиперпараметры для модели случайного леса для конкретно наших данных:

n_estimators = 161. Это количество деревьев в случайном лесу. Большее количество деревьев обычно приводит к более точным предсказаниям, так как модель становится более устойчивой к шуму в данных;
min_samples_split = 5. Минимальное количество образцов, необходимых для разделения узла дерева. Этот параметр контролирует, насколько «глубоко» может расти дерево; более высокие значения предотвращают переобучение, снижая сложность модели;
max_leaf_nodes = 39. Максимальное количество листовых узлов в дереве. Ограничение на количество листьев помогает контролировать сложность модели и может улучшить обобщающую способность;
max_depth = 12. Максимальная глубина дерева. Этот параметр ограничивает, насколько глубоко может расти дерево, что также помогает предотвратить переобучение;
bootstrap = True. Указывает, используется ли метод бутстрепа для создания подвыборок из данных при обучении каждого дерева. При установке этого параметра в True каждое дерево обучается на случайной подвыборке данных, что способствует разнообразию деревьев и повышает общую производительность модели.

Результаты и их обсуждение

Для анализа в среде разработки в предоставленном наборе данных были изменены названия столбцов на более короткие, латинскими буквами по следующей легенде (табл. 2).

Целевым признаком, для которого необходимо было разработать предиктивную модель, являлся признак «Послеоперационного рецидива» (в табл. 2 представлен как «pr»). Для этого признака было проверено распределение классов, оно представлено в виде круговой диаграммы (рис. 2).

Таблица 2. Легенда переименования столбцов

Новое название	Старое название
id	Код пациента
age	Возраст
dotdm	Длительность заболевания, месяц
dbtt	Диагноз по TNM. T
dbtn	Диагноз по TNM. N
dbtm	Диагноз по TNM. M
ap	Щелочная фосфатаза
tc	Кальций общий
ttg	ТТГ
tfpl	Т₄свободный, пмоль/л
cpm	Кальцитонин, пг/мл
phpl	Паратгормон, пмоль/л
at	Антитела к тиреоглобулину, МЕ/мл
rea	РЭА, нг/мл
cc	Цитологическая классификация после ТАБ по системе Bethesda (диагностическая категория от 1 до 5)
cd	Сопутствующие заболевания
cds	Сопутствующие заболевания ССС
cdg	Сопутствующие заболевания ЖКТ
cdd	Сопутствующие заболевания ДС
td	Вид операции
apas	Щелочная фосфатаза после операции
tcas	Кальций общий после операции
tao	ТТГ после операции
t4ao	Т₄ после операции
cas	Кальцитонин после операции
phas	Паратгормон после операции
atas	Антитела к тиреоглобулину после операции
ras	РЭА после операции
dtaht	Диагноз по TNM после гистологии. T
dtahn	Диагноз по TNM после гистологии. N
dtahm	Диагноз по TNM после гистологии. M
hsas	Время нахождения в стационаре после операции, дни
ic	Интраоперационные осложнения
pr	Послеоперационный рецидив

Рис. 2. Распределения классов в целевом признаке

Дисбаланса классов при этом не наблюдалось. В связи с чем в дальнейшем с помощью метода corr, который вычисляет коэффициент корреляции Пирсона, являющийся мерой линейной зависимости между двумя переменными, из библиотеки Pandas для языка программирования Python³ в среде разработки Visual Studio Code была рассчитана корреляция всех признаков (без учета категориальных) между собой. Матрица корреляции признаков представлена на рис. 3.

По матрице видно, что есть два признака («cas» и «cpm») сильно коррелирующих между собой. Для избегания избыточности информации и, как следствие, ухудшения обобщающей способности предсказательной модели было произведено удаление таких признаков. Был использован метод вычисления коэффициента корреляции для выявления высококоррелирующих признаков. Сначала создается матрица корреляции, после чего производится итерация по ее элементам для выявления пар признаков с абсолютным значением корреляции выше заданного порога (в данном случае 0,75). Все такие признаки добавляются в множество, которое затем используется для удаления этих признаков из исходного набора данных. В нашем случае признак всего один, а также заметна сильная корреляция признака «cc» с целевым признаком. Относительно него далее была составлена диаграмма рассеивания признаков с явным разделением на интересующие классы.

С помощью функции sns.boxplot (df) из библиотеки Seaborn была представлена визуализация распределения данных в виде коробчатой диаграммы (boxplot). На ней можно сравнивать распределения различных групп данных, выявлять выбросы и оценивать вариативность. Видно отображение медианы (второй квартиль), первого (Q₁) и третьего (Q₃) квартиля, которые формируют межквартильный размах (IQR).

Рис. 3. Матрица корреляции признаков

Усы диаграммы показывают диапазон значений, находящихся в пределах 1,5 · IQR от квартилей. Значения, выходящие за эти границы, обозначаются как выбросы и отображаются отдельными точками.

Соответствующая диаграмма изображена на рис. 4. Перед построением диаграммы данные были нормированы. По диаграмме на рис. 4 видно, что выбросы в наших данных присутствуют в признаках: ТТГ (по диаграмме – «ttg»), цитологическая классификация после ТАБ по системе Bethesda (диагностическая категория от 1 до 5) («cc») и кальций общий после операции («tcas»).

Для удаления выбросов можно использовать несколько простых методов. Один из них – межквартильный размах (IQR). Сначала вычисляются границы на основе первых и третьих квартилей, а затем удаляются значения, выходящие за эти границы. Другой подход – стандартное отклонение: если значение слишком далеко от среднего, его можно исключить.

Был выбран метод IQR вместо стандартного отклонения, потому что он более устойчив к влиянию выбросов. Стандартное отклонение может быть искажено экстремальными значениями, что приводит к неправильному определению границ для удаления выбросов. В отличие от этого, IQR фокусируется на центральной части данных и позволяет выявлять аномалии, не завися от крайних значений. Это делает IQR более надежным инструментом для очистки данных и улучшения качества модели.

Рис. 4. Распределение классов

Описание метода межквартильного размаха (IQR)

Определение квартилей: сначала вычисляются первый (Q₁) и третий (Q₃) квартили. Первый квартиль – это значение, ниже которого находится 25 % данных, а третий квартиль – 75 %.
Расчет IQR: межквартильный размах (IQR) определяется как разница между Q₃ и Q₁:

$I Q R = Q_{3} - Q_{1}$ .

Выявление выбросов: Значения, которые находятся ниже Q₁₋_1,5·IQR или выше Q₃+1,5·IQR, считаются выбросами и удаляются из набора данных. Таким образом, из 300 изначальных строк в таблице осталось только 272.

С целью повышения точности и надежности предиктивной модели был проведен следующим способом поиск дублированных образцов:

Подсчет дубликатов: сначала определяется, сколько раз каждая уникальная строка встречается в наборе данных.
Фильтрация результатов: остаются только те строки, которые встречаются более одного раза, то есть только дубликаты.
Формирование вывода: если дубликаты найдены, то создается текстовое описание для каждой группы дубликатов, указывая количество повторений и характеристики этих строк. Если дубликатов нет, выводится сообщение о том, что их не обнаружено.

Для рассматриваемого набора данных дубликаты были не найдены.

Далее был произведен поиск и удаление столбцов, заполненных одним значением.
В наборе данных были найдены и удалены столбцы (способом далее), значения которых для всех объектов полностью совпадают. Такие столбцы не содержат вариативности, а значит, не несут полезной информации для анализа или обучения модели. Их присутствие может создавать избыточность в данных и не влияет на качество предсказаний, поэтому они исключены для оптимизации работы модели.

Поиск осуществлялся следующим образом:

Поиск столбцов: определяются столбцы в наборе данных, в которых все значения одинаковы, то есть количество уникальных значений равно 1. Они заносятся в список.
Вывод результатов: затем осуществляется проход по найденным столбцам и выводится информация о каждом из них, указывая, что столбец заполнен одним значением и какое это значение.

Ими оказались признаки: диагноз по TNM. M (после переименования это «dbtm»), сопутствующие заболевания («cd»), диагноз по TNM после гистологии. N («dtahn»), диагноз по TNM после гистологии. M («dtahm») и интраоперационные осложнения («ic»).

Удаление найденных столбцов произведено путем перезаписи исходного набора данных на тот же набор с исключенными столбцами по списку, который был составлен при поиске. В нашем случае их оказалось 5, и из 33 столбцов осталось 28.

После обучения модели была проведена оценка ее производительности, используя метрики качества модели, такие как точность (accuracy), полнота (recall) и точность (precision). Они вычисляются на основе результатов классификации, представленных в виде матрицы ошибок, которая включает четыре категории:

истинно положительные (TP): количество правильно предсказанных положительных случаев;
ложно положительные (FP): количество неправильно предсказанных положительных случаев;
истинно отрицательные (TN): количество правильно предсказанных отрицательных случаев;
ложно отрицательные (FN): количество неправильно предсказанных отрицательных случаев.

Точность (Accuracy) измеряет, насколько часто модель дает правильные прогнозы. Она рассчитывается по формуле

$Accuracy = \frac{TP+TN}{TP+TN+FP+FN} .$

Это значение показывает долю всех правильных предсказаний относительно общего числа прогнозов.

Полнота (Recall) отражает способность модели находить все положительные случаи. Она вычисляется следующим образом:

$Recall= \frac{TP}{TP+FN} .$

Эта метрика показывает, какую долю всех фактических положительных случаев модель смогла правильно идентифицировать.

Точность (Precision) измеряет долю правильно предсказанных положительных случаев среди всех случаев, которые модель классифицировала как положительные. Она рассчитывается по формуле

$Precision= \frac{TP}{TP+FP} .$

Эти метрики позволяют понять, насколько хорошо модель справляется с задачей, а также выявить возможные проблемы, такие как переобучение или недостаточная способность к выявлению положительных классов. Полученные расчеты представлены в табл. 3. Кроме того, был создан классификационный отчет, который предоставляет собой более детальную информацию о производительности модели для каждого класса. Он представлен в табл. 4.

Далее была составлена матрица ошибок. Она позволяет оценить, как модель классифицирует данные, показывая распределение истинных и предсказанных значений. Она включает правильные и ошибочные предсказания для каждого класса. Данная матрица представлена на рис. 5.

Из полученных результатов видно, что обученная модель демонстрирует высокую точность целевого признака. Доля пациентов с послеоперационным рецидивом, правильно идентифицированных моделью, составила 98 % от общего числа пациентов с рецидивом, а доля пациентов без рецидива, верно классифицированных моделью «как пациенты, не имеющие риска рецидива», – 95 % от всех пациентов без рецидива. Это свидетельствует, что модель эффективно справляется с задачей классификации на основе медицинских параметров, что может быть особенно важно для принятия решений в клинической практике. Высокая точность указывает на надежность модели и ее способность правильно идентифицировать случаи рецидива, что может способствовать улучшению диагностики и лечения.

Таблица 3. Метрики качества модели

Метрика	Значение
Accuracy	0,963
Recall	0,963
Precision	0,964

Таблица 4. Классификационный отчет

Precision	Recall	F1-score
0,957	0,978	0,967
0,972	0,946	0,959
0,963	0,963	0,963
0,964	0,962	0,963
0,964	0,963	0,963

Рис. 5. Матрица ошибок

Выводы

В рамках исследования была разработана модель машинного обучения для предсказания высокой вероятности рецидива рака щитовидной железы на основе анализа медицинских параметров⁴. Процесс разработки начался с тщательной предобработки данных, что является критически важным этапом в построении надежных моделей. В ходе предобработки были удалены выбросы и столбцы, содержащие однообразные значения, что позволило улучшить качество данных и избежать искажений в обучении модели. Также была проведена кодировка категориальных переменных, что обеспечило возможность их корректного использования в алгоритмах машинного обучения, и исключены коррелирующие признаки, чтобы минимизировать мультиколлинеарность и повысить интерпретируемость модели.

Для выбора наиболее подходящей модели был проведен сравнительный анализ нескольких алгоритмов классификации.
В результате был выбран метод случайного леса, который продемонстрировал высокую эффективность в решении задачи классификации. С использованием метода случайного поиска гиперпараметров была осуществлена оптимизация модели, это позволило определить наилучшие параметры для повышения ее производительности. Полученная модель достигла точности предсказаний 96 %, что свидетельствует о ее высокой надежности и способности к правильной классификации.

Результаты исследования подчеркивают потенциал применения машинного обучения в области медицины, особенно в контексте ранней диагностики и мониторинга заболеваний. Высокая точность модели может значительно улучшить процесс принятия клинических решений и повысить качество медицинской помощи.

¹ Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих, available at: https://habr.com/ru/companies/skillfactory/articles/848858/; A Simple Guide to Data Preprocessing in Machine Learning, available at https://www.v7labs.com/blog/data-preprocessing-guide; Обзор методов классификации в машинном обучении с помощью Scikit-Learn, available at: https://tproger.ru/translations/scikit-learn-in-python

² Подбор гиперпараметров, available at: https://education.yandex.ru/handbook/ml/article/podbor-giperparametrov; Гиперпараметрический поиск и оптимизация моделей, available at: https://habr.com/ru/companies/otus/articles/754402/; Метрики качества моделей бинарной классификации, available at: https://loginom.ru/blog/classification-quality; Оценка качества в задачах классификации и регрессии, available at: https://neerc.ifmo.ru/wiki/index.php?title

³ AI with Python – Supervised Learning: Classification, available at: https://www.tutorialspoint.com/artifi-
cial_intelligence_with_python/artificial_intelligence_with_python_supervised_learning_classification.htmm

⁴ Полиданов М.А., Петрунькин Р.П., Кудашкин В.Н., Волков К.А., Кравченя А.Р., Рафеева П.Д., Трухина М.К., Капралов С.В., Амиров Э.В., Масляков В.В. Система для прогнозирования возникновения рецидивов после оперативного вмешательства при раке щитовидной железы: свидетельство о регистрации программы для ЭВМ № 2024689824 от 11.12.2024. Заявка от 28.11.2024.

About the authors

M. А. Barulina

Perm State National Research University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-3867-648X

DSc (Physics and Mathematics), Director of the Institute of Physics and Mathematics

Russian Federation, Perm

I. Yu. Bendik

Perm State National Research University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0000-7851-9492

1^st-year Master's Student of the Institute of Physics and Mathematics

Russian Federation, Perm

I. I. Kovalenko

Perm State National Research University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-4450-1184

Head of the Center for Artificial Intelligence of the Institute of Physics and Mathematics

Russian Federation, Perm

М. A. Polidanov

University «Reaviz»

Author for correspondence.
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-7538-7412

Advisor to the Russian Academy of Natural Sciences (RANS), Research Department Specialist, Assistant of the Department of Biomedical Disciplines

Russian Federation, Saint Petersburg

R. P. Petrunkin

University «Reaviz»

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-3206-7920

3^rd-year Student of the Faculty of Medicine

Russian Federation, Saint Petersburg

V. N. Kudashkin

Samara State Medical University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-9099-3517

Resident of the Department of Surgery with a Course in Cardiovascular Surgery of the Institute of Professional Education

Russian Federation, Samara

K. А. Volkov

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0002-3803-2644

3^rd-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

A. R. Kravchenya

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-2738-4510

PhD (Medicine), Associate Professor, Associate Professor of the Department of Pediatric Diseases of the Faculty of Medicine

Russian Federation, Saratov

V. V. Maslyakov

Saratov State Medical University named after V.I. Razumovsky; Medical University «Reaviz»

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-6652-9140

DSc (Medicine), Professor, Professor of the Department of Mobilization Preparation of Healthcare and Disaster Medicine, Professor of the Department of Surgical Diseases

Russian Federation, Saratov; Saratov

S. V. Kapralov

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-5859-7928

DSc (Medicine), Associate Professor, Head of the Department of Faculty Surgery and Oncology

Russian Federation, Saratov

H. E. Aslanov

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0009-9497-5725

6^th-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

Ye. V. Losyakova

Samara State Medical University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-8286-4266

6^th-year Student of the Institute of Pediatrics

Russian Federation, Samara

I. S. Obukhov

Samara State Medical University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0007-5573-8431

6^th-year Student of the Institute of Pediatrics

Russian Federation, Samara

A. D. Osina

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0001-5294-3436

6^th-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

A. K. Kurmaeva

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0002-0886-6290

6^th-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

References

Берштейн Л.М. Рак щитовидной железы: эпидемиология, эндокринология, факторы и механизмы канцерогенеза. Практическая онкология 2007; 8 (1): 1–8 / Berstein L.M. Thyroid cancer: epidemiology, endocrinology, factors and mechanisms of carcinogenesis. Praktical Onkology 2007; 8 (1): 1–8 (in Russian).
Лушников Е.Ф., Цыб А.Ф., Ямасита С. Рак щитовидной железы в России после Чернобыля. М.: Медицина, 2006; 128. / Lushnikov E.F., Tsyb A.F., Yamashita S. Thyroid cancer in Russia after Chernobyl. Moscow: Medicine 2006; 128 (in Russian).
Bentz B.G. et al. B-RAF V600E mutational analysis of fine needle aspirates correlates with diagnosis of thyroid nodules. Otolaryngol. Head Neck Surg. 2009; 140 (5): 709–714.
Барчук А.С. Рецидивы дифференцированного рака щитовидной железы. Практическая онкология. 2007; 8 (1): 35. / Barchuk A.S. Recurrences of differentiated thyroid cancer. Practical Oncology 2007; 8 (1): 35 (in Russian).
Amin M.B., Greene F.L., Edge S.B. et al. The Eighth Edition AJCC Cancer Staging Manual: Continuing to build a bridge from a population-based to a more «personalized» approach to cancer staging. CA Cancer J Clin. 2017; 67 (2): 93–99.
Kane S.M., Mulhern M.S., Pourshahidi L.K. et al. Micronutrients, iodine status and concentrations of thyroid hormones: a systematic review. Nutr Rev. 2018; 76 (6): 418–431.
Agretti P. et al. MicroRNA expression profile helps to distinguish benign nodules from papillary thyroid carcinomas starting from cells of fine-needle aspiration. J. Eur. Endocrinol. 2012; 167 (3): 393–400.
Румянцев П.О., Ильин А.А., Румянцева У.В. и др. Рак щитовидной железы: современные подходы к диагностике и лечению. М.: ГЭОТАР-Медиа 2009; 448. / Rumyantsev P.O., Ilyin A.A., Rumyantseva U.V. et al. Thyroid cancer: modern approaches to diagnosis and treatment. Moscow: GEOTAR-Media 2009; 448 (in Russian).
Bellevicine C. et al. Cytological and molecular features of papillary thyroid carcinoma with prominent hobnail features: a case report. Acta Cytol. 2012; 56 (5): 560–564.
Elisei R. et al. The BRAFV600E mutation is an independent, poor prognostic factor for the outcome of patients with low-risk intrathyroid papillary thyroid carcinoma: single-institution results from a large cohort study. J. Clin. Endocrinol. Metab. 2012; 97 (12): 4390–4398.
Макарьин В.А. Рак щитовидной железы: пособие для пациентов. М. 2016; 168. / Makarin V.A. Thyroid cancer. A manual for patients. Moscow 2016; 168 (in Russian).
Клинические рекомендации. Дифференцированный рак щитовидной железы. Кодирование по Международной статистической классификации болезней ипроблем, связанных со здоровьем: С 73. Возрастная группа: взрослые. М. 2020. / Clinical guidelines. Differentiated thyroid cancer. Coding according to the International Statistical Classification of Diseases and Related Health Problems: С 73. Age group: adults. Moscow 2020 (in Russian).