Кто нужен биотеху? Новый карьерный маршрут для медиков и не только
Самое горячее — на стыке наук: инновации создаются командами профессионалов, компетентных в нескольких сферах человеческой деятельности. Огромная скорость развития биомедицины и биотехнологий требует специалистов, обладающих экспертизой как в области наук о здоровье, так и в технических науках. Медач и SkillFactory выяснили, как наука о данных, или Data Science, помогает врачам в реальной клинической практике. Как у врачей появилась еще одна возможность изменить свою профессиональную траекторию, продолжая приносить ощутимую пользу человечеству? И где в России можно стать специалистом в области Data Science для биомедицины?
На наши вопросы ответили Эмиль Магеррамов и Станислав Отставнов — эксперты мирового уровня, академические директора совместной программы МФТИ и SkillFactory — первой в России онлайн-магистратуры по специальности «Прикладной анализ данных в медицинской сфере». Эмиль Магеррамов — руководитель группы вычислительной химии компании BIOCAD, сооснователь компании EORA и основатель «Клуба машинного обучения» в Иннополисе. Станислав Отставнов — заведующий лабораторией анализа показателей здоровья населения и цифровизации здравоохранения МФТИ, соавтор публикаций в The Lancet, Nature, член подкомитета «Искусственный интеллект в здравоохранении» технического комитета по стандартизации искусственного интеллекта, ведущий научный сотрудник бизнес-школы НИУ ВШЭ.
Как изучение наук о данных может помочь врачам?
Что такое наука о данных, или Data Science?
Data Science изучает проблемы анализа и обработки данных. Данные — это любая информация, которая может быть упорядочена, передана и обработана. Каждый врач ежедневно сталкивается с огромным количеством данных: от анамнеза пациента и данных его физикального обследования до изображений, полученных с помощью рентгенографии, компьютерной томографии и результатов функциональных исследований. Медицина во многом основана на искусстве получения необходимых данных о пациенте, а успех в диагностике и лечении зависит от умения верно эти данные интерпретировать. Специалисты Data Science могут помочь и уже помогают врачам решать множество медицинских аналитических проблем: от интерпретации результатов диагностических тестов до разработки систем, которые помогут специалистам принимать верное клиническое решение на основе анализа десятков тысяч предыдущих случаев. Поэтому возрастает ценность специалистов с медицинским образованием, которые прошли дополнительное обучение в области Data Science. Такие профессионалы обладают двойной экспертизой и могут решать задачи, используя мультидисциплинарный подход, что делает их востребованными на рынке труда в биомедицинской сфере.
Каким медицинским сферам помогает Data Science?
Станислав Отставнов: например, в разработке лекарств — использование данных очень сильно преобразовало фармацевтическую и биотехнологическую отрасли. Мы понимаем, что если раньше перспективные молекулы чуть ли не вручную отрисовывал химик, то сейчас многое делает программа. Сократить время на моделирование молекулы на доклиническом этапе разработки будущего фармацевтического препарата позволяет софт. Снизить вероятность неудачи клинических испытаний до начала их проведения тоже позволяет софт. Отследить побочные явления на большой выборке испытуемых помогает анализ данных. В этой сфере внедрение цифровых решений привело к большим преобразованиям. Наш партнер, компания BIOCAD, в своем названии это подчеркивает. CAD — это известная аббревиатура, которая расшифровывается как компьютеризированный дизайн, автоматизированное проектирование (от англ. computer-aided design).
Мы понимаем, что вся диагностика — это работа с некими данными. В зависимости от того, какой у нас объем данных, мы можем дать более качественные рекомендации. Если есть данные осмотра и анализов, то можно говорить о более адекватной диагностике. Чем больше мы лезем вглубь, тем более важную информацию мы получаем. Это важно, к примеру, для онкологии, потому что под заболеванием, которое называют «рак легких», скрывается большое количество нозологий различного происхождения. В персонализированной медицине мы подбираем лечение, наиболее подходящее конкретному человеку для решения определенной проблемы, основываясь на анализе довольно большого количества тех данных, которые у нас есть.
Мне кажется, проще сказать, что нет той сферы в медицине, где науки о данных не пригодились бы. В сфере медицинской профилактики очень многое можно сделать, анализируя большое количество данных, накопленных в популяции. Например, разрабатывать научно-обоснованные программы по снижению бремени ожирения или по борьбе с другими факторами риска различных заболеваний. Здесь науки о данных могут себя проявить. Есть и нетрадиционные сферы применения. Одна моя замечательная знакомая с коллегами проводила исследование поведения антивакцинаторов: они анализировали их аргументацию в соцсетях. Эти данные тоже будут полезны, чтобы разрабатывать программы популяризации вакцинации.
Как упомянул Станислав Отставнов, развитие наук о данных меняет не только клиническую медицину, но и разработку лекарственных средств. Ведь в среднем проходит не менее десяти лет от старта разработки лекарства до выпуска готового препарата. Эмиль Магеррамов отмечает, что будущее фармакологии — это генерация молекул с заданными свойствами. Все движется в эту сторону: есть компании, стартапы, которые занимаются тем, что задают необходимые параметры и алгоритм и итеративно предсказывают, приближаясь к нужному результату, какая молекула будет ингибировать определенный белок. Стартапы и некоторые крупные компании не только изучают эту сферу, но и начали применять часть разработок. По словам Эмиля, сейчас Data Science помогает значительно ускорять разработку лекарственных средств. Он отмечает, что любая фармкомпания движется в сторону генерации терапевтических молекул: есть примеры, что это сработало, и если это будет внедрено повсеместно, то это будет большим прорывом.
Как методы Data Science помогают прогнозировать физико-химические свойства соединений?
Эмиль Магеррамов: тут все очень просто и очень сложно. Это некий алгоритм, в который вы кидаете данные, он обучается и затем начинает что-то предсказывать. В этом плане все просто, и все абсолютно также и в медицине. Но при этом сложности возникают именно на этапе поиска данных и на этапе их обработки. В Data Science есть принцип garbage in — garbage out: мусор на вход — мусор на выход. Если данные плохие, то и алгоритм будет плохой. И очень часто данные либо плохие, либо их мало.
А как технологии Data Science помогают врачам в диагностике заболеваний в реальной клинической практике?
Эмиль Магеррамов: наши коллеги из Департамента здравоохранения Москвы занимаются лучевой диагностикой: они разработали и уже используют алгоритм для распознавания признаков рака легких на изображениях, полученных с помощью компьютерной томографии. Я работал с одной европейской компанией, которая делает разные алгоритмы для анализа изображений, была идея сделать алгоритм распознавания меланомы по фотографии. Мы довольно долго общались с врачами-дерматологами, которые рассказали нам, как они диагностируют меланому. Там есть, кажется, четыре признака, по которым это можно сделать. И когда мы делали распознающие алгоритмы, мы учитывали эти признаки для построения алгоритма. Мы подмешивали экспертные знания врачей к нашему алгоритму. В итоге модель довольно хорошо работала, и я думаю, что она сейчас используется в мобильном приложении от этой компании.
Таким образом, эти все системы так или иначе помогают для принятия клинических решений, правильно?
Эмиль Магеррамов: да. Тут важно дополнить. Я всегда про это говорю, когда меня про это спрашивают, что мы как научное сообщество, не только я и моя команда, делаем все эти вещи не для того, чтобы избавиться от человека, чтобы везде были роботы. Мы делаем это именно как систему ассистирования для врачей. И последнее слово всегда за врачом, потому что уже давно существует дискуссия: «Когда же роботы заменят доктора? Нам следует опасаться за свою работу или нет?». Я всегда на это отвечал, что это просто еще один инструмент, такой же, как стетоскоп или компьютерный томограф. Это инструмент в арсенале врача, а не машина, которая его заменит. Машина может подсказать, машина может найти какие-то закономерности, которые могут ускользать от взгляда человека. Но сейчас нельзя, я думаю, опираться только на ее решения. Когда-нибудь будет возможно принимать какие-то решения без участия врача. Это будет возможно при условии, что действительно появятся алгоритмы, которые будут имитировать сознание, как у человека. Но опять же, это уже нельзя будет назвать просто машиной, поэтому мы сейчас об этом не говорим. Но сейчас — да, я полностью согласен. Это еще один инструмент, очень мощный, который постепенно проникает абсолютно во все сферы жизни.
Теперь наши читатели понимают, как алгоритмы могут помочь врачу в принятии клинических решений, и как сами врачи участвуют в их разработке и помогают с помощью своих экспертных знаний. А как применяют Data Science в инструментальной диагностике?
Эмиль Магеррамов: Иннополис в Республике Татарстан — это не просто университет, но и исследовательские лаборатории. Там есть как минимум одна лаборатория, которая разрабатывала разные алгоритмы для распознавания и предсказания заболеваний по рентгеновским снимкам и флюорографии, были разные интересные проекты. Во-первых, создать алгоритм, чтобы определить по рентгеновскому снимку легких, болен человек или нет. Были и более интересные вещи, например, разработка алгоритма подавления ребер: есть снимок, и алгоритм убирает с него изображение ребер, что помогало врачам эффективнее определять заболевания. Заведующий лабораторией, с которым мы общались, договаривался с разными врачами в клиниках в Татарстане, и это только один из примеров.
Мы понимаем, насколько глобальные общие задачи стоят перед, казалось бы, далекими дисциплинами — медициной, фармацевтикой и анализом данных. А как может обучение Data Science расширить на карьерные возможности отдельно взятого врача?
Станислав Отставнов: это может серьезно помочь в тех случаях, когда врачу нужны математика и работа со статистикой. Мы понимаем, что ситуации бывают разные. Я знаю людей, которые со студенческих лет планировали развитие не только своей квалификации как клиницистов, а рост в карьерном и зарплатном плане, получение более широких возможностей. В этом случае хорошие знания медстатистики и Data Science позволяют написать диссертацию и стать, например, заведующим отделением или получить иную управленческую должность.
А может ли анализ данных может помочь врачу оптимизировать рабочие процессы?
Станислав Отставнов: конечно, да. Это вопрос позиционирования специалиста. Если врач хочет конкретно для себя разработать инструмент, который будет ему помогать, или найти этот инструмент — он может это сделать, воспользоваться тем, чем сочтет нужным для лучшей постановки диагноза, ведь в конечном счете ответственность будет лежать на этом враче. Если врач хочет создать что-то, что будет внедрено в систему здравоохранения, то это совсем другая история, потому что обязательно требуется еще одно мнение — тогда придется проходить большой круг различных согласительных и разрешительных мероприятий. Но врач может себе помочь самостоятельно. Можно предложить множество решений, и многие из них постоянно появляются на биомедицинском рынке.
Чем занимаются специалисты по анализу данных в биомедицине?
Как работает специалист по анализу данных?
Станислав Отставнов: мы занимаемся разными междисциплинарными вещами, в том числе связанными с Data Science, а то, что касается искусственного интеллекта, как правило, тоже связано с Data Science, потому что систему искусственного интеллекта не создашь, не натренируешь без данных. Во многих исследованиях, где мы с коллегами участвуем, приходится анализировать данные, подчас очень большое их количество.
Эмиль Магеррамов: если разбить процесс обучения модели машинного обучения на этапы, то это сбор данных, подготовка, обучение, тестирование и внедрение модели. Сбор данных и их подготовка — это, наверное, 90% времени. Обучить модель несложно, алгоритмы есть, и они работают. Если говорить про сбор данных — это только первый шаг, и тут возникает проблема: откуда можно взять данные? Можно взять in-house данные: у нас есть свои лаборатории, в которых что-то синтезируется. Все эти данные мы можем использовать. Самих по себе этих данных немало, но для алгоритмов их порой недостаточно, поэтому нужно искать еще сторонние данные. Есть открытые библиотеки с данными, с информацией о молекулах, реакциях и так далее. Все эти данные можно как-то получать и на них обучать алгоритмы.
Затем идет подготовка данных. Чтобы продумать дизайн новой молекулы, которую мы хотим получить, нам нужно знать, например, растворимость молекулы, ее токсичность — все параметры, которые влияют на то, как молекула будет себя вести в организме человека. Мы делаем модели, которые эти параметры предсказывают. Разработка у нас интерактивная: мы сделали модель, показали ее пользователям, которые проверили и посмотрели, не врет ли она где-нибудь. Разумеется, модель будет обманывать нас, говорить неправильные вещи, но для этого у нас есть следующие итерации (повторения), когда мы дорабатываем нашу модель.
IT-специализации в медицине — вакансии и необходимые компетенции
Вернемся к клинике, к работе современного врача. Насколько ему нужно понимание того, как работать с данными, и как это помогает усилить профессиональные навыки?
Станислав Отставнов: это сложный вопрос, если мы говорим о «среднем враче по палате», об абстрактном враче. Если конкретизировать, допустим, до диагностов, до тех, кто занимается медицинской визуализацией, конкретно говорить о рентгенологах и радиологах — им это очень нужно, настолько, что наш партнер — Московский центр телемедицины и диагностики (бывший центр рентгенорадиологии) — стал флагманом внедрения систем искусственного интеллекта в прикладную диагностику. На их базе реализуется «московский эксперимент», где к работе с данными томографических исследований привлекаются различные программные решения, а за их успешную эксплуатацию город платит разработчикам. Специалисты по медицинской визуализации сами прекрасно объяснят, где и зачем используется анализ данных. Для каких-то других специализаций, если есть накопленная статистика и есть возможность заниматься исследованиями, Data Science также может помочь. Многие вещи могут быть интересны на стыке. Я думаю, что психиатрам и психологам было бы очень интересно изучить анализ данных — в неврологии и нейронауках многое можно исследовать.
Как учат специалистов по Data Science для медицины?
Как построена программа онлайн-магистратуры «Прикладной анализ данных в медицинской сфере»?
Станислав Отставнов: наша магистратура очень сильно ориентирована на практику, будет большое количество разных практических задач, как посвященных непосредственно Data Science, так и тому, что касается медицины и биологии в принципе, созданию и внедрению инноваций в систему здравоохранения. Например, разметить какое-нибудь диагностическое изображение или предложить решение проблемы наших индустриальных партнеров, или написать заявку на грант, если это академический трек нашей программы, и написать бизнес-план, если это индустриальный трек программы.
Программа магистратуры делится на два направления — академическое и индустриальное?
Станислав Отставнов: да, мы даем студентам возможность выбора трека, в котором они хотят развиваться. Мы прекрасно понимаем, что многие бы хотели пойти по предпринимательской стезе, а с другой стороны — кто-то захочет расти по академической линии. Более того, мы осознаем, что здесь многие вещи взаимосвязаны. Мы живем в таком мире, где очень нужны смежные навыки и высокотехнологичные предприниматели. В команде должны быть люди, которые разбираются и в технологиях, и в науке. А моя должность, допустим, заведующего лабораторией, намного больше направлена на поиск ресурсов финансирования и на, может быть, перезапуск тех продуктов, которые мы можем предложить потребителям, нежели на решение сугубо научных задач, тут тоже много что нужно предпринимать.
Можно ли перейти из одного трека в другой во время обучения?
Станислав Отставнов: такая возможность будет. Как у нас реализованы эти треки? У нас есть элективные дисциплины — дисциплины по выбору: студенты выбирают то, что им ближе. Но если им нравится что-то еще, в принципе, они могут взять еще одну программу по выбору и по крайней мере усвоить ее теоретическую часть.
Приведите, пожалуйста, пример реальной клинической или диагностической проблемы, которая будет поставлена перед студентами, которые придут к вам учиться?
Станислав Отставнов: пул этих задач формируется, это будет в процессе учебы. Например, определение дискретных эмоций человека в непрерывном видеоряде или разработка системы определения дозировки инсулина у больных сахарным диабетом.
Будут ли студенты защищать результаты своих проектов и исследований в конце онлайн-магистратуры?
Станислав Отставнов: да, это будет онлайн-защита. Студенты будут выходить на защиту с продуктом, который они делали два года: результат научных исследований, в идеале — научная статья или документ о ее принятии, либо индустриальный продукт. По ходу обучения задачи будут усложняться, а начнется все даже не с хакатона — соревнования по анализу данных и обучению моделей, а с дататона — соревнования по сбору данных, который будет проще, хотя тоже может включать в себя анализ полученных данных. Конкретную задачу студенты выберут вместе с менторами и научными руководителями, потому что нам крайне важно научить людей давать результат.
Как пройти обучение?
Набор на онлайн-магистратуру от МФТИ и SkillFactory по специальности «Прикладной анализ данных в медицинской сфере» уже открыт. Количество мест на программе ограничено. Оставьте заявку на сайте и получите демо-доступ к курсу прямо сейчас!
Программа ориентирована не только на специалистов с высшим медицинским образованием, но и на биологов, биотехнологов, биоинженеров и биоинформатиков, программистов, и будет интересна всем, кто хочет стать востребованным специалистом и профессионалом на стыке двух динамично развивающихся специальностей — биомедицины и науке об анализе данных.