ОРВИ: мониторинг ситуации в реальном времени
Каждый день тысячи больных людей выкладывают подробности своих симптомов в поисковые системы и социальные сети (и, возможно, неосознанно выдают при этом местоположение), тем самым формируя поток данных о гриппе в реальном времени. Эволюция мощных вычислительных инструментов, использующих алгоритмы машинного обучения, и рост количества информационных потоков делают все более возможным проведение мониторинга распространенности гриппа на основе цифровых сигналов от населения. В 2013–2014 гг. Центр по контролю и профилактике заболеваний США (лидер в области цифрового эпиднадзора) запустил FluSight Network — веб-сайт с инструментами цифрового моделирования, который предсказывает время, пиковую и кратковременную интенсивность сезона гриппа в десяти регионах США и по всей стране. В январе 2019 года они объявили, что потратят 17,5 млн долларов на создание сети центров повышения квалификации по прогнозированию гриппа.
Ставки на «спред»
Цифровой мониторинг гриппа изменился, когда Google в 2008 году выпустил платформу — Google Flu Trends, которая использовала алгоритмы машинного обучения для сопоставления поисковых запросов, связанных с гриппом, с данными временных рядов, собранными Центром по контролю и профилактике заболеваний. Эти данные предоставляются 3500 клиниками, в каждой из которых подсчитывается не только количество случаев диагностированного гриппа, но и сколько людей приходят с ангиной, кашлем и лихорадкой выше 37,8 °C без установленной причины. Целью Google Flu Trends было оценивать распространенность гриппа быстрее центра по контролю и профилактике заболеваний. Но Google Flu Trends пропустил весеннюю пандемию гриппа H1N1 в 2009 году, затем он переоценил длительность сезона гриппа 2012–2013 гг. на 140 %. После разгрома H1N1 Google пересмотрел свой алгоритм. В 2015 году они полностью отказались от платформы Google Flu Trends, хотя некоторые ее анонимные данные все еще доступны исследователям для отслеживания гриппа. По словам экспертов, точность прогнозирования заболеваемости гриппом растет, ведь после закрытия старого сервиса алгоритмы заметно улучшились.
Конкуренция — двигатель прогресса
Каждый год около 20 команд ученых предлагают свои модели для мониторинга гриппа в реальном времени. Центр по контролю и профилактике заболеваний включает в свою систему FluSight несколько самых эффективных моделей. В течение последних четырех лет победителем конкурса была команда — Delphi Research Group под руководством ученого Рони Розенфельда из Университета Карнеги-Меллона в Питтсбурге, штат Пенсильвания. Ученые основывают прогнозы на двух взаимодополняющих системах: краудсорсинговый веб-сайт Epicast, который позволяет людям высказать свое мнение о том, как может закончиться нынешний сезон гриппа, и алгоритмы машинного обучения, которые многократно сравнивают тенденции, наблюдаемые в текущем сезоне гриппа, с предыдущими десятилетиями. Алгоритм использует данные Центра по контролю и профилактике заболеваний и информацию, собранную из поисковых систем и социальных сетей, а затем моделирует, как текущий сезон отличается от предыдущего в данный момент и какие отличия могут быть в будущем.
Помимо алгоритмов машинного обучения, исследователи также полагаются на механические модели. Алгоритмы машинного обучения ищут закономерности в данных, тогда как механические модели нацелены на конкретные предположения о том, как вирус гриппа распространяется в популяции. Например, механистические модели учитывают восприимчивую часть населения, передачу определенного вируса и модели социальных взаимодействий среди инфицированных и неинфицированных людей.
Алессандро Веспиньяни — специалист по вычислительной технике, моделирующей эпидемии, Северо-Восточного университета в Бостоне, штат Массачусетс, — прогнозирует грипп с помощью агентного моделирования. Агенты — это просто смоделированные взаимодействующие люди, и Веспиньяни смоделировал 300 миллионов человек, представляющих население США, в различных условиях и симулировал, как вирус гриппа перемещается среди них на рабочих местах, в домах и школах. Подход, основанный на агентах, позволяет увеличить масштаб распространения заболеваний с высоким пространственным разрешением. Но эти модели требуют высокопроизводительных вычислений и большого количества данных, поскольку они требуют очень подробного описания социальных взаимодействий. Эксперты совместно работают над тем, чтобы объединить алгоритмы машинного обучения с агентным подходом для создания еще более сильной модели прогнозирования гриппа.
Сила в цифрах
Исследователи начали объединять модели в «ансамбли», обладающие большей прогнозирующей способностью, чем отдельные составляющие модели, что было определено в ходе испытаний. Модели в этом случае объединяются с использованием метода, который называется стекирование, оценивающего значимость моделей в зависимости от того, насколько хорошо они работали в предыдущие сезоны гриппа. Смоделированные прогнозы по гриппу пока имеют недостатки. Модели наиболее точны при прогнозировании гриппа за 2-4 недели, что на самом деле не дает достаточно времени для распределения ресурсов там, где они больше всего нужны. Веспиньяни говорит, что модели, которые могли бы надежно прогнозировать пик и интенсивность сезона гриппа за 6-8 недель, были бы более полезными.
Необходимы дополнительные исследования того, как социальное поведение, программы вакцинации, состав штаммов, иммунитет населения и другие факторы влияют на точность моделей. Важно понимать, как пространственные масштабы влияют на прогнозирование. Например, прогнозы Центра по контролю и профилактике заболеваний ограничены национальным и региональным уровнями, но исследователи начали рассматривать перспективы городских прогнозов, а также прогнозы в глобальных масштабах — по всему миру.
Сейчас ведется работа по прогнозированию на основе машинного обучения в развивающихся странах, где отсутствуют данные эпиднадзора. Но предстоит долгий путь, прежде чем прогнозирование гриппа станет таким же рутинным и общепринятым, как прогноз погоды.