Big Data: мощь петабайт

Автор: old.medach.pro

Публикация: 18.02.2018

Исследователи стремятся анализировать стабильно увеличивающиеся запасы информации для разработки программ здравоохранения, ориентированных на конкретного пациента. Пятнадцать лет назад это было эпохальным достижением. Десять лет назад - интригующим, но очень дорогостоящим инструментом для исследований. Теперь же понижающиеся затраты, высокая точность и стабильно растущий фундамент научных знаний вознесли секвенирование генома на вершину рутинной клинической помощи. Растущее число учреждений проводят поиск в целых геномах мутаций, ответственных за редкие заболевания. “В этих случаях мы все чаще находим ключевые варианты,” - говорит Russ Altman, биоинформатик Стэнфордской Медицинской Школы в штате Калифорния. “В некоторых центрах можно обнаружить их в 50% случаев.” Геномные варианты могут также выявлять “драйверные” мутации, открывающие новые возможности для терапии опухолей, либо давать объяснение, почему конкретный индивид может быть восприимчив или невосприимчив к определенным лекарственным средствам, таким образом определяя “фармакогенетические” свойства препаратов. Американская идея “генома ценой в 1000 долларов” рассматривалась отправной точкой, в которой, как было изначально задумано, секвенирование может стать компонентом персонализированной медицины, и этот момент настал. “Наши возможности генерировать информацию в зависимости от стоимости возросли примерно на шесть порядков за последние семь или восемь лет – случай, практически беспрецедентный для науки,” - говорит Пол Фличек, специалист по вычислительной генетике из Европейской лаборатории молекулярной биологии Европейского Института Биоинформатики в Кэмбридже, Великобритания. Например, система HiSeq X Ten, разработанная Illumina (Сан Диего, штат Калифорния), может секвенировать 18.000 человеческих геномов за год.

Источник: журнал Nature. Сделано на основе: Stephens, Z. D. et al. PLoS Biol.13, e1002195 (2015)/CC by 4.0 http://old.creativecommons.org/licenses/by/4.0 Биомедицинское исследовательское сообщество вливается в популяционные программы, предназначенные для изучения возможностей клинического использования генома. В 2014 году Великобритания запустила проект 100.000 геномов (100.000 Genomes Project), а США (под эгидой Precision Medicine Initiative) и Китай (в программе, которую собирается запустить BGI, Шэньчжень) раскрыли планы по расшифровке геномов одного миллиона индивидов. Многие другие программы, хоть и носят более сфокусированный, региональный характер, также имеют дело с “big data”. Партнерство между Geisinger Heath System (Дэнвилл, штат Пенсильвания) и биотехнологической фирмой Regeneron Pharmaceuticals (Тэрритаун, штат Нью Йорк), например, направлено на секвенирование геномов более 250.000 человек. В то же время, все большее количество лечебных учреждений и компаний по всему миру занимаются секвенированием геномов людей с различными формами рака и редких наследственных заболеваний (см. рисунок). Некоторые исследователи боятся, что такой поток информации может оказаться не по силам вычислительной технике, необходимой для анализа, и создать беспрецедентный дефицит средств хранения информации - по оценкам одной из статей, объем получаемой при программах секвенирования информации в скором времени значительно превысит объем данных, хранящейся, например, на серверах YouTube. Многие также опасаются, что на данный момент big data не имеют достаточной клинической значимости. “Я не знаю, является ли миллион геномов достаточным количеством, но очевидно, что информации требуется больше, чем мы имеем сейчас”, - говорит Марк Уильямс, директор Гейзингерского Института Геномной Медицины.

Значение мутаций

В настоящее время клиническая геномика в огромной степени сосредоточена на распозновании однонуклеотидных вариантов - индивидуальных “опечаток” в генетическом коде, способных привести к нарушению работы гена. И вместо того, чтобы рассматривать геном в целом, многие центры сосредотачиваются на экзоме - наборе последовательностей, содержащих гены, кодирующие конкретные белки. Это почти стократно уменьшает количество информации, нуждающейся в анализе, но, тем не менее, в среднем экзом содержит более 13.000 однонуклеотидных вариантов. Примерно 2% этих вариантов, как полагается, могут влиять на строение белков, и обнаужение возбудителей каждого конкретного заболевания является сложной задачей. На протяжении десятилетий биомедицинские исследователи предоставляли свои открытия однонуклеотидных вариантов публичным ресурсам, таким как Human Gene Mutation Database, созданную Институтом Медицинской Генетики Университета Кардиффа (Великобритания), или dbSNP, поддерживаемую Национальным Центром Биотехнологической Информации США. Тем не менее, эффекты этих мутаций часто устанавливались с помощью клеточных культур, животных моделей или даже теоретических предположений, что предоставляло недостаточно информации для инструментов клинической диагностики. “Во многих случаях взаимосвязь основывалась на сравнительно низкоуровневых доказательствах,” - говорит Уильямс. Ситуация еще сложнее со структурными вариантами, такими, как продублированные или утерянные части геномной последовательности, которые намного сложнее выявить с помощью существующих технологий секвенирования, чем однонуклеотидные варианты. В масштабе целого генома у каждого человека - миллионы таких вариантов. Многие из них относятся к последовательностям, которые не кодируют белки, а регулируют активность генов, поэтому так же могут повлиять на развитие заболеваний. Тем не менее, предел и функция этих регуляторных участков недостаточно определены. И хотя установление всех возможных вариаций генома желательно, оно не обязательно позволит нам улучшить клинический аспект секвенирования в краткосрочной перспективе. “Образно говоря, вы стреляете самому себе по ногам, если собираете информацию, которую не можете интерпретировать,” - объясняет Альтман. Сейчас основные силы направлены на решение этой проблемы. The Clinical Genome Resource, основанный Национальным Исследовательским Институтом человеческого генома США - это база данных вариантов, связанных с заболеваниями, и она содержит информацию, которая могла бы помочь при выборе клинической тактики в таких случаях, а также доказательства, подтверждающие эти взаимосвязи. Genomics England, основавшая 100.000 Genomes Project, направлена на поддержание прогресса в этой области, устанавливая “партнерство клинической интерпретации”: врачи и исследователи будут объединять усилия для создания понятных моделей заболеваний, которые потенциально могут быть связаны с определенными генетическими изменениями. Тем не менее, количество так же важно, как и качество. Мутации, вызывающие негативный эффект, являются с эволюционной точки зрения недостатком, поэтому встречаются чрезвычайно редко и требуют большой выборки для обнаружения. Определение статистически значимых взаимосвязей заболеваний для вариантов со слабым эффектом также требует огромного количества обследуемых людей. В Исландии deCODE Genetic продемонстрировали силу популяционной геномики, совмещая обширную генеалогическую информацию и истории болезней с геномной информацией 150.000 людей (включая 15.000 полностью секвенированных геномов). Эти результаты позволили deCODE обобщить распространенность известных генетических факторов риска в популяции, включая генные варинты, связанные с раком молочной железы, диабетом и болезнью Альцгеймера. Они также провели изучение на людях, хотя обычно такие исследования требуют выведения животных с измененным геномом. “Мы обнаружили, что примерно 10.000 исландцев имеют мутации, приводящие к нарушению функции, во всех копиях примерно 1.500 разных генов,” - говорит Кари Стефанссон, директор компании. “Мы вкладываем огромные силы, пытаясь понять, как выключение этих генов влияет на индивидов.” Этой работе поспособствовала относительно гомогенная природа исландской популяции, но другим проектам требуется широко репрезентативный спектр доноров. Такие проекты, как 1000 Genomes Project, позволили в некоторой степени каталогизировать генетическое разнообразие человечества, однако существует сильный перекос данных в сторону европейской популяции, а это делает базу менее полезной для клинических открытий. “Поскольку они, так сказать, выходцы из одной генетической колыбели, люди с африканскими корнями несут в геноме намного больше вариантов, чем не являющиеся выходцами из Африки,” - говорит Исаак Коган, биоинформатик из Харвардской Медицинской Школы, Бостон, штат Массачусетс. “Варианты, кажущиеся необычными у европецев, могут быть распространенными среди африканцев, и не вызывать у них заболеваний.” Часть проблемы создает и сам референсный геном - изначальная последовательность, разработанная многонациональным Genome Reference Consortium, по которой ученые определяли явные отклонения от нормы. Первая версия была собрана от нескольких случайных доноров неустановленной этнической принадлежности, но последняя итерация, известная как GRCh38, объединяет в себе информацию о многообразии человеческого генома.

В облака

Сбор геномов и даже экзомов на уровне популяции создает огромное количество информации, вероятно, около 40 петабайт (40 миллионов гигабайт) ежегодно. Тем не менее, хранение сырой информации не является первостепенной проблемой. “Исследователи геномов - небольшая доля людей, которым нужны жесткие диски побольше,” - говорит Flicek. “Я не думаю, что хранение является значимой проблемой.” Более волнующим обстоятельством является количество анализируемой информации о вариантах, полученной от каждого индивида. “Объем вычислений линейно зависит от количества людей,” - говорит Мэрилин Ричи, геномный исследователь Pennsylvania State University in State College. “Но когда вы добавляете варианты, зависимость становится экспоненциальной, поскольку вы изучаете разные комбинации.” Это становится особенно проблематично, если присутствует дополнительная информация о клинических симптомах или экспрессии гена. Обработка данных таких масштабов, собранных от тысяч людей, может привести в негодность инструменты статистического анализа, обычно использующиеся в маленьких лабораторных исследованиях. Расширение масштабов требует импровизаций, но нужды начинать всю работу по новой нет. “Такие области, как метеорология, экономика, астрономия интегрировали различные типы информации на протяжении большого времени,” - говорит Ричи. “Я присутствовала на некоторых встречах, где говорила с людьми из Google и Facebook, и выяснилось, что наши “big data” не имеют ничего общего с их “big data”. Нам следует пообщаться с ними и понять, как они анализируют информацию, чтобы затем приспособить их способы под нашу область.” К сожалению, многие талантливые программисты, обладающие достаточным опытом для анализа big data, переманены Силиконовой Долиной. Филипп Бурне, помощник директора по изучению данных Национального Института Здоровья США (NIH), полагает, что это частично связано с отсутствием их признания и продвижения через систему публикаций в научном мире, что оставляет создателей программного обеспечения ни с чем. “Некоторые из этих людей серьезно хотят быть учеными, но не могут реализовать себя в этой области - это неправильно,” - отмечает Бурне. Вычислительная мощь является еще одним ограничивающим фактором. “Это не компьютерная игра - настоящие практикующие ученые владеют огромными вычислительными системами с сотнями, если не тысячами, ЦП, каждый из которых имеет огромную оперативную память,” объясняет Коган. Многие группы, анализирующие массивные объемы секвенированной информации, переходят на “облачные” архитектуры, в которых информация распределяется в огромном пуле вычислительных ресурсов и может быть обработана с той вычислительной мощью, которая требуется. “Произошла постепенная эволюция в сторону той идеи, что вы подстраиваете свои алгоритмы под информацию,” говорит Тим Хаббард, глава отдела биоинформатики в Genomics England. Для Genomics England эта архитектура заключена в надежном государственном учреждении, со строгим контролем за внешним доступом. Другие исследовательские группы используют коммерческие облачные системы, предоставляемые, например, Google или Amazon.

Защита личных данных

В принципе, хранение в “облаке” может способствовать сотрудничеству с совместным использованием массивов данных от разных групп. Но нормативно-правовые акты о согласии на обработку личных данных пациента и врачебной тайне о высоко чувствительной клинической информации поднимают ряд непростых этических и юридических вопросов. В Европейском Союзе сотрудничеству препятствует то, что входящие в него страны имеют разные правила работы с информацией. Обмен с не входящими в ЕС нациями зависит от сложных механизмов обеспечения адекватной защиты информации, либо на ограничительных двусторонних соглашениях с индивидуальными организациями. Чтобы поспособствовать решению данной проблемы, мультинациональная коалиция Global Alliance for Genomics and Health разработала Framework for Responsible Sharing of Genomic and Health-Related Data. Framework включает в себя методические рекомендации, касающиеся приватности и добровольности, а также ответственности и юридических последствий для тех, кто нарушает правила.

Быстрые изменения в технологиях меняют и изучение генома. Len Rubenstein/The Broad Institute “Если договоры по обмену информацией вступят в силу, вы сможете оградить себя от изучения многих и многих страниц правил, если ваши учреждение, исследователь и спонсор будут согласны следовать Framework,” - говорит Берта Нопперс, биоэтик McGill University (Монреаль, Канада), председатель законодательной и этической рабочих групп альянса. Framework также призывает к использованию “безопасных хранилищ”, позволяющих исследователям анализировать геномную информацию, которая была частично, но не полностью, анонимизирована. “Мы хотим связать ее с клинической информацией и историями болезней, поскольку в противном случае мы никогда не добъемся точности в медицине, так что нам необходимо использовать закодированную информацию,” - объясняет Нопперс. Интеграция геномной информации с электронными историями болезни становится все более важна для европейских стран. “Наша цель - сделать это стандартом национальной медицинской помощи,” - говорит Хаббард. Британский 100.000 Genomes Project, на данный момент, вероятно, зашел дальше всего, но другие страны стараются не отставать. К примеру, Бельгия недавно объявила об инициативе исследовать медицинскую геномику. Для этих стран является премуществом существование централизованных государственных систем здравоохранения. В США ситуация более разрозненна, отдельные поставщики полагаются на различные системы хранения медицинской информации, предоставляемые разными продавцами, и в целом эти системы не предназначены для сложной геномной информации. NIH запустила Electronic Medical Records and Genomics (eMERGE) Network в 2007, чтобы определить лучшую из них.

От информации к диагнозу

Сиюминутной задачей истории болезни, обогащенной информацией о геноме, является объяснение содержания вариантов генов для врачей, и одним из ее самых ранних применений станет фармакогенетика. The Clinical Pharmacogenetics Implementation Consortium смогли приспособить известные взаимосвязи по типу “лекарственное средство-ген”, сообщенные в PharmGRB (база данных, которую поддерживают Altman и его коллеги), под клиническую практику. Например, некоторые антикоагулянты могут быть несостоятельны у людей с определенными генетическими вариантами, что повышает риск инфаркта. “Проблемой здесь является то, как эффективно повлиять на практику рядового врача, уделяющего около 12 минут на каждого пациента, из которых примерно 45 секунд уходят на назначение лекарственных средств?” - говорит Альтман До тех пор, пока адаптация здравоохранения под генетические открытия остается работой человека, этот процесс будет затратен в плане времени и сил. Тем не менее, совмещение информации о генотипе и фенотипе, как показывает практика, является очень выгодным с исследовательской точки зрения. Наиболее клинически релевантные варианты генов были идентифицированы с помощью ассоциативных исследований целых геномов, в которых люди с определенными заболеваниями обследовались с целью обнаружения связанных с ними генетических сигнатур. Исследователи теперь могут отталкиваться от историй болезни, чтобы определить, какие клинические проявления наиболее распространены у лиц с данным генетическим вариантом. А еще геном - это только часть картины, другие “-омы” могут также выступать в качестве идентификатора здоровья. В июле Джан Вонг ушел с поста директора BGI и основал организацию, целью которой является анализ запланированной BGI когорты в миллион геномов, а также сравнение их с эквивалентными данными, полученными от протеомов, транскриптомов и метаболомов. “Я создам новое учреждение, чтобы сосредоточиться на использовании искуственного интеллекта для изучения этого типа big data,” - говорит Jung Wang.

Нужно больше вовлекать пациентов

По мере того, как исследователи стремятся интегрировать информацию из историй болезни и клинических исследований с геномной и другой физиологической информацией, пациенты начинают вносить свой вклад. “Когда мы сосредотачиваемся на вещах вроде поведения, питания, упражнений, курения и алкоголя, лучше той информации, что нам сообщают пациенты, получить просто невозможно,” - говорит Ричи. Портативные приспособления, такие как смартфоны и FitBit’ы, собирают информацию о упражнениях и сердечном ритме, объем этой информации растет (см.мобильные данные: созданы для анализа), поскольку она собирается с приложением минимальных усилий со стороны пациента. Каждый пациент может стать производителем big data. “Информация, генерируемая нами дома и на улице станет куда больше той, что мы собираем в области здравоохранения,” - говорит Kohane. “Мы стараемся создать огромные коллажи из информации различной модальности - геномной, средовой, клинической - а затем снова связываем ее с пациентом.” Когда эти разработки станут реальностью, мы сможем создать вычислительную технику настолько мощную, что современные проблемы “big data” будут казаться задачей для карманного калькулятора. И когда ученые найдут способ работы с этой информацией, пациенты окажутся в выигрыше. Оригинал Перевод: Станислав Кирсанов Изображение: Станислав Кирсанов Редакция: Ян Тихий, Даня Ряскина, Николай Лисицкий