Big Data: мощь петабайт
Автор: old.medach.pro
Публикация: 18.02.2018
Исследователи стремятся анализировать стабильно увеличивающиеся запасы информации для разработки программ здравоохранения, ориентированных на конкретного пациента.
Пятнадцать лет назад это было эпохальным достижением. Десять лет назад - интригующим, но очень дорогостоящим инструментом для исследований. Теперь же понижающиеся затраты, высокая точность и стабильно растущий фундамент научных знаний вознесли секвенирование генома на вершину рутинной клинической помощи.
Растущее число учреждений проводят поиск в целых геномах мутаций, ответственных за редкие заболевания. “В этих случаях мы все чаще находим ключевые варианты,” - говорит Russ Altman, биоинформатик Стэнфордской Медицинской Школы в штате Калифорния. “В некоторых центрах можно обнаружить их в 50% случаев.” Геномные варианты могут также выявлять “драйверные” мутации, открывающие новые возможности для терапии опухолей, либо давать объяснение, почему конкретный индивид может быть восприимчив или невосприимчив к определенным лекарственным средствам, таким образом определяя “фармакогенетические” свойства препаратов.
Американская идея “генома ценой в 1000 долларов” рассматривалась отправной точкой, в которой, как было изначально задумано, секвенирование может стать компонентом персонализированной медицины, и этот момент настал. “Наши возможности генерировать информацию в зависимости от стоимости возросли примерно на шесть порядков за последние семь или восемь лет – случай, практически беспрецедентный для науки,” - говорит Пол Фличек, специалист по вычислительной генетике из Европейской лаборатории молекулярной биологии Европейского Института Биоинформатики в Кэмбридже, Великобритания. Например, система HiSeq X Ten, разработанная Illumina (Сан Диего, штат Калифорния), может секвенировать 18.000 человеческих геномов за год.
Источник: журнал Nature. Сделано на основе: Stephens, Z. D. et al. PLoS Biol.13, e1002195 (2015)/CC by 4.0 http://old.creativecommons.org/licenses/by/4.0
Биомедицинское исследовательское сообщество вливается в популяционные программы, предназначенные для изучения возможностей клинического использования генома. В 2014 году Великобритания запустила проект 100.000 геномов (100.000 Genomes Project), а США (под эгидой Precision Medicine Initiative) и Китай (в программе, которую собирается запустить BGI, Шэньчжень) раскрыли планы по расшифровке геномов одного миллиона индивидов. Многие другие программы, хоть и носят более сфокусированный, региональный характер, также имеют дело с “big data”. Партнерство между Geisinger Heath System (Дэнвилл, штат Пенсильвания) и биотехнологической фирмой Regeneron Pharmaceuticals (Тэрритаун, штат Нью Йорк), например, направлено на секвенирование геномов более 250.000 человек. В то же время, все большее количество лечебных учреждений и компаний по всему миру занимаются секвенированием геномов людей с различными формами рака и редких наследственных заболеваний (см. рисунок).
Некоторые исследователи боятся, что такой поток информации может оказаться не по силам вычислительной технике, необходимой для анализа, и создать беспрецедентный дефицит средств хранения информации - по оценкам одной из статей, объем получаемой при программах секвенирования информации в скором времени значительно превысит объем данных, хранящейся, например, на серверах YouTube. Многие также опасаются, что на данный момент big data не имеют достаточной клинической значимости. “Я не знаю, является ли миллион геномов достаточным количеством, но очевидно, что информации требуется больше, чем мы имеем сейчас”, - говорит Марк Уильямс, директор Гейзингерского Института Геномной Медицины.

Значение мутаций
В настоящее время клиническая геномика в огромной степени сосредоточена на распозновании однонуклеотидных вариантов - индивидуальных “опечаток” в генетическом коде, способных привести к нарушению работы гена. И вместо того, чтобы рассматривать геном в целом, многие центры сосредотачиваются на экзоме - наборе последовательностей, содержащих гены, кодирующие конкретные белки. Это почти стократно уменьшает количество информации, нуждающейся в анализе, но, тем не менее, в среднем экзом содержит более 13.000 однонуклеотидных вариантов. Примерно 2% этих вариантов, как полагается, могут влиять на строение белков, и обнаужение возбудителей каждого конкретного заболевания является сложной задачей. На протяжении десятилетий биомедицинские исследователи предоставляли свои открытия однонуклеотидных вариантов публичным ресурсам, таким как Human Gene Mutation Database, созданную Институтом Медицинской Генетики Университета Кардиффа (Великобритания), или dbSNP, поддерживаемую Национальным Центром Биотехнологической Информации США. Тем не менее, эффекты этих мутаций часто устанавливались с помощью клеточных культур, животных моделей или даже теоретических предположений, что предоставляло недостаточно информации для инструментов клинической диагностики. “Во многих случаях взаимосвязь основывалась на сравнительно низкоуровневых доказательствах,” - говорит Уильямс. Ситуация еще сложнее со структурными вариантами, такими, как продублированные или утерянные части геномной последовательности, которые намного сложнее выявить с помощью существующих технологий секвенирования, чем однонуклеотидные варианты. В масштабе целого генома у каждого человека - миллионы таких вариантов. Многие из них относятся к последовательностям, которые не кодируют белки, а регулируют активность генов, поэтому так же могут повлиять на развитие заболеваний. Тем не менее, предел и функция этих регуляторных участков недостаточно определены. И хотя установление всех возможных вариаций генома желательно, оно не обязательно позволит нам улучшить клинический аспект секвенирования в краткосрочной перспективе. “Образно говоря, вы стреляете самому себе по ногам, если собираете информацию, которую не можете интерпретировать,” - объясняет Альтман. Сейчас основные силы направлены на решение этой проблемы. The Clinical Genome Resource, основанный Национальным Исследовательским Институтом человеческого генома США - это база данных вариантов, связанных с заболеваниями, и она содержит информацию, которая могла бы помочь при выборе клинической тактики в таких случаях, а также доказательства, подтверждающие эти взаимосвязи. Genomics England, основавшая 100.000 Genomes Project, направлена на поддержание прогресса в этой области, устанавливая “партнерство клинической интерпретации”: врачи и исследователи будут объединять усилия для создания понятных моделей заболеваний, которые потенциально могут быть связаны с определенными генетическими изменениями. Тем не менее, количество так же важно, как и качество. Мутации, вызывающие негативный эффект, являются с эволюционной точки зрения недостатком, поэтому встречаются чрезвычайно редко и требуют большой выборки для обнаружения. Определение статистически значимых взаимосвязей заболеваний для вариантов со слабым эффектом также требует огромного количества обследуемых людей. В Исландии deCODE Genetic продемонстрировали силу популяционной геномики, совмещая обширную генеалогическую информацию и истории болезней с геномной информацией 150.000 людей (включая 15.000 полностью секвенированных геномов). Эти результаты позволили deCODE обобщить распространенность известных генетических факторов риска в популяции, включая генные варинты, связанные с раком молочной железы, диабетом и болезнью Альцгеймера. Они также провели изучение на людях, хотя обычно такие исследования требуют выведения животных с измененным геномом. “Мы обнаружили, что примерно 10.000 исландцев имеют мутации, приводящие к нарушению функции, во всех копиях примерно 1.500 разных генов,” - говорит Кари Стефанссон, директор компании. “Мы вкладываем огромные силы, пытаясь понять, как выключение этих генов влияет на индивидов.” Этой работе поспособствовала относительно гомогенная природа исландской популяции, но другим проектам требуется широко репрезентативный спектр доноров. Такие проекты, как 1000 Genomes Project, позволили в некоторой степени каталогизировать генетическое разнообразие человечества, однако существует сильный перекос данных в сторону европейской популяции, а это делает базу менее полезной для клинических открытий. “Поскольку они, так сказать, выходцы из одной генетической колыбели, люди с африканскими корнями несут в геноме намного больше вариантов, чем не являющиеся выходцами из Африки,” - говорит Исаак Коган, биоинформатик из Харвардской Медицинской Школы, Бостон, штат Массачусетс. “Варианты, кажущиеся необычными у европецев, могут быть распространенными среди африканцев, и не вызывать у них заболеваний.” Часть проблемы создает и сам референсный геном - изначальная последовательность, разработанная многонациональным Genome Reference Consortium, по которой ученые определяли явные отклонения от нормы. Первая версия была собрана от нескольких случайных доноров неустановленной этнической принадлежности, но последняя итерация, известная как GRCh38, объединяет в себе информацию о многообразии человеческого генома.В облака
Сбор геномов и даже экзомов на уровне популяции создает огромное количество информации, вероятно, около 40 петабайт (40 миллионов гигабайт) ежегодно. Тем не менее, хранение сырой информации не является первостепенной проблемой. “Исследователи геномов - небольшая доля людей, которым нужны жесткие диски побольше,” - говорит Flicek. “Я не думаю, что хранение является значимой проблемой.” Более волнующим обстоятельством является количество анализируемой информации о вариантах, полученной от каждого индивида. “Объем вычислений линейно зависит от количества людей,” - говорит Мэрилин Ричи, геномный исследователь Pennsylvania State University in State College. “Но когда вы добавляете варианты, зависимость становится экспоненциальной, поскольку вы изучаете разные комбинации.” Это становится особенно проблематично, если присутствует дополнительная информация о клинических симптомах или экспрессии гена. Обработка данных таких масштабов, собранных от тысяч людей, может привести в негодность инструменты статистического анализа, обычно использующиеся в маленьких лабораторных исследованиях. Расширение масштабов требует импровизаций, но нужды начинать всю работу по новой нет. “Такие области, как метеорология, экономика, астрономия интегрировали различные типы информации на протяжении большого времени,” - говорит Ричи. “Я присутствовала на некоторых встречах, где говорила с людьми из Google и Facebook, и выяснилось, что наши “big data” не имеют ничего общего с их “big data”. Нам следует пообщаться с ними и понять, как они анализируют информацию, чтобы затем приспособить их способы под нашу область.” К сожалению, многие талантливые программисты, обладающие достаточным опытом для анализа big data, переманены Силиконовой Долиной. Филипп Бурне, помощник директора по изучению данных Национального Института Здоровья США (NIH), полагает, что это частично связано с отсутствием их признания и продвижения через систему публикаций в научном мире, что оставляет создателей программного обеспечения ни с чем. “Некоторые из этих людей серьезно хотят быть учеными, но не могут реализовать себя в этой области - это неправильно,” - отмечает Бурне. Вычислительная мощь является еще одним ограничивающим фактором. “Это не компьютерная игра - настоящие практикующие ученые владеют огромными вычислительными системами с сотнями, если не тысячами, ЦП, каждый из которых имеет огромную оперативную память,” объясняет Коган. Многие группы, анализирующие массивные объемы секвенированной информации, переходят на “облачные” архитектуры, в которых информация распределяется в огромном пуле вычислительных ресурсов и может быть обработана с той вычислительной мощью, которая требуется. “Произошла постепенная эволюция в сторону той идеи, что вы подстраиваете свои алгоритмы под информацию,” говорит Тим Хаббард, глава отдела биоинформатики в Genomics England. Для Genomics England эта архитектура заключена в надежном государственном учреждении, со строгим контролем за внешним доступом. Другие исследовательские группы используют коммерческие облачные системы, предоставляемые, например, Google или Amazon.Защита личных данных
В принципе, хранение в “облаке” может способствовать сотрудничеству с совместным использованием массивов данных от разных групп. Но нормативно-правовые акты о согласии на обработку личных данных пациента и врачебной тайне о высоко чувствительной клинической информации поднимают ряд непростых этических и юридических вопросов. В Европейском Союзе сотрудничеству препятствует то, что входящие в него страны имеют разные правила работы с информацией. Обмен с не входящими в ЕС нациями зависит от сложных механизмов обеспечения адекватной защиты информации, либо на ограничительных двусторонних соглашениях с индивидуальными организациями. Чтобы поспособствовать решению данной проблемы, мультинациональная коалиция Global Alliance for Genomics and Health разработала Framework for Responsible Sharing of Genomic and Health-Related Data. Framework включает в себя методические рекомендации, касающиеся приватности и добровольности, а также ответственности и юридических последствий для тех, кто нарушает правила.