Основы BIG DATA для начинающих иммунологов

Автор: old.medach.pro

Публикация: 18.02.2018

Joachim L Schultze

Сейчас, кажется, что все и вся сводится к «большим данным». Перед нами стоит задача обучить молодое поколение иммунологов формулировать осмысленные гипотезы с помощью ресурсов больших данных.

Представьте себе двух иммунологов – Билла и Стива, которые встретились в 2030 году. Стив спрашивает: «Билл, как продвигается твоя научная работа?» на что Билл отвечает: «У нас есть доступ к 500 петабайтам хранилища, вычислительный кластер с 100000 узлами ядерных процессоров (GPU) c 500 терабайтами оперативной памяти и новейший механизм интеграции данных, который позволит нам моментально получить доступ ко всем данным, находящимся в открытом доступе по всему миру». Уже ведутся многочисленные разработки, чтобы воплотить этот план в жизнь. Революция больших данных включает в себя 3 компонента (3V): объем данных (volume), скорость обработки данных (velocity) и многообразие источников данных (variability); следовательно, необходима подготовка для того, чтобы воспользоваться преимуществами научно-технического прогресса и овладеть инструментами для детального исследования больших датасетов с максимальным эффектом. Более того, каждый иммунолог сможет работать с высококачественными данными по клеткам первичного иммунного ответа, взятых от многочисленных видов, причем данные будут находиться в открытом доступе. В настоящий момент и в ближайшие десятилетия накопится огромный объем информации, молодым иммунологам нет нужды становиться как таковыми специалистами по компьютерным технологиям, но им потребуется знать, как воспользоваться этим богатством данных. Таким образом, потребуется обучение не только молекулярной и системной иммунологии, но и работе с большими данными. Для этого необходимы изменения в программах обучения специалистов, получающих среднее и высшее образование, пройдя которые, студенты смогут погрузиться в эру науки больших данных и использовать многочисленные источники информации в построении гипотез. Здесь я затрону некоторые разработки в науке больших данных, ее влияние на иммунологию и то, как нам следует адаптировать наши образовательные программы, чтобы справиться с ожидаемыми изменениями.

Большие данные в медико-биологических науках

Когда дело доходит до больших данных в медико-биологических науках, главными поставщиками данных оказываются “омики”. Ошеломляет увеличение объема данных NGS (секвенирование следующего поколения), улучшение производительности секвенирования, появление разных подходов к получению сиквенса ДНК, изучению её структуры или метилирования, а также ДНК- и РНК-белковых взаимодействий и открытие разных видов РНК. Благодаря интеграции технологий разных «омик» также улучшается и качество информации. Например, роль связывания транскрипционных факторов с ДНК в экспрессии генов гораздо лучше описывается при добавлении к анализу транскриптомных данных, полученных с того же образца. Другие технологии, включая протеомику, липидомику, микробиомику, метаболомику и микроскопию высокого разрешения вносят вклад в лавину больших данных.

Нужно иметь в виду, что получение всё больших массивов данных не ограничено лишь фармацевтическими компаниями или крупными геномными центрами. Благодаря научно-техническому прогрессу, любой ученый-биолог может компилировать терабайты данных. Эффективное хранение и извлечение данных, несомненно, является ограничивающим фактором, но ещё более уязвимые места включают постановку корректных вопросов ко всем имеющимся данным, быстрое и осмысленное изучение данных, визуализацию данных интуитивным способом и выведение логических заключений из моделей, полученных при анализе больших данных. Доступность больших массивов данных изменит наш подход к постановке научных вопросов (Рис. 1). Помимо прочего, создание больших данных должно основываться на основательных биологических наблюдениях, например, смена клеточной функции в ответ на стимул из окружающей среды. Только в том случае, когда дизайн эксперимента с большими данными отражает биологические наблюдения, большие данные могут быть значимыми для создания вычислительных моделей, которые определяют приоритет гипотез, разработанных для объяснения начальных наблюдений. В таком случае использование больших данных является минимизирующей риск стратегией для быстрого получения наиболее приемлемой гипотезы, которая объяснит биологический смысл наблюдений. Поскольку следующее поколение иммунологов должно быть в состоянии выполнять подобные задачи, мы должны обучить их как навыкам практических экспериментов, так и вычислительным навыкам.

Источник: журнал Nature

Цикл анализа больших данных в системной иммунологии как подход в применении больших массивов данных при генерировании ориентированных на данные гипотез, чтобы использовать приоритетные гипотезы для дальнейшего экспериментального подтверждения с помощью классического подхода, например: мутации с потерей функции или с приобретением функции, in vivo моделирование болезней, мышиные генетические модели и другие функциональные и наблюдательные подходы, такие как визуализация живых клеток или проточная цитометрия.

Большие данные в иммунологии

Некоторые области иммунологических исследований получают значительные преимущества из сложного анализа больших данных, включая геномные, эпигеномные, транскриптомные, метаболомные, липидомные, протеомные, цитомные (CyTOF) данные и даже данные о микробиоме (Рис. 2). Примером служит анализ определенных репертуаров B- или Т-клеточных антигенных рецепторов. Недавние достижения в области цитометрии, технологий работы с одиночной клеткой, масс-спектрометрии и высокопроизводительного секвенирования репертуара рецепторов В- и Т-клеток (BCR и TCR), позволят проанализировать реакцию B- и T-клеток по последовательным изменениям в клональной и популяционной динамике, таким образом предоставив более полную картину иммунного ответа на данный стимул или терапевтическое вмешательство. Большие данные, полученные в результате анализа репертуара BCR и TCR человека на уровне единичных рецепторов, особенно в совокупности с технологиями, которые могут определить антигенные эпитопы, узнаваемые этими рецепторами, выведут на новый уровень клиническую диагностику, разработку лекарств на основе антител и разработку вакцин и поспособствуют лучшему пониманию способности процессированных аутоантигенов пептидов связать эти рецепторы.

Другой пример - комбинация транскриптомных данных с расширенной биоинформатической обработкой, применяемой для того, чтобы разложить активацию иммунных клеток по многомерной шкале либо вдоль временной шкалы или совместить и то, и другое. Транскриптомы - превосходная стартовая точка для выявления транскрипционных регуляторных сетей в процессе активации иммунных клеток. Такие сети могут быть обогащены генами определенных классов (например, генами транскрипционных факторов), которые могут быть исследованы в последующих экспериментах после установления приоритетов на основе иерархии, определенной беспристрастным компьютерным моделированием транскриптомных данных. Другой источник больших данных – применяемые с недавнего времени технологии секвенирования РНК одиночных клеток, эти технологии коренным образом изменят способ определения субпопуляций иммунных клеток в ближайшем будущем.

Источник: журнал Nature

Инновационные средства интеграции баз данных позволят проводить анализ и интегрировать данные от разных ресурсов больших данных в медико-биологических науках в будущем.

Перспективы программ подготовки иммунологов

Чтобы проектировать перспективные программы обучения работы с большими данными в иммунологии, нам нужно четкое представление и понимание того, какую роль иммунология должна играть в будущем. Между центрами и университетами и от страны к стране могут быть различия, но в любом случае, большие данные будут играть важную роль. Появление науки о больших данных, основанной на «омиках», позволит произвести оценку иммунных особенностей человека в беспрецедентных деталях и интегрировать данные, полученные с помощью различных технологий с высокой пропускной способностью. Все более очевидным становится тот факт, что видоспецифичные генетические, эпигенетические механизмы и механизмы, опосредованные микробиомом, являются важными модуляторами иммунных механизмов и болезней, и лучше всего изучены на людях, с использованием технологий различных «омик». Уже было отмечено, что это пробудит новый интерес к человеческой иммунологии в ближайшие десятилетия, и, таким образом, приведет к использованию «омики» в изучении иммунологии человека - это должно быть отражено в образовательных планах наших программ обучения. Кроме того, наша способность оценивать геномные различия между особями и видами и сопоставлять микробиомы разных органов (для этого необходимо получить и проанализировать большой массив данных) приведет к безальтернативному проецированию (mandatory reporting) таких данных с «омик» на животные модели человеческих болезней. Можно ожидать, что в условиях повышения необходимости информации по полному геному и микробиому соответствующих животных моделей сместит интересы исследователей в сторону иммунологии человека, в частности направит интерес в сторону болезней (связанных с иммунитетом) для которых генетическая, эпигенетическая информация или информация о микробиоме может быть получена с разумными усилиями на людях.

Руководствуясь подобным настроем, можно предложить следующий сценарий. Интеграция биоинформатики, геномики, науки о больших данных и системной биологии в учебных программах для бакалавриата, магистратуры и аспирантуры по специализации «иммунология» была бы самым благоприятным решением (Вставка 1). На сегодняшний день никто не попросил бы специализированную магистерскую программу по генетическому моделированию на мышах. Все же, понимание, по меньшей мере, основ генной инженерии на мышиной модели – обязательное условие для передового иммунологического исследования, и это является неотъемлемой частью учебных программ по иммунологии. Теперь неотъемлемой частью наших учебных программ по иммунологии должны стать наука о больших данных и подход на основе методов системного анализа. Большинству учреждений потребуется наладить тесное сотрудничество для обучения сотрудников компьютерным наукам, информатике, биоинформатике и математике.

Вставка 1. Предложения для будущих программ среднего образования в иммунологии

Минимальные требования

Запуск междисциплинарных, межфакультетских или межкафедральных учебных программ, которые, по меньшей мере, должны включать нижеперечисленные дисциплины:

Иммунология;
Вычислительные науки;
Молекулярная медицина или биология;
Генетика или геномика.

Интегрирование лекций, курсов и семинаров по биоинформатике и геномике в учебные программы:

Эти лекции, курсы и семинары должны быть обязательными (не факультативными);
Объединение с вычислительными науками; удостоверьтесь, что курсы разработаны в соответствии с тем компьютерным подходом, который применяется в иммунологических исследованиях;
Практические курсы должны включать опыт анализа реальных данных;
Включить стажировки в лабораториях по вычислительным технологиям как часть учебной программы, включая отчет по стажировке.

Дополнительные предложения

Предложение добавочных курсов по науке о больших данных и системной иммунологии:

Эти лекции могут быть факультативными;
Объединение с кафедрами, которые занимаются анализом больших данных в системной биологии; удостоверьтесь, что курсы разработаны в соответствии с тем компьютерным подходом, который применяется в иммунологических исследованиях;
Предложить возможность учить языки программирования (факультатив).

Другая задача – временные рамки. Когда мы должны начинать обучение юных иммунологов? Это труднодостижимо в старших классах школы, следующей ступенькой будет среднее образование в колледжах и бакалавриат в университетах. Программы, которые специализируются на молекулярной части медико-биологических наук, должны, по крайней мере, объединить иммунологию и биоинформатику. Изучение некоторых основ науки больших данных и программирования позволило бы следующему поколению ученых использовать многообразие данных намного лучше, чем мы можем сделать это сегодня (Вставка 2). Эти молодые ученые, которые уже будут опытными пользователями интернета, должны влиться в зону взаимодействия между иммунологией, наукой о больших данных и вычислительной биологией. Как и с любым типом двойного гражданства, умение говорить на обоих языках будет ключевым фактором успеха. Дальнейшая специализация может следовать после получения степени бакалавра. В зависимости от системы образования это должно быть или встроено в магистерские программы (как, например, в Европе) или непосредственно в учебные программы подготовки PhD (Philosophy Doctor - соотв. кандидату наук в российской системе образования) (как в США). Можно только представить магистерскую программу по молекулярной и системной иммунологии, охватывающую как классические аспекты иммунологии (иммунология врожденного иммунитета, иммунология приобретенного иммунитета, иммунология инфекций и иммунология опухолей), так и клиническую иммунологию, геномику и другие «омики», биоинформатику, науку о больших данных и системную иммунологию.

В процессе PhD фазы юным иммунологам необходимо предложить дополнительное обучение науке больших данных, системной иммунологии или вычислительной биологии. Существует, по крайней мере, четыре уровня компетентности, которые могут быть достигнуты. Минимальный уровень компетентности характеризует наличие осведомленности о больших данных в открытом доступе, технологиях, с помощью которых большие данные были получены и о принципах анализа больших данных. Следующим шагом будет знакомство с уже опубликованными хорошими примерами анализа больших данных в иммунологии. Критическим шагом будет практическое обучение анализу больших данных с использованием хороших примеров из практики, которые были опубликованы ранее. Только справившись с этими заданиями, возможно достичь наивысшего уровня компетентности в анализе больших данных, что позволит полностью использовать потенциал больших данных, расположить по приоритетам самые важные вопросы, объединить интуицию с биологической значимостью и разработать лучший дизайн эксперимента с большими данными. Этот, наивысший, уровень требует обучения глубокому пониманию иммунологии, учитывая достаточное время для практики по анализу больших данных. При наличии возможности, PhD студенты могут проходить практику в течение некоторого времени в сотрудничающих лабораториях, которые полностью ориентированы на работу с большими данными, например, геномные лаборатории. В течение этого времени студенты ежедневно будут напрямую взаимодействовать со специалистами по вычислительным технологиям, чтобы научиться и попрактиковаться в столь необходимых вычислительных навыках. Чем лучше студенты будут натренированы заранее, в течение их бакалаврских или магистерских программ, тем легче они найдут подобную стажировку. При этом, такая модель благоприятствует новому способу взаимодействовать, делиться знаниями, опытом и данными в очень тесном сотрудничестве между разными группами. Другим вариантом для PhD студентов могут быть структурированные программы в науке о больших данных. Чрезвычайно удобным это будет для студентов, которые не имели опыта в вычислительных науках до их стадии PhD. Подобная траектория может быть разработана и для студентов вычислительных наук – если они хотят работать с проблемами в иммунологии, им необходимо узнать основные концепции нашей сферы деятельности. Таким образом, их нужно обучить азам иммунологии, иммунологическим техникам и модельным системам, включая практические эксперименты в лабораториях. Все это открывает два пути к анализу больших данных в иммунологии.

А что насчет постдоков? Наука на границе различных дисциплин, таких как иммунология, геномика, информатика, наука о больших данных, вычислительная биология и биоинформатика потребует пожизненного непрерывного образования. Даже имея определенный уровень знаний, мы ежедневно изучаем новые подходы в контексте этих дисциплин. Для тех из нас, кто не рос в среде больших данных и кто в процессе исследовательской деятельности не имел дела с вычислительными науками, обучение на практике будет в значительной степени важным. Образовательные онлайн платформы, такие как Class Central (https://www.class-central.com) уже предлагают многочисленные онлайн-курсы по науке о больших данных, биоинформатике и программированию. Трата времени для изучения дисциплин, не затронутых в университете, станет широко распространенной практикой. Тем не менее, чем лучше учебное заведение изначально, тем лучше будет и научное будущее в этой самой захватывающей области исследований (Вставка 2).

Вставка 2. Главные аспекты работы для ученых, заинтересованных в больших данных в иммунологии

Участвовать в программах среднего и высшего образования, которые располагают классами, семинарами и курсами, как по классическим аспектам иммунологии, так и по биоинформатике, вычислительной биологии, геномике и системной иммунологии;
Изучить основы циклов анализа больших данных в системной иммунологии. Понимать, как большие данные могут быть использованы для построения моделей, которые помогут расставить приоритеты гипотез в режимах компьютерного управления (смотри рис. 1);
Изучить другой язык, а именно язык программирования, хорошим выбором будут языки R, Perl и Python;
Для кандидатской диссертации поищите проекты на стыке иммунологии и вычислительной биологии. Лучше всего будет примкнуть к институту или лаборатории, которые предлагают как практические эксперименты, так и in silico. Если у вас есть возможность получения собственных высокоинформативных данных, вы можете проработать вашу собственную гипотезу, полученную из ваших обсчетов с ваших данных. Если вы можете обосновать их с помощью экспериментов на практике, то вы проделаете полный цикл в системной иммунологии;
Посетить летние школы по вычислительной биологии, например, школа по биоинформатике и вычислительной биологии в Липари, летняя программа по биостатистике и вычислительной биологии в Гарварде, летняя школа по большим данным в биологии в Техасском университете в Остине и Дрезденская летняя школа по системной биологии. Существует много других программ и вы легко можете найти информацию о них в интернете;
Будучи постдоком, совершенствуйте ваши компьютерные навыки в свободное время;
Будучи молодым руководителем научно-исследовательской группы, работайте как с экспертами по иммунологии, так и по вычислительным наукам;
Как состоявшийся руководитель научно-исследовательской группы, продолжайте самообразование в области новых технологий и подходов, ориентированных на данные, которые могут быстро определить приоритетность гипотез. Запустите обменные программы со специалистами по вычислительным технологиям, которые готовы разместить ваших сотрудников на согласованный период для того, чтобы дать вашим сотрудникам дополнительные сведения о науке больших данных

Перспективы: новый мир иммунологии

Коль скоро молодые иммунологи освоят анализ больших данных, что же еще изменится в будущих иммунологических исследованиях? Мы должны быстро адаптироваться к исследованиям, построенным на взаимопомощи, на такой схеме работы построены исследования в области физики элементарных частиц, геномика человека и эпигенетика. Чем больше данных мы создаем, тем более привычной становится практика делиться этими данными до публикации. Краудсорсинг станет обычным делом. Сара Фортьюн из Гарвардской школы здравоохранения запустила на POPTECH проект по каталогизации бактериальных клеток (http://old.poptech.org/popcasts/fortune_and_biewald_crowdsourcing_tb_cell_annotation/), задание, с которым до сих пор лучше всего справляются люди. Использование интернета для убеждения тысяч людей присоединиться к выполнению этого задания ускорило проект на несколько лет. Другой пример – «Play to Cure: Genes in Space» («Играй для излечения: гены в космосе», http://old.scienceblog. cancerresearchuk.org/2014/02/04/download-our-revolutionary-mobile-game-to-help-speed-up-cancer-research/). Вкратце, главная задача игрока в этой игре – найти лучший путь для того, чтобы собрать как можно больше «Элемента Альфа» (‘Element Alpha’); таким образом игроки в действительности прокладывают маршрут через настоящие данные с ДНК-микроэррея, тем самым помогая исследователям рака определять паттерны сигналов среди гигабайтов генетической информации от тысяч опухолей. Подобные модели сотрудничества обладают огромным потенциалом демократизации основных научных открытий. Но для того, чтобы это случилось, мы должны выйти из наших лабораторий и обратиться к компьютерным-, веб-, медиа- специалистам, инженерам и даже к широкой общественности. Может быть, если мы сами не готовы, мы можем сплотиться со студентами, овладевшими наукой больших данных, для того, чтобы использовать эти великолепные возможности вне нашей ученой зоны комфорта. Поскольку мы не сможем бесконечно собирать данные в будущем, то должны нести ответственность за наши финансовые ресурсы. Чем больше данных мы собираем, тем больше различий мы будем находить между заболеваниями человека и модельными системами, которые мы используем для изучения этих заболеваний. Особенно актуально это будет для иммуно-опосредованных заболеваний. Наука больших данных, несомненно, окажет сильный эффект на наши приоритеты в дальнейшем. С уверенностью можно сказать, что переориентация нашей активности на иммунологию человека будет результатом тех технологий, которые генерируют большие данные в медико-биологических науках.

Оригинал

Перевод: Полина Тиканова

Изображения: Полина Тиканова

Редакция: Николай Лисицкий, Елена Лисицына, Даня Ряскина, Азат Муртазин

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.