Основы BIG DATA для начинающих иммунологов

Сейчас, кажется, что все и вся сводится к большим данным. Перед нами стоит задача обучить молодое поколение иммунологов формулировать осмысленные гипотезы с помощью ресурсов больших данных.

Представьте себе двух иммунологов Билла и Стива, которые встретились в 2030 году. Стив спрашивает: Билл, как продвигается твоя научная работа? на что Билл отвечает: У нас есть доступ к 500 петабайтам хранилища, вычислительный кластер с 100000 узлами ядерных процессоров (GPU) c 500 терабайтами оперативной памяти и новейший механизм интеграции данных, который позволит нам моментально получить доступ ко всем данным, находящимся в открытом доступе по всему миру. Уже ведутся многочисленные разработки, чтобы воплотить этот план в жизнь. Революция больших данных включает в себя 3 компонента (3V): объем данных (volume), скорость обработки данных (velocity) и многообразие источников данных (variability); следовательно, необходима подготовка для того, чтобы воспользоваться преимуществами научно-технического прогресса и овладеть инструментами для детального исследования больших датасетов с максимальным эффектом. Более того, каждый иммунолог сможет работать с высококачественными данными по клеткам первичного иммунного ответа, взятых от многочисленных видов, причем данные будут находиться в открытом доступе. В настоящий момент и в ближайшие десятилетия накопится огромный объем информации, молодым иммунологам нет нужды становиться как таковыми специалистами по компьютерным технологиям, но им потребуется знать, как воспользоваться этим богатством данных. Таким образом, потребуется обучение не только молекулярной и системной иммунологии, но и работе с большими данными. Для этого необходимы изменения в программах обучения специалистов, получающих среднее и высшее образование, пройдя которые, студенты смогут погрузиться в эру науки больших данных и использовать многочисленные источники информации в построении гипотез. Здесь я затрону некоторые разработки в науке больших данных, ее влияние на иммунологию и то, как нам следует адаптировать наши образовательные программы, чтобы справиться с ожидаемыми изменениями.

Большие данные в медико-биологических науках

Когда дело доходит до больших данных в медико-биологических науках, главными поставщиками данных оказываются омики. Ошеломляет увеличение объема данных NGS (секвенирование следующего поколения), улучшение производительности секвенирования, появление разных подходов к получению сиквенса ДНК, изучению её структуры или метилирования, а также ДНК- и РНК-белковых взаимодействий и открытие разных видов РНК. Благодаря интеграции технологий разных омик также улучшается и качество информации. Например, роль связывания транскрипционных факторов с ДНК в экспрессии генов гораздо лучше описывается при добавлении к анализу транскриптомных данных, полученных с того же образца. Другие технологии, включая протеомику, липидомику, микробиомику, метаболомику и микроскопию высокого разрешения вносят вклад в лавину больших данных.

Нужно иметь в виду, что получение всё больших массивов данных не ограничено лишь фармацевтическими компаниями или крупными геномными центрами. Благодаря научно-техническому прогрессу, любой ученый-биолог может компилировать терабайты данных. Эффективное хранение и извлечение данных, несомненно, является ограничивающим фактором, но ещё более уязвимые места включают постановку корректных вопросов ко всем имеющимся данным, быстрое и осмысленное изучение данных, визуализацию данных интуитивным способом и выведение логических заключений из моделей, полученных при анализе больших данных. Доступность больших массивов данных изменит наш подход к постановке научных вопросов (Рис. 1). Помимо прочего, создание больших данных должно основываться на основательных биологических наблюдениях, например, смена клеточной функции в ответ на стимул из окружающей среды. Только в том случае, когда дизайн эксперимента с большими данными отражает биологические наблюдения, большие данные могут быть значимыми для создания вычислительных моделей, которые определяют приоритет гипотез, разработанных для объяснения начальных наблюдений. В таком случае использование больших данных является минимизирующей риск стратегией для быстрого получения наиболее приемлемой гипотезы, которая объяснит биологический смысл наблюдений. Поскольку следующее поколение иммунологов должно быть в состоянии выполнять подобные задачи, мы должны обучить их как навыкам практических экспериментов, так и вычислительным навыкам.

Цикл анализа больших данных в системной иммунологии как подход в применении больших массивов данных при генерировании ориентированных на данные гипотез, чтобы использовать приоритетные гипотезы для дальнейшего экспериментального подтверждения с помощью классического подхода, например: мутации с потерей функции или с приобретением функции, in vivo моделирование болезней, мышиные генетические модели и другие функциональные и наблюдательные подходы, такие как визуализация живых клеток или проточная цитометрия.

Большие данные в иммунологии

Некоторые области иммунологических исследований получают значительные преимущества из сложного анализа больших данных, включая геномные, эпигеномные, транскриптомные, метаболомные, липидомные, протеомные, цитомные (CyTOF) данные и даже данные о микробиоме (Рис. 2). Примером служит анализ определенных репертуаров B- или Т-клеточных антигенных рецепторов. Недавние достижения в области цитометрии, технологий работы с одиночной клеткой, масс-спектрометрии и высокопроизводительного секвенирования репертуара рецепторов В- и Т-клеток (BCR и TCR), позволят проанализировать реакцию B- и T-клеток по последовательным изменениям в клональной и популяционной динамике, таким образом предоставив более полную картину иммунного ответа на данный стимул или терапевтическое вмешательство. Большие данные, полученные в результате анализа репертуара BCR и TCR человека на уровне единичных рецепторов, особенно в совокупности с технологиями, которые могут определить антигенные эпитопы, узнаваемые этими рецепторами, выведут на новый уровень клиническую диагностику, разработку лекарств на основе антител и разработку вакцин и поспособствуют лучшему пониманию способности процессированных аутоантигенов пептидов связать эти рецепторы.

Другой пример комбинация транскриптомных данных с расширенной биоинформатической обработкой, применяемой для того, чтобы разложить активацию иммунных клеток по многомерной шкале либо вдоль временной шкалы или совместить и то, и другое. Транскриптомы превосходная стартовая точка для выявления транскрипционных регуляторных сетей в процессе активации иммунных клеток. Такие сети могут быть обогащены генами определенных классов (например, генами транскрипционных факторов), которые могут быть исследованы в последующих экспериментах после установления приоритетов на основе иерархии, определенной беспристрастным компьютерным моделированием транскриптомных данных. Другой источник больших данных применяемые с недавнего времени технологии секвенирования РНК одиночных клеток, эти технологии коренным образом изменят способ определения субпопуляций иммунных клеток в ближайшем будущем.

Инновационные средства интеграции баз данных позволят проводить анализ и интегрировать данные от разных ресурсов больших данных в медико-биологических науках в будущем.

Перспективы программ подготовки иммунологов

Чтобы проектировать перспективные программы обучения работы с большими данными в иммунологии, нам нужно четкое представление и понимание того, какую роль иммунология должна играть в будущем. Между центрами и университетами и от страны к стране могут быть различия, но в любом случае, большие данные будут играть важную роль. Появление науки о больших данных, основанной на омиках, позволит произвести оценку иммунных особенностей человека в беспрецедентных деталях и интегрировать данные, полученные с помощью различных технологий с высокой пропускной способностью. Все более очевидным становится тот факт, что видоспецифичные генетические, эпигенетические механизмы и механизмы, опосредованные микробиомом, являются важными модуляторами иммунных механизмов и болезней, и лучше всего изучены на людях, с использованием технологий различных омик. Уже было отмечено, что это пробудит новый интерес к человеческой иммунологии в ближайшие десятилетия, и, таким образом, приведет к использованию омики в изучении иммунологии человека это должно быть отражено в образовательных планах наших программ обучения. Кроме того, наша способность оценивать геномные различия между особями и видами и сопоставлять микробиомы разных органов (для этого необходимо получить и проанализировать большой массив данных) приведет к безальтернативному проецированию (mandatory reporting) таких данных с омик на животные модели человеческих болезней. Можно ожидать, что в условиях повышения необходимости информации по полному геному и микробиому соответствующих животных моделей сместит интересы исследователей в сторону иммунологии человека, в частности направит интерес в сторону болезней (связанных с иммунитетом) для которых генетическая, эпигенетическая информация или информация о микробиоме может быть получена с разумными усилиями на людях.

Руководствуясь подобным настроем, можно предложить следующий сценарий. Интеграция биоинформатики, геномики, науки о больших данных и системной биологии в учебных программах для бакалавриата, магистратуры и аспирантуры по специализации иммунология была бы самым благоприятным решением (Вставка 1). На сегодняшний день никто не попросил бы специализированную магистерскую программу по генетическому моделированию на мышах. Все же, понимание, по меньшей мере, основ генной инженерии на мышиной модели обязательное условие для передового иммунологического исследования, и это является неотъемлемой частью учебных программ по иммунологии. Теперь неотъемлемой частью наших учебных программ по иммунологии должны стать наука о больших данных и подход на основе методов системного анализа. Большинству учреждений потребуется наладить тесное сотрудничество для обучения сотрудников компьютерным наукам, информатике, биоинформатике и математике.

Вставка 1. Предложения для будущих программ среднего образования в иммунологии

Минимальные требования

Запуск междисциплинарных, межфакультетских или межкафедральных учебных программ, которые, по меньшей мере, должны включать нижеперечисленные дисциплины:

Иммунология;
Вычислительные науки;
Молекулярная медицина или биология;
Генетика или геномика.
Интегрирование лекций, курсов и семинаров по биоинформатике и геномике в учебные программы:

Эти лекции, курсы и семинары должны быть обязательными (не факультативными);
Объединение с вычислительными науками; удостоверьтесь, что курсы разработаны в соответствии с тем компьютерным подходом, который применяется в иммунологических исследованиях;
Практические курсы должны включать опыт анализа реальных данных;
Включить стажировки в лабораториях по вычислительным технологиям как часть учебной программы, включая отчет по стажировке.
Дополнительные предложения

Предложение добавочных курсов по науке о больших данных и системной иммунологии:

Эти лекции могут быть факультативными;
Объединение с кафедрами, которые занимаются анализом больших данных в системной биологии; удостоверьтесь, что курсы разработаны в соответствии с тем компьютерным подходом, который применяется в иммунологических исследованиях;
Предложить возможность учить языки программирования (факультатив).
Другая задача временные рамки. Когда мы должны начинать обучение юных иммунологов? Это труднодостижимо в старших классах школы, следующей ступенькой будет среднее образование в колледжах и бакалавриат в университетах. Программы, которые специализируются на молекулярной части медико-биологических наук, должны, по крайней мере, объединить иммунологию и биоинформатику. Изучение некоторых основ науки больших данных и программирования позволило бы следующему поколению ученых использовать многообразие данных намного лучше, чем мы можем сделать это сегодня (Вставка 2). Эти молодые ученые, которые уже будут опытными пользователями интернета, должны влиться в зону взаимодействия между иммунологией, наукой о больших данных и вычислительной биологией. Как и с любым типом двойного гражданства, умение говорить на обоих языках будет ключевым фактором успеха. Дальнейшая специализация может следовать после получения степени бакалавра. В зависимости от системы образования это должно быть или встроено в магистерские программы (как, например, в Европе) или непосредственно в учебные программы подготовки PhD (Philosophy Doctor соотв. кандидату наук в российской системе образования) (как в США). Можно только представить магистерскую программу по молекулярной и системной иммунологии, охватывающую как классические аспекты иммунологии (иммунология врожденного иммунитета, иммунология приобретенного иммунитета, иммунология инфекций и иммунология опухолей), так и клиническую иммунологию, геномику и другие омики, биоинформатику, науку о больших данных и системную иммунологию.

В процессе PhD фазы юным иммунологам необходимо предложить дополнительное обучение науке больших данных, системной иммунологии или вычислительной биологии. Существует, по крайней мере, четыре уровня компетентности, которые могут быть достигнуты. Минимальный уровень компетентности характеризует наличие осведомленности о больших данных в открытом доступе, технологиях, с помощью которых большие данные были получены и о принципах анализа больших данных. Следующим шагом будет знакомство с уже опубликованными хорошими примерами анализа больших данных в иммунологии. Критическим шагом будет практическое обучение анализу больших данных с использованием хороших примеров из практики, которые были опубликованы ранее. Только справившись с этими заданиями, возможно достичь наивысшего уровня компетентности в анализе больших данных, что позволит полностью использовать потенциал больших данных, расположить по приоритетам самые важные вопросы, объединить интуицию с биологической значимостью и разработать лучший дизайн эксперимента с большими данными. Этот, наивысший, уровень требует обучения глубокому пониманию иммунологии, учитывая достаточное время для практики по анализу больших данных. При наличии возможности, PhD студенты могут проходить практику в течение некоторого времени в сотрудничающих лабораториях, которые полностью ориентированы на работу с большими данными, например, геномные лаборатории. В течение этого времени студенты ежедневно будут напрямую взаимодействовать со специалистами по вычислительным технологиям, чтобы научиться и попрактиковаться в столь необходимых вычислительных навыках. Чем лучше студенты будут натренированы заранее, в течение их бакалаврских или магистерских программ, тем легче они найдут подобную стажировку. При этом, такая модель благоприятствует новому способу взаимодействовать, делиться знаниями, опытом и данными в очень тесном сотрудничестве между разными группами. Другим вариантом для PhD студентов могут быть структурированные программы в науке о больших данных. Чрезвычайно удобным это будет для студентов, которые не имели опыта в вычислительных науках до их стадии PhD. Подобная траектория может быть разработана и для студентов вычислительных наук если они хотят работать с проблемами в иммунологии, им необходимо узнать основные концепции нашей сферы деятельности. Таким образом, их нужно обучить азам иммунологии, иммунологическим техникам и модельным системам, включая практические эксперименты в лабораториях. Все это открывает два пути к анализу больших данных в иммунологии.

Автор: Joachim L Schultze
Перевод: Полина Тиканова

Редакция: Николай Лисицкий, Елена Лисицына, Даня Ряскина, Азат Муртазин

Источник: