Наука
EPAM
3538

Как работает геномный браузер?

Привет! Меня зовут Геннадий Захаров, я аналитик и разработчик проекта «Геномный браузер» в компании EPAM, а также сотрудник лаборатории нейрогенетики в Институте физиологии им. И. П. Павлова. Я хочу рассказать о нашем проекте, созданном на стыке науки и технологий, и ответить на все связанные с ним вопросы.

В закладки
Аудио

Предыстория

В 2013 году, во время активных преобразований в РАН, у нас в лаборатории дела пошли похуже. Мне стало понятно: последний год занимаюсь тем, что пишу какие-то ужасающие отчеты в неимоверных количествах, а научная работа практически не идет. Появились сомнения в дальнейшей карьере. Примерно в это же время мои знакомые рассказали, что компания GGA Software (в 2014 году стала частью EPAM) срочно нужен человек, знающий современную биологию и при этом умеющий программировать. Я начал работать в компании, а в 2015 году стал аналитиком в команде по созданию геномного браузера.

Со старшей школы я «сижу на клавишах» — это хобби, которое очень сильно помогло в академической жизни. Например, в моей кандидатской порядка 70 графиков, и делать их вручную в Excel — это убиться. Чтобы не париться, я сделал скрипт, который перестраивал и, форматировал все графики сам, тем более моих навыков Python и Google вполне хватало. Также за время работы в лаборатории написал отдельную программу, анализирующую локомоторное поведение дрозофила.

В общем, я решил попробовать себя в качестве аналитика разработки этого самого геномного браузера и человека, который ставит задачи по его созданию. И понял, что мне нравится делать что-то полезное и конкретное, и что документацию, написанную мной, здесь кто-то точно читает.

Как работает и зачем нужен геномный браузер?

ДНК — это 23 пары хромосом. Если говорить совсем просто, то 46 очень длинных ниточек. Ни одна секвенсовая машина (устройство для расшифровки гена) не читает эту ниточку от начала и до конца, но может прочесть очень большое количество коротких фрагментов (прочтений).

Фактически задача секвенирования ДНК заключается в следующем: представьте, что есть 10 000 экземпляров газеты, мы их пропустили через шредер, а появившиеся фрагменты хорошенько перемешали и из них наугад копнули лопатой. Теперь из этих фрагментов нужно восстановить исходный текст газеты. Собственно, алгоритмы секвенирования делают то же самое.

Источник: giphy.com

Эталонный геном человека давно известен, у всех людей он похож на 99%, за исключением нескольких очень вариабельных участков,. Наша программа способна визуализировать данные, которые выдают алгоритмы обработки результатов секвенирования: выравнивание прочтений на эталонный геном, отклонения от референса и т.д.. Подключаясь к внешним базам данных, браузер может предоставить информацию о возможных клинических эффектах этих изменений, связанных, например, с наследственными признаками, заболеваниями и так далее. После этого результаты анализа просматриваются специалистами вручную, чтобы удостовериться, нет ли ошибки и не наврали ли алгоритмы.

Кто пользуется этой программой?

Этот инструмент помогает врачам-генетикам, которые специализируются на изучении результатов геномного анализа и выявлении в нем отклонений, причем не только у людей, но и у животных. По сути, наша программа — это последняя инстанция перед оглашением клинического отчета. Время специалистов-генетиков, занимающихся такими проблемами, стоит очень дорого, а наша программа помогает его сэкономить. Даже если из минуты работы такого человека наш браузер способен сохранить 10 секунд, это уже приличный результат.

Так выглядит геномный браузер​ Геннадий Захаров

Что можно узнать с помощью геномного браузера?

Легче всего зафиксировать наследственные заболевания. Например, наличие фенилкетонурии, другие дефекты, связанные с метаболизмом, какие-то вещи типа цвета глаз, группы крови, резус-фактора.

Предвосхищая вопрос, сразу скажу про рак — мутацию, которая, как правило, приобретается в зрелом возрасте. Вряд ли специалисты смогут продиагностировать ее, но смогут сказать, что у вас есть какой-то набор мутаций, которые являются факторами риска. Понятно, что курить нельзя, но кому-то врач-генетик может сказать, что при таких-то данных употреблять табак нельзя совсем, так как это может привести к печальным последствиям с намного большей вероятностью, чем у других людей.

Геномных браузеров много, в чем отличие этой разработки?

Первая задача, с которой к нам пришли заказчики, — это сделать мощную по функционалу и удобную для использования tool’у. Проблема в том, что большинство программ, обладающих необходимым функционалом, представляют собой десктопные версии, работа с которыми создает большие сложности для организации синхронизации и безопасного хранения данных. Это не очень удобно и достаточно затратно.

Мы смогли совместить большой функционал десктопных приложений с возможностью работы в облаке через web, что очень удобно для корпоративных заказчиков. Это была непростая задача, нам пришлось поэкспериментировать с WebGL и другими возможностями сети, чтобы все заработало с необходимой скоростью и производительностью.

Также мы сделали наглядную визуализацию плюс ввели несколько UX-улучшений, позволяющих людям удобнее работать. А еще приладили достаточно легкую интеграцию с внешними базами, это то, с чем в основном работают генетики. Раньше, когда специалист видел какую-то замену или отклонение от эталонного генома, ему буквально приходилось открывать Excel-таблицу: искать эту вариацию, что-то копировать оттуда, вставлять в гугл, чтобы посмотреть ее описание. Мы же берем из выхода анализирующих алгоритмов имеющийся у измененной позиции ID умеем делать запрос по ней, благодаря чему человек может сразу увидеть информацию по той или иной замене, просто нажав на нее.

Как можно использовать геномный браузер в будущем?

Браузер станет одним из рабочих инструментов врача-генетика, который будет заниматься персонализированной медициной. Опять-таки, не основным, а как review и проверка, как окончательное подтверждение, что алгоритм сработал корректно и полученные данные верны. Работу на 90-99% выполняют какие-то алгоритмы и компьютерные системы, но перед постановкой финального диагноза и назначением терапии человек обязательно должен проверить, что там ему алгоритм насчитал. На этой стадии браузер будет полезен и эффективен, потому что он позволяет экономить время.

В конце прошлого года весь мир облетела новость о докторе Хэ Цзянькуе, который изменил гены эмбрионов девочек-близняшек, чтобы защитить их от ВИЧ. Дети родились, но теперь неизвестно, к каким последствиям приведут изменения. С помощью браузера мы сможем посмотреть, как произошла замена гена, на раннем этапе, не дожидаясь появления человека. Насколько я помню, когда яйцеклетка дробится на 16 клеток во время развития эмбриона, то одну клетку можно взять без вреда для остальных, просканировать и проверить, нет ли побочных эффектов.

Было бы круто на школьном или институтском уроке биологии рассказать, как работает современная биоинформатика, секвенсовые машины, показать, как выглядят современные данные. Тем более в нашей программе они смотрятся достаточно красиво. Если представить, что секвенс станет не таким дорогим, то ученики специализированных школ, студенты профильных вузов и кафедр смогли бы пользоваться браузером, чтобы найти какие-то отклонения или подтвердить их наличие, изучая при этом собственный генетический материал.

Узнать больше о геномном браузере можно из этого видео

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы рассказать свою историю.

Написать
{ "author_name": "EPAM", "author_type": "self", "tags": [], "comments": 49, "likes": 52, "favorites": 42, "is_advertisement": false, "subsite_label": "science", "id": 125847, "is_wide": false, "is_ugc": true, "date": "Fri, 15 Nov 2019 10:56:34 +0300", "is_special": false }
0
{ "id": 125847, "author_id": 274061, "diff_limit": 1000, "urls": {"diff":"\/comments\/125847\/get","add":"\/comments\/125847\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/125847"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 214346, "last_count_and_date": null }
49 комментариев
Популярные
По порядку
Написать комментарий...
12

о боже, ипам на уютном

Ответить
8

срешь на специальный экран и яндекс браузер выдает тебе рекламу по предпочтениям

Ответить
8

И тебя перекидывает на Тренды Youtube

Ответить
0

ну это само собой

Ответить
4

А я уж подумал, что новый гость ТЖ пожаловал.

Ответить
17

Это действительно наш первый материал (и мы очень волнуемся). И чтобы не множить сущности мы планируем собрать всех наших спикеров и разработки под одним крылом)

Ответить
3

сорян за советы, но неплохо было бы начать с того, что такое, блин, этот ваш геномный браузер
а потом уже всё остальное писать
ну хоть, не знаю, ссылку поставить туда, где это понятным для широких масс языком расшифровывается

Ответить
1

Комментарий удален по просьбе пользователя

Ответить
0

Исполняют гимн Епама?

Ответить
0

утром лёгкий митингклитр кофе и рулет

Ответить
5

> в компании EPAM

Дальше не читал

Ответить
0

почему? Я не в теме

Ответить
3

Если вкратце, то епам соревнуется с люксофтом за звание самое уебщиной it компании мира, тут многа: https://ebanoe.it/tag/epam/

Ответить
0

У люксофта были норм проекты и релокейты. Например у диасофта и ланита все хуже(((
Епам с ними...

Ответить
0

Но епам в сша может увезти

Ответить
1

Бэкграунд хуевый, почитай в интернетах отзывы о них

Ответить
0

Это айтишный мем, особенно польский и украинский епамы

Ответить
0

А зря, там в конце их новый клип был

Ответить
3

Ну вы конечно нашли куда о науке писать))

Ответить
1

А вроде текст прохожей картинкой и украшен (прости мужик из авки у текста)

((Кусок заметки прочитал, прикольно))

Ответить
3

tool’у
Чевой?

Ответить
3

Не раскрыта тема отличия вашего браузера от других. Я знаю как минимум 5 геномных браузеров с веб-интерфейсом, из которых два (ucsc и ncbi gdv) используются повсеместно и имеют достаточно широкий функционал. В чем преимущество именно вашего?

Ответить
0

Еще ensembl. Действительно не понятно, как их догнать по количеству встроенных инструментов и аннотаций. 

Ответить
0

Тем, что большинство из них либо вообще не расчитаны на работу с экспериментальными выравниваниями и вариациями, либо делают это очень медленно. Они рассчитаны в первую очередь на отображение генов, и покрытий.
UCSC работу с выравниваниями вроде не поддерживают вообще. GDV работает по http ссылке, но когда я это тестировал, работало медленно до ужаса. С вариациями тоже либо по ссылке, либо грузить файлы на сервер NCBI, и работает это потом тоже медленно. У меня есть набор вариаций в VCF на 300 Mb архивированный, и нормально его посмотреть в GDV мне тоже не удалось.
JBrowse умеет работать с выравниваниями и вариациями, но рендерит все тоже очень медленно.

Также, насколько я знаю (ситуация могла измениться с того момента как я это проверял) они не поддерживают работу с облачными файловыми системами.

NGB можно скормить ссылки на Amazon S3 где лежат геномные выравнивания по 100Gb/образец, и наборы вариаций к ним по 200 Mb/образец, и работать с этими данными со скоростью не уступающей десткопному IGV.
Плюс, удобная таблица вариаций, более удобный и информативный основной экран и другие UX-плюшки.

Ответить
0

Спасибо за ответ, выглядит интересно. Здесь аудитория не особо релевантная, есть смысл подробный пост на хабре запилить.

Ответить
3

Будет ли ремейк знаменитой песни (и клипа)? Если да, то планируете ли принять участие?

Ответить
1

Глаза спотыкались об tool'y и review, после них приходилось заново сосредотачиваться на тексте

Ответить
3

Никита, спасибо за замечание. Просто хотели сохранить авторскую речь. Исправимся.

Ответить

Комментарий удален

–1

Я так не понял в каком контексте читать это tool'а. Как "тулзы"?
Зачем там русская А? Просто tool хотя бы не путает

Ответить
1

Спасибо большое за статью. Плюс епаму в карму - так правильно делать бренд. 
Вопрос автору чуть в сторону, как специалисту в генетике. У меня есть сын, я хочу сравнить наши ДНК и выделить различия. Сколько примерно выйдет нуклеотидных пар? Или в битах.
Как сильно они разбросаны по хромосомам?
Где про это можно почитать, куда копать?

Ответить
2

Я не автор, но отвечу; отличия у вас около 0,01%

Учитывая что наша ДНК это около 3,1 млрд пар оснований, то получается 310 тыс

Ответить
1

Спасибо! 

От автора: к сожалению, точные цифры привести сложно, так как в геноме есть кодирующие и некодирующие части, а среди кодирующих как более консервативные, так и сильно вариабельные. 

 Генетическая вариация между людьми в среднем 0.1% генома (http://humanorigins.si.edu/evidence/genetics). При длине одинарного человеческого генома 3 млрд букв получится в среднем около 6 млн отличий для двух случайных людей, так как нормальный геном двойной (https://www.ncbi.nlm.nih.gov/books/NBK20363/). 

Значит, у сына будет половина вашего набора вариаций, а вторая половина — от матери. То есть отличать вас будет окого 3 млн позиций. 

В битах сложнее, так как некоторые вариации протяжённые и затрагивают много букв. Так что тут вопрос в том, как кодировать.
Ещё можно ожидать у сына около 10 уникальных вариаций, которые являются результатом ошибок копирования ДНК, и которых нет ни у вас, ни у его матери. 

Где прочитать про это в научно-популярной литературе, сразу сказать не могу. Навскидку нашёл пару книг, но ни одну из них я сам не читал, так что однозначно рекомендовать не могу: 
• "Генетическая одиссея человека", Уэллс Спенсер; 
• "Кто мы такие?
Гены, наше тело, общество", Роберт Сапольски.

Ответить
0

Вау, спасибо за развёрнутый ответ и литературу!
Слышал, что некодирующая часть тоже очень важна (факторы транскрипции и так далее) и её тоже надо учитывать.

Ответить
1

Этично ли заменять гены или их участки? Есть ли ярые противники данных программ? Религиозные ребята?

Ответить
1

Звонило пару генов, жаловались, что их заменили без уведомления за 2 месяца.

Ответить
1

Молодцы ребята не смотря на всю "помощь" со стороны государства работают двигаются в перед. Было бы лучше для них и для человечества если они двигались бы в более благоприятных условиях в других странах.

Ответить
0

Вперёд - Орловская ошибка

Ответить
1

Очень интересный материал, спасибо. А цена так же как и везде сейчас, в районе 200 000?

Ответить
1

тем более моих навыков Python и Google вполне хватало

Навыков гугления? Я понимаю, что не каждый разработчик справится без гугла, но в контексте это фразы звучит странно.

Ответить
1

Автору статьи: что вы думаете о евгенике?

Ответить
–1

Докладчик на пике выглядит как человек с лишней хромосомой. Впрочем, в ипаме другие и не работают

Ответить
0

А могли бы написать как причаститься

Ответить
0

Я не понимаю на Эльфийском

Ответить
0

ИИ, нейросети, геномные браузеры, жду появления ДНК браузера. Я не знаю нахрена он нужен и нужен ли вообще, но зато название у него мега крутое будет - ДНК БРАУЗЕР!

Ответить
0

ДНК браузер

контекстная реклама прямо в вашу митохондрию

Ответить
0

Спасибо за материал, но было бы классно, как уже сказали, рассмотреть браузер в сравнение с другими!

Ответить
0

UPD: https://lifescience.opensource.epam.com/ngb/index.html

всё free as freedom и open source

Ответить
0

послышался голос со стороны галер

Ответить
Обсуждаемое
Новости
WADA на четыре года лишило Россию права участвовать в международных турнирах, включая олимпиады и чемпионаты мира
Россия не сможет принимать чемпионаты мира и подавать заявки на их проведение.
Технологии
Cybertruck впервые заметили на дорогах Лос-Анджелеса — Илон Маск поехал на нём в ресторан
Одно можно сказать точно — футуристичный пикап сильно выделяется на фоне других машин.
Новости
В Центральном парке Нью-Йорка демонтировали памятную табличку от «Наили» с признанием в любви к Костину
Эта табличка стала одним из доказательств в расследовании ФБК об отношениях главы ВТБ и журналистки «России 1».
Популярное за три дня
Новости
В Госдуме отказались вводить налог для богатых. По мнению депутатов, россияне его не поддержат
В законопроекте предлагалось дополнительное налогообложение для тех, кто зарабатывает более двух миллионов рублей в месяц.
Новости
«Новая Газета» и «Эхо Москвы» взяли Егора Жукова на работу
В «Новой» он будет работать корреспондентом отдела политики и экономики, а на «Эхе» — внештатным обозревателем.
Новости
В Минске несколько сотен человек вышли протестовать против интеграции Белоруссии с Россией
В городе проходят сразу две акции протеста.

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovy", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byswn", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-130073047", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=cndo&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudv", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "ccydt", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvc" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "chfbk", "p2": "gnwc" } } } ]