«Полное описание генома человека занимает не менее 200 гигабайт»

Александр Пахомов Импортозамещение Мединдустрия

26 сентября 2016, 18:08

Фото: ЕМС

11369

Директор сколковского Центра разработок Dell EMC – о том, как большие данные изменят медицину

7 сентября 2016 года закрылась крупнейшая в истории ИТ-индустрии сделка – американская компьютерная корпорация Dell за $67 млрд приобрела компанию ЕМС, лидера на глобальном рынке хранения и обработки данных. «Большие данные» (Big Data) применяются во множестве областей человеческой деятельности, и медицина ‒ одно из самых перспективных направлений. Генеральный директор Центра исследований и разработок в Dell EMC Леонид Левкович-Маслюк рассказал Vademecum, что такое биоинформатика и какие возможности она открывает для создания принципиально новых методов диагностики и лечения.

‒ Начнем с определений: что такое биоИТ, или биоинформатика?

‒ Это информационные технологии (ИТ) для биологии и медицины. Сейчас возникает персонализированная медицина, основанная на обработке и анализе больших массивов новых типов данных. Прежде всего это молекулярные данные, получаемые путем анализа структуры молекул ДНК (их изучает геномика), молекул РНК (транскриптомика), белковых молекул (протеомика) и других типов подобных данных, называемых «омиксными». Такие данные стали входить в широкий обиход в медицине совсем недавно. Они очень велики по объему. Полное описание генома человека занимает не менее 200 гигабайт. Структура этих данных крайне сложна, их медицинская интерпретация далеко не всегда ясна, поиск такой интерпретации ‒ это предмет активнейших исследований. Но именно такие данные могут дать наиболее полную индивидуальную картину состояния организма пациента. Кроме того, есть еще и традиционные данные (результаты всевозможных анализов, двухмерные и трехмерные изображения, записи и назначения в медицинской карте). Информационные технологии, которые объединяют все такие данные, позволяя эффективно извлекать из них полезную информацию, и есть биоИТ. Сейчас специалисты стремятся к тому, чтобы врач мог, условно говоря, нажать кнопку и получить доступ ко всей этой информации, провести ее анализ с помощью специализированных программных инструментов и получить конкретные рекомендации по диагностике или лечению. Задачи биоИТ включают в себя разработку таких инструментов, инженерию данных, создание необходимых программных и аппаратных платформ.

‒ Как биоИТ уже сейчас применяются в медицине?

‒ Например, при скрининге новорожденных на известные наследственные заболевания расшифровка структуры их ДНК (секвенирование) дает чрезвычайно полезную информацию. Раньше новорожденных проверяли на генетические болезни иначе ‒ с помощью нескольких стандартных тестов на присутствие в крови определенных веществ ‒ биомаркеров. Этот подход давал много ошибок. С использованием геномного секвенирования появилась возможность ставить диагноз гораздо точнее, при помощи специальных программ глубоко анализируя мутации, обнаруженные в геномных данных младенца. Кроме того, секвенирование помогает находить и ранее не известные мутации, приводящие к этим же болезням. Чем раньше диагностируют такую болезнь, тем больше шансов вовремя начать правильное лечение.

БиоИТ очень важны для онкологии. Здесь есть два направления. Во-первых, обеспечить наиболее эффективное лечение. После совместного компьютерного анализа ДНК опухоли и здоровой ткани в некоторых случаях можно заранее сказать, что один из типов химиотерапии точно не подействует на пациента, а другой – подействует. Сейчас такие принципы лечения уже начинают использовать.

днк.jpg

Фото: schd.ws

Второе направление, как считают многие специалисты, еще более перспективное, – ранняя диагностика. Смертность в онкологии была бы гораздо ниже, а лечение – эффективнее, если бы все опухоли удавалось обнаружить на ранних стадиях. Сейчас многие исследователи работают над поиском надежных биомаркеров для ранней диагностики заболеваний на основе секвенирования ДНК и/или РНК. Это требует выявления изменений в процессе создания белковых молекул и в спектре самих белковых молекул (так называемой экспрессии генов). Среди них нужно найти признаки, характерные для ранних стадий различных заболеваний – онкологических, инфекционных, аутоиммунных. Такой анализ требует объемных компьютерных вычислений, а также подготовки большого объема молекулярных данных разной природы.

– Какие компании занимаются биоинформатикой?

– БиоИТ занимаются многие крупнейшие компании, среди которых Dell EMC, Microsoft, Intel и другие. Но очень важную роль в этой индустрии играют и множество малых и средних стартапов, которые прекрасно встроились в рынок. Они создают специализированные решения для обработки медицинских и омиксных данных, некоторые из них уже достигли миллиардной капитализации.

В России тоже есть такие стартапы, но их немного, и в основном они находятся на ранней стадии развития. Например, недавно мы работали с питерской компанией ParseqLab. Мы для них сделали программную платформу, которая помогает работать с геномными данными о наследственных заболеваниях, это как раз тот вид исследований, о котором я только что рассказывал. Насколько я знаю, планируется подключить эту компанию к скринингу новорожденных в Ленинградской области.

– Где хранятся «большие данные»?

– Уже созданы и поддерживаются базы данных, связывающие между собой информацию о структуре генома у конкретного больного, описание симптомов его болезни, описание применявшегося лечения. Крупных баз данных такого типа сейчас несколько десятков в мире, в них вносят вклад различные медицинские и исследовательские группы.

Есть также базы данных, которые ведут крупные фармкомпании. В некоторых больницах уже сейчас собраны колоссальные массивы медицинских данных, в том числе и геномных. Однако эти организации не имеют права делиться данными даже для исследовательских целей, так как это очень чувствительная информация, которая считается одной из самых охраняемых и защищаемых в мире. Все очень боятся ее утечки и того, что она будет использоваться во вред. И в этом заключается большая проблема, потому что для исследовательских целей нужно как можно больше такой информации.

Фото: thecureisnow.org

С другой стороны, многие люди ради прогресса медицины готовы предоставить ученым данные полного секвенирования своего генома. В любом случае, и в закрытом, и в открытом варианте геномные банки имеют огромное значение для медицинского использования геномной информации.

– Можете привести примеры таких проектов?

– Конечно. Вот, например, в Англии есть крупный государственный проект, который ведет специально созданная для этого компания Genomics England. Там будет храниться 100 тысяч человеческих геномов, значительная часть этой информации уже собрана. Однако эти данные не находятся в открытом доступе – ими могут пользоваться только врачи, и то со сложными процедурами доступа. Есть и более открытые проекты, вроде американского The Сancer Genome Atlas – в нем десятки тысяч геномов людей, страдающих онкологическими заболеваниями. Это открытый банк и доступ к этим данным (кроме, разумеется, персональных данных пациентов) может получить любой исследователь.

– Каков порядок затрат на создание подобных проектов?

– Вложения в создание Genomics England составили 100 млн фунтов стерлингов. В Европе, США, Китае на такие проекты выделяются миллиарды долларов. Конечно, не все эти деньги тратятся на программную разработку, но сотни миллионов долларов идут именно на это.

– Какие главные проблемы стоят перед индустрией биоИТ?

– Во-первых, проблема стандартизации. Дело в том, что разные установки секвенирования, а также разные научные и медицинские группы часто хранят полученные молекулярные данные в несколько отличающихся форматах. И когда какая-то медицинская группа сообщает, что она провела анализ таких-то генов, выявила какие-то варианты (изменения определенных участков генома) и установила, что они связаны с определенной болезнью, другим специалистам бывает трудно интерпретировать и проверить эти результаты. Кроме того, при различии форматов становится очень сложным автоматический обмен данными. Точное описание использованного процесса компьютерного анализа данных тоже требует однозначной интерпретации. Для того чтобы все это обеспечить, и нужна стандартизация.

Вторая огромная проблема – это географическая разбросанность данных, из-за чего к ним трудно получить доступ. Как мы уже говорили, многие организации хранят омиксные данные в своих внутренних хранилищах. Это связано и с законодательством. Проблема здесь заключается в том, что медучреждение не имеет права выносить в открытый доступ информацию о геноме пациента. Такое положение не только в России, но и в зарубежных странах.

Дополнительная техническая сложность состоит в том, что пересылка омиксных данных по интернету для анализа в удаленном центре требует слишком много времени из-за их объема. Поэтому сейчас в США, например, по некоторым исследованиям порядка 40% научных и медицинских учреждений пересылают подобную информацию по почте, записанную на диск.

Объем омиксных баз данных уже сейчас составляет десятки петабайт [1 петабайт равен 1 млн гигабайт. – Vademecum]. Когда сбор омиксных данных станет массовым, объем будет измеряться экзабайтами (это 1 тысяча петабайт), возможно, и зеттабайтами (1 млн петабайт). Поэтому сейчас важная задача – правильно сконфигурировать программное обеспечение, чтобы проводить необходимый анализ на серверах, где хранятся данные, это называется приближать вычисления к данным.

– Насколько хорошо биоИТ развиты в России?

– В России развитие биоИТ носит фрагментарный характер. Насколько я знаю, в нашей стране сейчас нет ни одной крупной базы омиксных данных. Существует ряд проектов по их созданию, но пока они всерьез не реализуются. Наши врачи пользуются биоИТ в очень ограниченных масштабах. В России есть медучреждения, которые собирают и хранят у себя геномную информацию, но таких клиник пока совсем немного.

– Какие сейчас есть перспективные коммерческие проекты в сфере биоИТ?

– Например, американская компания Seven Bridges создала хорошую платформу для работы с данными геномики. При секвенировании генома возникает огромный файл. Исследователю необходимо уметь извлекать из него конкретные участки, делать необходимые запросы, применять к их результатам программные инструменты биоинформатики. В таких запросах могут участвовать десятки тысяч файлов и десятки инструментов, передающих друг другу результаты своей работы. Платформа Seven Bridges дает удобные средства для решения этой задачи и считается одной из лучших среди многих существующих решений.

– У вашей компании есть проекты в биоинформатике?

– По-настоящему глубокой интеграции омиксных данных с традиционной медицинской информацией мы пока не видим. Наш проект – это попытка создать такой инструмент. Там, где уже есть достаточное понимание медицинской стороны дела, он поможет автоматизировать диагностику ряда заболеваний по совместным результатам молекулярных и «обычных» медицинских исследований. Пилотный вариант такой системы мы тестируем сейчас совместно с одной из лучших в США больниц – Massachusetts General Hospital (MGH).

геном, информатизация здравоохранения, информационные системы, емс

Подписывайтесь на наши каналы

Telegram Live

Менеджер по работе с ключевыми клиентами: как построить успешную карьеру и усилить позиции компании

26.07.2024

Антон Федосюк: «Потребители лекарств ищут прежде всего ценность, а не цену»

17.07.2024

В России готово к запуску производство первого дженерика для лечения костных метастазов рака предстательной железы

15.07.2024

Дмитрий Руцкой уходит из аптечной розницы

12.07.2024

Нормативная лексика. Отраслевые правовые акты июня 2024 года

3.07.2024

Образ образования. Как сформировать новую культуру онлайн-обучения в здравоохранении

25.06.2024