Биоинформатика – область прикладного знания, возникшая на стыке IT‑технологий, геномики и медицины, – начала оформляться в России как бизнес‑сегмент. Появились первые инвесторы и пока небольшие частные компании, способные конвертировать свои эксперименты в продукт, интересующий индустрию здравоохранения. Обострение инвестиционного интереса к биоинформатике спровоцировало, как это нередко бывает с инновационными затеями, государство – четыре года назад Правительство РФ выделило наиболее продвинутому в биоинформатике научному центру осязаемый грант.
НАЧНЕМ СЧИТАТЬ ОТ НЕВЫ
В 2010 году Санкт-Петербургский академический университет (СПбАУ) пригласил к совместной работе профессора отделения компьютерных наук и инженерии Университета Калифорнии в Сан-Диего, выходца из России Павла Певзнера. Привлечение всемирно известного в сфере биоинформатики специалиста, видимо, и стало основанием для определения адресата правительственного мегагранта – 150 млн рублей – для ≪решения важнейших алгоритмических и вычислительных задач современной биомедицины≫. Первыми результатами работы стали создание лаборатории алгоритмической биологии и первая в России магистерская программа в этой области. По оценке зачастивших в Петербург западных экспертов, лаборатория по уровню оснащенности превосходит любую аналогичную в Оксфорде, Кембридже, Гарварде. Есть успехи и помимо комплектации ≪железом≫ – например, разработанное здесь ≪Решение тематической модели сборки геномов микроорганизмов≫ получило мировое паблисити. Молодые специалисты, продолжая обучение в магистратуре и аспирантуре СПбАУ, уже работают в образовавшихся здесь небольших профильных компаниях. Свидетельством зарождения инвестиционного интереса стали несколько масштабных бизнес-проектов. Год назад тут же, в Петербурге, был создан Институт биоинформатики – образовательное учреждение, набравшее около 25 студентов магистратуры: программистов, математиков и биологов.
≪Сформировалась среда, здесь существует несколько центров, где биоинформатики находят работу, сюда приезжают специалисты из-за рубежа, чтобы проводить свои лекции, семинары, организуются новые лаборатории, – рассказывает генеральный директор ООО ≪Парсек Лаб≫ Александр Павлов. – В прошлом году были названы 10 лучших и перспективных биоинформатиков мира, двое – из Петербурга. Мы в своей прикладной разработке используем очень много биоинформатических решений. Сейчас в основной костяк организаций, которые занимаются в Питере биоинформатикой, входят СПбАУ, ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики), Центр геномной биоинформатики им. Ф.Г. Добржанского СПбГУ и прочие. В Питере выкристаллизовывается центр биоинформатики в нашей стране, не в последнюю очередь за счет высокой образовательной активности. Думаю, это направление принесет большую добавочную стоимость тем компаниям, которые будут активно внедрять его в практическую сферу. Это не та отрасль, где мы снова стараемся кого-то догнать, – мы уже реально идем в ногу с мировыми лидерами≫.
Представитель грантополучателя – первый проректор СПбАУ Михаил Дубина – гораздо сдержаннее и критичнее оценивает происходящее, напоминая, например, что в Санкт-Петербурге практически нет докторов наук по этой специальности, а потому молодым ученым здесь сложно защищатьдиссертации по специальности ≪биоинформатика≫. Значит, и новым кадрам неоткуда взяться. ≪Это, – говорит Дубина, – характеризует отрасль: раз нет научного комьюнити, двух-трех-пяти докторов наук, сложно развиваться, лицензировать специальности, аккредитовать диссертационные советы. В Санкт-Петербурге изначально не было базиса для такой деятельности. Сейчас он появляется. Но чтобы сделать биоинформационные разработки, например, в области фармацевтики, системными, необходимы как минимум три составляющие. В этом должны быть заинтересованы действующие отечественные производства, должен быть достаточно высоким уровень развития информационной составляющей (необходимы большие суперкомпьютерные мощности). И третий компонент – нужны ученые, которые непосредственно занимаются такими исследованиями. По крайней мере, по двум из трех факторов в России – провал. У нас нет сложившейся производственной базы, хотя ее пытаются восстанавливать, используя даже государственные ресурсы, и нет серьезных компьютерных мощностей. Поэтому сколько бы у нас ни было ученых, без ≪орудий производства≫ и активного запроса собственных разработок эта отрасль находится в самом начале, в зачаточном состоянии≫.
БЛИЗОСТЬ НА АУТСОРСИНГЕ
Зато немногочисленные спецы востребованны. За последний год AstraZeneca начала три проекта с российскими партнерами. Среди них все та же лаборатория алгоритмической биологии при Академическом университете Жореса Алферова в Петербурге. ≪У нас с ними пока заключен договор на год, – говорит глава по информационному обеспечению R&D ≪АстраЗенека Россия≫ Виталий Пруцкий. – Два их сотрудника являются полноценной частью нашей команды и постоянно взаимодействуют с коллегами, работающими в Манчестере и Бостоне, где расположены офисы компании. Они разрабатывают аналитические инструменты, в первую очередь для онкологических программ. Наш бостонский коллега – крайне требовательный человек, мнение которого бывает очень категоричным, но он пишет мне письма с многочисленными восклицательными знаками о том, в каком восторге он от этого сотрудничества. Все онкологическое направление компании знает, что есть российские сотрудники, которые работают над анализом данных секвенирования нового поколения (NGS): они получают результаты, которых не удавалось достичь много лет. Строились большие системы и писались большие планы, бизнес-кейсы на многомиллионные программы – и при этом мало что делалось. А сейчас есть ≪двигатель≫ в Бостоне, способный парень в Манчестере и очень способная группа в Петербурге, и вместе они это все сдвинули. Формально мы –заказчики, мы платим, оказываем финансовую поддержку, но это скорее сотрудничество, чем аутсорсинг≫.
Другие биоинформатические партнерства AstraZeneca связаны с изучением резистентности к антибиотикам в условиях госпитальных инфекций на основе данных о нескольких тысячах пациентов, а также с разработкой биологических моделей для создания новых кардиопрепаратов. Вложения в эти проекты составляют несколько сотен тысяч долларов, однако определить срок окупаемости невозможно. ≪Как сосчитать отдачу от того, что в компании будут работать эффективные аналитические инструменты для данных по NGS? К тому же они применимы не только к конкретному лекарству, но могут применяться на разных этапах, вплоть до третьей фазы клинических исследований. Но то, что мы делаем сейчас, стоит если не на порядки, то, по крайней мере, в разы меньше, чем AstraZeneca тратила прежде, – и зачастую малоэффективно≫, – добавляет Пруцкий.
Примечательно, что и тут – в оценке авангардных возможностей биоинформатики в индустрии – Михаил Дубина выступает скептически настроенным оппонентом практиков. ≪Фармкомпании обратили внимание на биоинформатику, предполагая, что информационный подход вместо полноценных длительных доклинических исследований позволит сузить зону поиска и сократить общий период выявления успешного кандидатного препарата хотя бы на два-три года, – рассуждает проректор СПбАУ. – Но любой аналитик фармацевтической компании оценивает биоинформационные подходы по принципу совпадения с реальностью. Просто покажите, что вы действительно таким-то способом отобрали несколько кандидатных препаратов из тысячи, покажите, каким оказался на самом деле прогнозируемый терапевтический эффект. К сожалению, сейчас ни один из биоинформационных, алгоритмических результатов не показывает очевидного и доказательного совпадения. А то, что новые информационные способы анализа генома человека более эффективны и дают намного более быстрый результат, это не столь принципиально. От традиционных физиологических исследований в любом случае не уйти, потому что результат в конце концов нужно показать на человеке≫.
Российских фармпроизводителей, прибегнувших к биоинформатическим разработкам, пока, действительно, единицы. Наиболее часто упоминаемый экспертами пример – питерский ≪Биокад≫, в штате которого сегодня около 10 таких специалистов. Заместитель генерального директора по производству Александр Грачев подтвердил VM: в портфеле компании ≪около 15 инновационных молекул на основе моноклональных антител следующего поколения, причем именно биоинформатика является стартапом для определения последовательностей молекул≫, а четыре препарата, разработанные с применением этих методов, близки к клиническим испытаниям. В расходы на содержание лаборатории, небольшие по сравнению с затратами на КИ, входят оборудование и заработная плата специалистов. Об окупаемости вложений можно будет говорить лишь после вывода препаратов на рынок, пояснил Грачев.
Еще в октябре прошлого года компания объявляла о вакансии специалиста по биоинформатике и готова была принять на работу выпускника технического вуза или студента старших курсов с хорошей математической подготовкой, знанием алгоритмов и структур данных, языков программирования, интересом к биологии и алгоритмам обработки больших данных. В апреле здесь же появилась еще одна вакансия с окладом от 80 до 100 тысяч рублей (или более, по результатам собеседования). На этот раз к сухим требованиям было добавлено лирическое пояснение о том, что компании ≪жизненно необходим новый сотрудник – математик/программист с аналитическим складом ума (а еще лучше алгоритмист с отличной математической подготовкой), который поможет претворять ее амбициозные планы в жизнь, причем идеальный сотрудник – умный, толковый, внимательный к критике и разделяющий цели компании. В его обязанности будут входить разработка и реализация алгоритмов для обработки различных биологических данных, а также создание удобных инструментов для их использования. Но самое главное – каждодневное взаимодействие с такими потрясающими вещами и столь масштабное расширение горизонта собственных возможностей, что все остальные плюсы/минусы поневоле отойдут на второй план≫.
Группой биоинформатиков руководит Павел Яковлев, студент СПбАУ, полтора года назад поступивший в магистратуру и одновременно пришедший в компанию. Его научный руководитель Александр Карабельский, также молодой – слегка за 30 – ученый, возглавляет лабораторию молекулярной генетики ≪Биокада≫. При этом кадровая служба компании намерена делать ставку на сотрудников ≪поколения Z≫, родившихся в 90-х годах и, с ее точки зрения, более вовлеченных в процесс технологических и научных перемен.
Однако большинство биоинформатиков сегодня направляют свои усилия на работу скорее с клиническими задачами в медицинской сфере, чем с фармбизнесом. Виталий Пруцкий объясняет: ≪Биоинформатика не востребована в российской фармацевтике, потому что та остается дженериковой, мало кто занимается оригинальной разработкой. В отличие от медицинской сферы, здесь нет клиентов для биоинформатики. Она нужна, только если есть вертикальная компания полного цикла, где R&D является в той или иной форме базисом для компании≫.
ПИТЕР И ТУЛ
Основные клинические задачи, которые решаются сегодня на стыке с IT-технологиями, – это масс-спектрометрия, анализ данных микрочипов и секвенирования, биомоделирование процессов, реакций. Несколько российских компаний, работающих в этом сегменте, вполне успешны. В том же списке – геномные исследования, включающие поиск наследственных заболеваний, онкодиагностику с применением секвенирования, пренатальную диагностику, персонализированную медицину, которая учитывает и восприятие препаратов конкретными пациентами. Однако, по словам Александра Павлова из ≪Парсек Лаб≫, большинство проводимых исследований относится на данный момент скорее к medical research:≪Все, что делается, лежит в области научных медицинских исследований≫.
Сдерживающим фактором развития сегмента становится все более ощутимый недостаток пространства для хранения геномной информации. ≪Объемы производимых данных исключительны, – свидетельствует заместитель директора лаборатории алгоритмической диагностики СПбАУ Алла Лапидус. – Секвенс только экзона [кодирующей части генома. – VM], необходимый для анализа реального пациента, то есть еще не обработанные исходные данные, – это полтерабайта. Для клинического центра секвенирования, в который приходят 3-4 тысячи новых пациентов в год, объемы оказываются огромными≫.
Сегодня, говорят сотрудники СПбАУ, просеквенировать один нуклеотид уже гораздо дешевле, чем хранить полученные данные. Поэтому нужны методы хранения и сжатия данных, алгоритмические методы так называемых сборок. ≪К сожалению, Россия в этой области заметно отстает от мировых достижений, – признается Алла Лапидус. – Но на рубеже прошлого и нынешнего годов тул [хранилище. – VM], который создала лаборатория при Академическом университете, признан одним из двух лучших в мире, это первый российский бренд в биоинформатике≫.
Лаборатория не замыкается на таких задачах, потому что на арену выходят протеомика, транскрипторика – все новые и новые биоинформатические методики. Некогда крайне дорогие инструменты начинают дешеветь, но пока не входят в клиническую практику, потому что нет инструментов для работы с данными. Кроме того, они должны быть удобными. ≪Один врач сказал мне: ничего не буду использовать, пока у меня не будет кнопки, при нажатии на которую в окошке появятся идентификационный номер пациента и указание на то, каким лекарством и в какой дозировке его лечить, – описывает типичный запрос клинициста Алла Лапидус. – Разработать такие вещи на обычном лэптопе невозможно, а купить достаточно места для сборки генома и его анализа – слишком дорого≫.
Совместный проект по внедрению геномных данных в клиническую практику ведут питерская ≪Парсек Лаб≫ и американская EMC [один из мировых лидеров на рынке решений для хранения и управления информацией. –VM] во взаимодействии с Intel. Предполагается, что данные, полученные в результате микрочипирования, станут доступны любому врачу, которому достаточно будет нажать ту самую ≪большую кнопку≫. На практике это означает необходимость справиться с нарастающей лавиной информации и добиться ее удобного использования ≪на лету≫. Практический результат должен быть достигнут ориентировочно к концу нынешнего года.
≪Парсек Лаб≫ в 2013 году успешно закончила в Европе клинические испытания своего продукта, основанного на наборе реагентов для секвенирования, софта для анализа, базы данных для аннотирования генетических вариантов и, по сути дела, протокола исследования. Тогда же решение для клинической генодиагностики на основе полупроводникового секвенирования было сертифицировано и зарегистрировано для использования в ЕС. ≪С 2014 года мы начинаем получать первые доходы от использования этого решения в клинике, – говорит Павлов. – Ведем подготовительную работу для его внедрения в обязательный скрининг новорожденных в стране. Некоторые регионы готовы это внедрить с середины нынешнего или начала следующего года≫.
В нынешнем же году ≪Парсек Лаб≫ пополнила свое портфолио еще несколькими проектами, которые, естественно, пытается внедрить в практическое здравоохранение. ≪Это по-настоящему гибридные технологии на стыке молекулярной биологии, медицинской генетики, IT, – поясняет глава питерской компании. – Частнопрактикующий врач может заказывать такие исследования как сервис. Он отсылает биологический образец в сервисную лабораторию, и она выдает результаты. Крупный центр, в свою очередь, имеет возможность при большом потоке оснастить себя оборудованием для секвенирования и хранения результатов исследований. Там эти данные можно хранить локально (если объем не слишком велик) либо пересылать их во внешнее ≪облако≫ и платить за поддержку и обслуживание. В этом случае медицинскому учреждению не нужно дорогой инфраструктуры для хранения этих данных. Если же крупный центр хочет хранить все данные у себя, чтобы иметь возможность быстрого доступа к информации и защищать ее, возможно создание для него собственного data-центра (правда, это стоит больших денег) со всей необходимой инфраструктурой≫.
Кроме того, диагностическиецентры пока не могут закупать полупроводниковые секвенаторы, как это делают научные лаборатории, потому что такое оборудование не зарегистрировано в России в качестве медицинского и его использование чревато санкциями.
БОЙЦЫ ГЕНОМИКИ
EMC заинтересована в проекте с ≪Парсек Лаб≫ хотя бы потому, что считает биомедицину таким же драйвером мировой науки, какими 50 лет назад служили ядерный и космический проекты. Вице-президент подразделения EMC по России и СНГ Камиль Исаев говорит: ≪Наша корпорация наряду с крупнейшими компаниями, такими как Google и Microsoft, – член глобального альянса в сфере геномики и здравоохранения, задачей которого является выработка оптимальных методов интеграции геномных и клинических данных. В этот альянс входят Broad Institute в США, несколько центров в Британии, в том числе Genomics England, созданная правительством Великобритании для секвенирования 100 тысяч геномов, пекинский Институт биоинформатики (свыше 300 сотрудников, 20 секвенаторов, крупный data-центр) и 170 других организаций. Мы ищем партнеров по всему миру. Одним из возможных партнеров является комбинация израильских компаний – больничной кассы Clalit и госпиталя Soroka Medical Center. В этой стране с высоким уровнем здравоохранения давно внедрены электронные истории болезни. Страховщик Clalit работает примерно с 4,5 млн пациентов и имеет доступ к их электронным историям болезни. Этот набор данных уникален даже по мировым меркам≫.
В России, оговаривается Исаев, с этим пока трудно: отчасти из-за нехватки секвенаторов (у ≪Парсек Лаб≫ их два, а, например, в пекинском центре – 20), отчасти по причине ограниченного объема оцифрованных клинических данных. ≪Да, идет внедрение электронных медицинских карт, – рассуждает представитель ЕМС, – но мы сильно отстаем от других стран. Непрерывно обновляемая база, пополняемая по мере прохождения через эту процедуру пациентов, – ядро нашей технологии. Тысяча человек, прошедших через ≪Парсек Лаб≫, – не так уж много. Мы надеемся, что система будет внедряться и их будут миллионы≫.
≪Парсек Лаб≫ и СПбАУ представили два различных варианта решения задачи хранения данных. Первый – частное ≪облако≫, второй – проект в публичном ≪облаке≫ с доступом всех желающих. В принципе, говорят разработчики, возможен и гибридный вариант.
ЕМС работает с ≪Парсек Лаб≫ на контрактной, а не на инвестиционной основе, полагая, что партнер самостоятельно будет заниматься продвижением готового продукта. Корпорация в 2014 году вложила в проект ≪несколько миллионов долларов≫ (точная сумма не раскрывается). Возврат инвестиций возможен через доходы от сервиса, связанного с виртуальным гибридным ≪облаком≫, который в полном масштабе будет выведен на рынок к концу года, а также продуктов, сочетающих софт и ≪железо≫ для биоинформатики, – они появятся через два-три года. На быструю окупаемость в корпорации не рассчитывают и делают ставку на госзакупки при внедрении своей системы, поскольку продажи в частные клиники ≪не очень масштабируются≫. Выручка подразделения EMC, которое работает в сфере Life Science, составляет около $100 млн в год, и это растущий бизнес, хотя до сих пор он был мало связан с практическими цифровыми нуждами здравоохранения.
Впрочем, пока о перспективах биоинформатики мало осведомлены и сами российские врачи – нынешние и будущие. ≪В прошлом году проводился опрос абитуриентов – какие области знаний они выбирают, куда хотят идти учиться, – рассказывает Алла Лапидус. – У большинства тех, кто выбирает для себя математику и Computer Science, биоинформатика стоит на первой строке. Но многие медики даже не слышали таких слов, как ≪геномика≫ и ≪биоинформатика≫. Они пугаются: ≪Это очень сложно, это нам не нужно≫. Пока не будет осознания с их стороны, ≪большая кнопка≫ не появится≫.