Расшифрованная жизнь. Расшифровка генома шимпанзе и его сравнение с человеческим геномом Где искать гены
К 50-летию открытия структуры ДНК
А.В. Зеленин
ГЕНОМ РАСТЕНИЙ
А. В. Зеленин
Зеленин Александр Владимирович
- д.б.н.,
заведующий лабораторией Института молекулярной биологии
им. В.А. Энгельгардта РАН.
Впечатляющие достижения программы "Геном человека", а также успехи работ по расшифровке так называемых сверхмалых (вирусы), малых (бактерии, дрожжи) и средних (круглый червь, дрозофила) геномов сделали возможным переход к широкомасштабному изучению крупных и сверхкрупных геномов растений . Насущная необходимость детального изучения геномов наиболее важных в хозяйственном отношении растений была подчеркнута на совещании по геномике растений, состоявшемся в 1997 г. в США [ , ]. За прошедшие с того времени годы достигнуты несомненные успехи в этой области. В 2000 г. появилась публикация о полном секвенировании (установление линейной последовательности нуклеотидов всей ядерной ДНК) генома горчицы малой - арабидопсиса, в 2001 г. - о предварительном (черновом) секвенировании генома риса. Неоднократно сообщалось о работах по секвенированию крупных и сверхкрупных геномов растений (кукуруза, рожь, пшеница), однако эти сообщения не содержали конкретной информации и носили, скорее, характер деклараций о намерении.
Предполагается, что расшифровка геномов растений откроет перед наукой и практикой широкие перспективы. Прежде всего выявление новых генов и цепочки их генетической регуляции позволит существенно повысить продуктивность растений за счет использования биотехнологических подходов. С обнаружением, выделением, размножением (клонированием) и секвенированием генов, отвечающих за такие важнейшие функции растительного организма, как размножение и продуктивность, процессы изменчивости, устойчивости к воздействию неблагоприятных факторов среды, а также гомологичное спаривание хромосом, связывают появление новых возможностей для усовершенствования селекционного процесса. Наконец, выделенные и клонированные гены можно использовать для получения трансгенных растений с принципиально новыми свойствами и анализа механизмов регуляции активности генов.
Важность изучения геномов растений подчеркивает и то обстоятельство, что до настоящего времени число локализованных, клонированных и секвенированных генов растений невелико и колеблется, по различным оценкам, между 800 и 1200. Это в 10-15 раз меньше, чем, например, у человека.
Несомненным лидером в широкомасштабном изучении геномов растений остаются США, хотя интенсивные исследования генома риса проводятся в Японии, а в последние годы и в Китае. В расшифровке генома арабидопсиса, кроме лабораторий США, приняли активное участие исследовательские группы Европы. Явное лидерство США вызывает серьезное беспокойство европейских ученых, которое они ясно выразили на совещании под многозначительным названием "Перспективы геномики в постгеномную эру", состоявшемся в конце 2000 г. во Франции. Опережение американской науки в изучении геномов сельскохозяйственных растений и создании трансгенных растительных форм, по мнению европейских ученых, грозит тем, что в не слишком отдаленном будущем (от двух до пяти десятилетий), когда рост численности населения поставит человечество перед лицом всеобщего продовольственного кризиса, европейская экономика и наука попадут в зависимость от американских технологий. В связи с этим объявлено о создании франко-германской научной программы по исследованию геномов растений ("Plantgene") и вложении в нее значительных средств.
Очевидно, что проблемы геномики растений должны привлечь пристальное внимание российских ученых и организаторов науки, а также руководящих инстанций, поскольку речь идет не только о научном престиже, но и о национальной безопасности страны. Через одно-два десятилетия продовольствие станет важнейшим стратегическим ресурсом.
ТРУДНОСТИ В ИЗУЧЕНИИ ГЕНОМОВ РАСТЕНИЙ
Изучение геномов растений - задача значительно более сложная, чем исследование генома человека и других животных . Это связано со следующими обстоятельствами:
огромными размерами геномов, достигающими для отдельных видов растений десятков и даже сотен миллиардов пар нуклеотидов (п.н.): геномы основных хозяйственно важных растений (кроме риса, льна и хлопка) по размерам либо близки к геному человека, либо превышают его во много раз (таблица);ХРОМОСОМНЫЕ ИССЛЕДОВАНИЯ ГЕНОМОВРезкими колебаниями числа хромосом у различных растений - от двух у некоторых видов до нескольких сотен у других, причем не удается выявить строгой корреляции между размером генома и числом хромосом;
Изобилием полиплоидных (содержащих более двух геномов на клетку) форм с близкими, но не идентичными геномами (аллополиплоидия);
Чрезвычайной обогащенностью геномов растений (до 99%) "незначащей" (некодирующей, то есть не содержащей генов) ДНК, что резко затрудняет стыковку (расположение в правильном порядке) отсеквенированных фрагментов в общий крупноразмерный участок ДНК (контиг);
Неполным (по сравнению с геномами дрозо-филы, человека и мыши) морфологическим, генетическим и физическим картированием хромосом;
Практической невозможностью выделять в чистом виде индивидуальные хромосомы с помощью методов, обычно применяемых с этой целью для хромосом человека и животных (сортировка в потоке и использование гибридов клеток);
Трудностью хромосомного картирования (определение расположения на хромосоме) отдельных генов с помощью гибридизации in situ , обусловленной как высоким содержанием в геномах растений "незначащей" ДНК, так и особенностями структурной организации хромосом растений;
Эволюционной отдаленностью растений от животных, что серьезно осложняет использование для изучения геномов растений сведений, полученных при секвенировании генома человека и других животных;
Длительным процессом размножения большинства растений, что существенно замедляет их генетический анализ.
Хромосомные (цитогенетические) исследования геномов вообще и растений в частности имеют длинную историю. Термин "геном" был предложен для обозначения гаплоидного (единичного) набора хромосом с содержащимися в них генами в первой четверти XX в., то есть задолго до установления роли ДНК как носителя генетической информации .
Описание генома нового, ранее генетически не изученного многоклеточного организма обычно начинают с исследования и описания полного набора его хромосом (кариотипа). Это, разумеется, относится и к растениям, огромное множество которых еще даже не начали изучать.
Уже на заре хромосомных исследований проводили сравнение геномов родственных видов растений на основе анализа мейотической конъюгации (объединения гомологичных хромосом) у межвидовых гибридов. За прошедшие 100 лет возможности хромосомного анализа резко расширились. Сейчас для характеристики геномов растений используют более совершенные технологии: различные варианты так называемого дифференциального окрашивания, позволяющего по морфологическим признакам идентифицировать индивидуальные хромосомы; гибридизацию in situ, дающую возможность локализовать конкретные гены на хромосомах; биохимические исследования клеточных белков (электрофорез и иммунохимия) и, наконец, комплекс методов, основанных на анализе хромосомной ДНК вплоть до ее секвенирования.
Рис. 1. Кариотипы хлебных злаков а - рожь (14 хромосом), б - твердая пшеница (28 хромосом), в - мягкая пшеница (42 хромосомы), г - ячмень (14 хромосом)В течение многих лет изучаются кариотипы хлебных злаков, прежде всего пшеницы и ржи. Интересно, что у разных видов этих растений число хромосом различно, но всегда кратно семи. Отдельные виды хлебных злаков можно надежно распознать по их кариотипу. Например, геном ржи состоит из семи пар крупных хромосом, имеющих на своих концах интенсивно окрашенные гетерохроматические блоки, часто называемые сегментами, или бэндами (рис. 1, а). Геномы пшеницы насчитывают уже 14 и 21 пару хромосом (рис. 1, б, в), причем распределение в них гетерохроматических блоков не такое, как в хромосомах ржи. Различаются между собой и отдельные геномы пшеницы, получившие обозначение А, В и D. Возрастание числа хромосом с 14 до 21 приводит к резкому изменению свойств пшеницы, что нашло отражение в их названиях: твердая, или макаронная, пшеница и мягкая, или хлебная, пшеница. За приобретение мягкой пшеницей высоких хлебопекарных свойств ответственен геном D, содержащий гены белков клейковины, которая придает тесту так называемую всхожесть. Именно этому геному уделяется особое внимание при селекционном улучшении хлебных пшениц. Другой 14-хромосомный злак - ячмень (рис. 1, г) обычно не используют для приготовления хлеба, однако он служит основным сырьем для изготовления таких распространенных продуктов, как пиво и виски.
Интенсивно изучаются хромосомы некоторых дикорастущих растений, используемых для улучшения качества важнейших сельскохозяйственных видов, например диких сородичей пшеницы - эгилопсов . Новые растительные формы создаются путем скрещивания (рис. 2) и отбора. В последние годы значительное усовершенствование методики исследований позволило приступить к изучению геномов растений, особенности кариотипов которых (главным образом мелкие размеры хромосом) делали их ранее недоступными для хромосомного анализа. Так, лишь недавно были впервые идентифицированы все хромосомы хлопка, ромашки и льна .
Рис. 2. Кариотипы пшеницы и гибрида пшеницы с эгилопсом
а - гексаплоидная мягкая пшеница (Triticum astivum ), состоящая из А, В и О геномов; б - тетраплоидная пшеница (Triticum timopheevi ), состоящая из А и G геномов. содержит гены устойчивости к большинству болезней пшеницы; в - гибриды Triticum astivum х Triticum timopheevi , устойчивые к мучнистой росе и ржавчине, отчетливо видно замещение части хромосомПЕРВИЧНАЯ СТРУКТУРА ДНК
По мере развития молекулярной генетики расширилось само понятие генома. Сейчас этот термин трактуется как в классическом хромосомном, так и в осовремененном молекулярном смысле: весь генетический материал отдельного вируса, клетки и организма . Естественно, что вслед за изучением полной первичной структуры геномов (так часто называют полную линейную последовательность оснований нуклеиновых кислот) ряда микроорганизмов и человека на очередь встал вопрос о секвенировании геномов растений.
Из множества растительных организмов для исследования были выбраны два - арабидопсис, представляющий класс двудольных (размер генома 125 млн. п.н.), и рис из класса однодольных (420-470 млн. п.н.). Эти геномы невелики по сравнению с геномами других растений и содержат сравнительно немного повторяющихся участков ДНК. Такие особенности давали надежду на то, что выбранные геномы окажутся доступными для относительно быстрого определения их первичной структуры.
Рис. 3. Арабидопсис - горчица малая - мелкое растение из семейства крестоцветных (Brassicaceae ). На пространстве, равном по площади одной странице нашего журнала, можно вырастить до тысячи индивидуальных организмов арабидопсисаОснованием для выбора арабидопсиса послужили не только небольшие размеры его генома, но и мелкие размеры организма, что позволяет легко выращивать его в лабораторных условиях (рис. 3). Принимали во внимание его короткий репродуктивный цикл, благодаря чему можно быстро проводить опыты по скрещиванию и отбору, детально изученную генетику, легкость осуществления манипуляций со сменой условий произрастания (изменение солевого состава почвы, добавление разных питательных веществ и т.д.) и с испытанием действия на растения различных мутагенных факторов и патогенов (вирусы, бактерии, грибы). Арабидопсис не имеет хозяйственной ценности, поэтому его геном, наряду с геномом мыши, получил название справочного, или, что менее точно, модельного.*
* Появление в отечественной литературе термина "модельный геном" - результат неточного перевода английского словосочетания model genome. Слово "model" означает не только прилагательное "модельный", но и существительное "образец", "эталон", "модель". Правильнее было бы говорить о геноме-образце, или справочном геноме.Интенсивная работа по секвенированию генома арабидопсиса была начата в 1996 г. международным консорциумом, в который вошли научные учреждения и исследовательские группы из США, Японии, Бельгии, Италии, Великобритании и Германии. В декабре 2000 г. стала доступной обширная информация, подводившая итоги определения первичной структуры генома арабидопсиса . Для секвенирования использовали классическую, или иерархическую, технологию: сначала изучали отдельные небольшие участки генома, из которых составляли более крупные участки (контиги), а на финальном этапе - структуру индивидуальных хромосом. Ядерная ДНК генома арабидопсиса распределена между пятью хромосомами. В 1999 г. были опубликованы результаты секвенирования двух хромосом, а появление в печати сведений о первичной структуре остальных трех завершило секвенирование всего генома.
Из 125 млн. пар нуклеотидов определена первичная структура 119 млн., что составляет 92% всего генома. Лишь 8% генома арабидопсиса, содержащих крупные блоки повторяющихся участков ДНК, оказались недоступными для изучения. По полноте и тщательности секвенирования геномов эукариот арабидопсис остается пока в первой тройке чемпионов наряду с одноклеточным дрожжевым организмом Saccharomyces cerevisiae и многоклеточным организмом животного Саеnorhabditis elegance (см. табл.).
В геноме арабидопсиса обнаружено около 15 тыс. индивидуальных генов, кодирующих белки. Приблизительно 12 тыс. из них содержатся в виде двух копий на гаплоидный (единичный) геном, так что общее число генов составляет 27 тыс. Число генов у арабидопсиса не сильно отличается от числа генов у таких организмов, как человек и мышь, однако размеры его генома в 25-30 раз меньше. С этим обстоятельством связаны важные особенности в структуре отдельных генов арабидопсиса и общей структуры его генома.
Гены арабидопсиса компактны, содержат лишь несколько экзонов (участков, кодирующих белки), разделенных короткими (около 250п.н.) некодирующими отрезками ДНК (интронами). Промежутки между отдельными генами составляют в среднем 4.6 тыс. пар нуклеотидов. Для сравнения укажем, что гены человека содержат многие десятки и даже сотни экзонов и интронов, а межгенные участки имеют размеры от 10 тыс. пар нуклеотидов и более. Предполагают, что наличие небольшого компактного генома способствовало эволюционной устойчивости арабидопсиса, поскольку его ДНК в меньшей степени становилась мишенью для воздействия различных повреждающих агентов, в частности, для внедрения в геном вирусоподобных повторяющихся фрагментов ДНК (транспозонов).
Из других молекулярных особенностей генома арабидопсиса следует отметить обогащенность экзонов гуанином и цитозином (44% в экзонах и 32% в интронах) по сравнению с генами животных, а также присутствие дважды повторенных (дуплицированных) генов. Предполагают, что такое удвоение произошло в результате четырех одномоментных событий, заключавшихся в удвоении (повторении) части генов арабидопсиса, или слияния родственных геномов. Эти события, имевшие место 100-200 млн. лет назад, - проявление общей тенденции к полиплоидизации (кратному увеличению числа геномов в организме), характерной для геномов растений. Однако некоторые факты показывают, что у арабидопсиса удвоеннные гены неидентичны и функционируют по-разному, что может быть связано с мутациями в их регуляторных участках.
Еще одним объектом полного секвенирования ДНК стал рис . Геном этого растения тоже невелик (12 хромосом, дающих в сумме 420-470 млн. п.н.), всего в 3.5 раза больше, чем у арабидопсиса. Однако, в отличие от арабидопсиса, рис имеет огромное хозяйственное значение, являясь основой питания для более чем половины человечества, поэтому в улучшении его свойств кровно заинтересованы не только миллиарды потребителей, но и многомиллионная армия людей, активно вовлеченная в весьма трудоемкий процесс его выращивания.
Отдельные исследователи приступили к изучению генома риса еще в 80-х годах прошлого столетия, но серьезного масштаба эти работы достигли лишь в 90-х. В 1991 г. в Японии была создана программа по расшифровке структуры генома риса, объединившая усилия многих исследовательских групп. В 1997 г. на базе этой программы был организован Международный проект "Геном риса" . Его участники решили сконцентрировать усилия на секвенировании одного из подвидов риса (Oriza sativajaponica ), в изучении которого к тому времени уже были достигнуты значительные успехи. Серьезным стимулом и, образно выражаясь, путеводной звездой для такой работы стала программа "Геном человека" .
В рамках этой программы прошла апробацию стратегия "похромосомного" иерархического разделения генома, которую участники международного консорциума использовали при расшифровке генома риса. Однако, если при изучении генома человека с помощью различных приемов выделяли фракции отдельных хромосом, то материал, специфичный для индивидуальных хромосом риса и их отдельных участков, получали методом лазерной микродиссекции (вырезания микроскопических объектов). На предметном стекле микроскопа, где находятся хромосомы риса, под воздействием лазерного луча выжигается все, кроме хромосомы или ее участков, намеченных для анализа. Оставшийся материал используют для клонирования и секвенирования.
Опубликованы многочисленные сообщения о результатах секвенирования отдельных фрагментов генома риса, осуществленного с высокой точностью и детальностью, характерной для иерархической технологии. Считали, что определение полной первичной структуры генома риса будет завершено к концу 2003-середине 2004 г. и результаты вместе с данными по первичной структуре генома арабидопсиса будут широко использоваться в сравнительной геномике других растений.
Однако в начале 2002 г. две исследовательские группы - одна из Китая, другая из Швейцарии и США - опубликовали результаты полного чернового (приблизительного) секвенирования генома риса, выполненного с помощью технологии тотального клонирования . В отличие от поэтапного (иерархического) изучения, тотальный подход основан на одномоментном клонировании всей геномной ДНК в одном из вирусных или бактериальных векторов и получении значительного (огромного для средних и крупных геномов) количества отдельных клонов, содержащих различные отрезки ДНК. На основании анализа этих секвенированных участков и наложения друг на друга идентичных концевых участков ДНК образуется контиг - цепочка стыкованных между собой последовательностей ДНК. Общий (суммарный) контиг представляет собой первичную структуру всего генома или, по крайней мере, индивидуальной хромосомы.
В таком схематичном изложении стратегия тотального клонирования кажется несложной. На деле она встречает серьезные трудности, связанные с необходимостью получения огромного количества клонов (принято считать, что изучаемый геном или его участок должен быть перекрыт клонами, по крайней мере, 10 раз), гигантским объемом секвенирования и чрезвычайно сложной работой по стыковке клонов, требующей участия специалистов по биоинформатике. Серьезным препятствием на пути тотального клонирования служат разнообразные повторяющиеся участки ДНК, число которых, как уже упоминалось, резко возрастает по мере увеличения размера генома. Поэтому стратегию тотального секвенирования используют преимущественно при изучении геномов вирусов и микроорганизмов, хотя она и была успешно применена для исследования генома многоклеточного организма -дрозофилы.
Результаты тотального секвенирования этого генома были "наложены" на огромный массив сведений о его хромосомной, генной и молекулярной структуре, полученных за почти 100-летний период изучения дрозофилы. И все же по степени секвенированности геном дрозофилы (66% общего размера генома) значительно уступает геному арабидопсиса (92%), несмотря на достаточно близкие их размеры - 180 млн. и 125 млн. пар нуклеотидов соответственно. Поэтому недавно предложено называть смешанной технологию, с помощью которой проводилось секвенирование генома дрозофилы.
Для секвенирования генома риса упомянутые выше исследовательские группы взяли два его подвида, наиболее широко культивируемые в азиатских странах, - Oriza saliva L. ssp indicaj и Oriza saliva L. sspjaponica. Результаты их исследований во многом совпадают, но во многом и различаются. Так, представители обеих групп заявили, что ими достигнуто перекрывание контигами приблизительно 92-93% генома. Показано, что около 42% генома риса представлено короткими повторами ДНК, состоящими из 20 пар нуклеотидов, и большинство подвижных ДНК-элементов (транспозонов) находится в межгенных участках. Однако сведения о размерах генома риса существенно различаются.
Для японского подвида размер генома определен равным 466 млн. пар нуклеотидов, а для индийского - 420 млн. Причина такого расхождения не ясна. Оно может быть следствием различных методических подходов в определении размеров некодирующей части геномов, то есть не отражать истинного положения дел. Но не исключено, что 15%-ное различие в размере изученных геномов действительно существует.
Второе серьезное расхождение выявилось в числе обнаруженных генов: для японского подвида - от 46022 до 55615 генов на геном, а для индийского - от 32000 до 50000. Причина такого расхождения не ясна.
Неполнота и противоречивость полученных сведений отмечена в комментариях к опубликованным статьям . Здесь же высказана надежда, что пробелы в знаниях генома риса будут устранены при сопоставлении данных "чернового секвенирования" с результатами детального, иерархического секвенирования, проводимого участниками Международного проекта "Геном риса".
СРАВНИТЕЛЬНАЯ И ФУНКЦИОНАЛЬНАЯ ГЕНОМИКА РАСТЕНИЙ
Полученные обширные данные, половина из которых (результаты китайской группы) общедоступны, несомненно, открывают широкие перспективы как для изучения генома риса, так и для геномики растений в целом. Сравнение свойств геномов арабидопсиса и риса показало, что большая часть генов (до 80%), выявленных в геноме арабидопсиса, обнаружена и в геноме риса, однако приблизительно для половины генов, обнаруженных у риса, пока не удалось найти аналогов (ортологов) в геноме арабидопсиса. В то же время 98% генов, первичная структура которых установлена для других злаков, выявлены в геноме риса.
Вызывает недоумение существенное (почти в два раза) расхождение в числе генов у риса и арабидопсиса. При этом данные черновой расшифровки генома риса, полученные с помощью тотального секвенирования, практически не сопоставлены с обширными результатами изучения генома риса методом иерархического клонирования и секвенирования, то есть не осуществлено то, что сделано в отношении генома дрозофилы. Поэтому остается неясным, отражает ли различие числа генов у арабидопсиса и риса истинное положение дел или же оно объясняется различием в методических подходах.
В отличие от генома арабидопсиса, сведения о генах-двойниках в геноме риса не приведены. Не исключено, что их относительное количество может быть больше у риса, чем у арабидопсиса. В пользу такой возможности косвенно свидетельствуют данные о наличии полиплоидных форм риса. Большей ясности в этом вопросе можно ожидать после завершения Международного проекта "Геном риса" и получения детальной картины первичной структуры ДНК этого генома. Серьезные основания для такой надежды дает тот факт, что после выхода в свет работ о черновом секвенировании генома риса резко увеличилось число публикаций о структуре этого генома, в частности, появились сведения о детальном секвенировании его 1 и 4 хромосом.
Знание, хотя бы приблизительное, числа генов у растений имеет принципиальное значение для сравнительной геномики растений. Вначале считали, что поскольку по своим фенотипическим признакам все цветковые растения весьма близки друг к другу, так же близки должны быть и их геномы. И если мы изучим геном арабидопсиса, то получим сведения и о большинстве геномов других растений. Косвенным подтверждением такого допущения служат результаты секвенирования генома мыши , который удивительно близок к геному человека (около 30 тыс. генов, из которых различными оказалась лишь 1 тыс.).
Можно предположить, что причина различий геномов арабидопсиса и риса кроется в их принадлежности к разным классам растений - двудольным и однодольным. Чтобы прояснить этот вопрос, крайне желательно знать хотя бы черновую первичную структуру еще какого-нибудь однодольного растения. Наиболее реальным кандидатом может стать кукуруза, геном которой приблизительно равен геному человека, но все-таки значительно меньше геномов других злаков. Продовольственное значение кукурузы общеизвестно.
Огромный материал, полученный в результате секвенирования геномов арабидопсиса и риса, постепенно становится основой для широкомасштабного изучения геномов растений методами сравнительной геномики. Такие исследования имеют общебиологическое значение, так как позволяют установить главные принципы организации генома растений в целом и их отдельных хромосом, выявить общие черты структуры генов и их регуляторных участков, рассмотреть соотношение функционально активной (генной) части хромосомы и различных не кодирующих белки межгенных участков ДНК. Сравнительная генетика приобретает все большее значение и для развития функциональной геномики человека. Именно для проведения сравнительных исследований осуществлено секвенирование геномов рыбы фугу и мыши.
Не менее важно изучение отдельных генов, ответственных за синтез индивидуальных белков, определяющих конкретные функции организма. Именно в обнаружении, выделении, секвенировании и установлении функции отдельных генов состоит практическое, в первую очередь медицинское, значение программы "Геном человека". Это обстоятельство несколько лет назад отметил Дж. Уотсон, подчеркнувший, что программа "Геном человека" будет завершена лишь тогда, когда определят функции всех генов человека.
Рис. 4. Классификация по функции генов арабидопсиса
1 - гены роста, деления и синтеза ДНК; 2 - гены синтеза РНК (транскрипция); 3 - гены синтеза и модификации белков; 4 - гены развития, старения и смерти клеток; 5 - гены клеточного метаболизма и энергетического обмена; 6 - гены межклеточного взаимодействия и передачи сигнала; 7 - гены обеспечения прочих клеточных процессов; 8 - гены с неизвестной функциейЧто касается функции генов растений, то мы знаем о них менее одной десятой того, что нам известно о генах человека. Даже у арабидопсиса, геном которого по степени изученности намного превосходит геном человека, функция почти половины его генов остается неизвестной (рис. 4). Между тем у растений, кроме генов, общих с животными, имеется значительное число генов, специфичных только (или, по крайней мере, преимущественно) для них. Речь идет о генах, вовлеченных в транспорт воды и синтез клеточной стенки, отсутствующей у животных, о генах, обеспечивающих образование и функционирование хлоропластов, фотосинтез, фиксацию азота и синтез многочисленных ароматических продуктов. Этот перечень можно продолжить, но уже сейчас ясно, сколь сложная задача стоит перед функциональной геномикой растений.
Полное секвенирование генома дает близкие к истинным сведения об общем количестве генов данного организма, позволяет поместить в банки данных более или менее подробные и достоверные сведения об их структуре, облегчает работу по выделению и изучению индивидуальных генов. Однако секвенирование генома отнюдь не означает установления функции всех генов.
Один из наиболее перспективных подходов функциональной геномики базируется на выявлении работающих генов, на которых идет транскрипция (считывание) мРНК. Этот подход, в том числе использующий современную технологию микрочипов, позволяет одновременно выявлять до десятков тысяч функционирующих генов. Недавно с помощью такого подхода начато изучение геномов растений. Для арабидопсиса удалось получить около 26 тыс. индивидуальных транскриптов, что резко облегчает возможность определения функции практически всех его генов . У картофеля удалось выявить около 20000 тыс. работающих генов, важных для понимания как процессов роста и формирования клубня, так и процессов заболевания картофеля. Предполагается, что это знание позволит повысить устойчивость одного из важнейших пищевых продуктов к возбудителям заболеваний.
Логичным развитием функциональной геномики стала протеомика. Эта новая область науки изучает протеом, под которым обычно подразумевают полный набор белков в клетке в конкретный момент. Такой набор белков, отражающий функциональное состояние генома, все время меняется, тогда как геном остается неизменным.
Изучение белков уже давно используют для суждений об активности геномов растений. Как известно, ферменты, имеющиеся у всех растений, различаются у отдельных видов и сортов последовательностью аминокислот. Такие ферменты, с одинаковой функцией, но разной последовательностью отдельных аминокислот, называют изоферментами. У них разные физико-химические и иммунологические свойства (молекулярная масса, заряд), что можно выявить с помощью хро-матографии или электрофореза. В течение многих лет эти методы успешно использовали для изучения так называемого генетического полиморфизма, то есть различий между организмами, сортами, популяциями, видами, в частности пшеницы и родственных форм злаков. Однако в последнее время в связи с быстрым развитием методов анализа ДНК, включая секвенирование, изучение белкового полиморфизма оказалось замененным исследованием полиморфизма ДНК. Впрочем, прямое изучение спектров запасных белков (проламины, глиадины и др.), определяющих основные питательные свойства злаков, остается важным и надежным способом генетического анализа, селекции и семеноводства сельскохозяйственных растений.
Знание генов, механизмов их экспрессии и регуляции чрезвычайно важно для развития биотехнологии и получения трансгенных растений. Известно, что впечатляющие успехи в этой области вызывают неоднозначную реакцию экологической и медицинской общественности. Однако есть область биотехнологии растений, где эти страхи, если не совсем беспочвенны, то, во всяком случае, представляются малосущественными. Речь идет о создании трансгенных технических растений, не используемых в качестве пищевых продуктов. Недавно в Индии собран первый урожай трансгенного хлопка, устойчивого к ряду заболеваний . Имеются сведения о введении в геном хлопка специальных генов, кодирующих пигментные белки, и получении волокон хлопка, не нуждающихся в искусственном окрашивании. Другая техническая культура, которая может оказаться объектом эффективной генной инженерии, - это лен. Его использование как альтернативы хлопку для получения текстильного сырья обсуждается в последнее время . Эта проблема чрезвычайно важна для нашей страны, утратившей собственные источники хлопкового сырья.
ПЕРСПЕКТИВЫ ИЗУЧЕНИЯ ГЕНОМОВ РАСТЕНИЙ
Очевидно, что структурные исследования геномов растений будут базироваться на подходах и методах сравнительной геномики с использованием в качестве основного материала результатов расшифровки геномов арабидопсиса и риса. Существенную роль в развитии сравнительной геномики растений будут, без сомнения, играть сведения, которые рано или поздно предоставит тотальное (черновое) секвенирование геномов других растений. При этом сравнительная геномика растений будет основываться на установлении генетических взаимосвязей отдельных локусов и хромосом, относящихся к разным геномам. Речь пойдет не столько об общей геномике растений, сколько об избирательной геномике отдельных хромосомных локусов. Так, недавно было показано, что ген, ответственный за яровизацию, расположен в локусе VRn-AI хромосомы 5А гексаплоидной пшеницы и локусе Hd-6 хромосомы 3 риса.
Развитие этих исследований явится мощным толчком к идентификации, выделению и секвени-рованию многих функционально важных генов растений, в частности генов, ответственных за устойчивость к болезням, засухоустойчивость, приспособленность к различным условиям произрастания. Все шире будет использоваться функциональная геномика, основанная на массовом выявлении (скринировании) генов, функционирующих в растениях.
Можно предвидеть дальнейшее совершенствование хромосомных технологий, прежде всего метода микродиссекции. Его использование резко расширяет возможности геномных исследований, не требуя огромных затрат, как, например, тотальное секвенирование геномов. Получит дальнейшее распространение метод локализации на хромосомах растений отдельных генов с помощью гибридизации in situ. В настоящий момент его применение ограничено огромным числом повторяющихся последовательностей в геноме растений, а возможно, и особенностями структурной организации хромосом растений.
Хромосомные технологии в обозримом будущем приобретут большое значение и для эволюционной геномики растений. Эти технологии, относительно недорогие, позволяют быстро оценивать внутри- и межвидовую вариабельность, изучать сложные аллополиплоидные геномы тетраплоидной и гексаплоидной пшеницы, тритикале; анализировать эволюционные процессы на хромосомном уровне; исследовать образование синтетических геномов и введение (интрогрессия) чужеродного генетического материала; выявлять генетические взаимоотношения между индивидуальными хромосомами различных видов.
Изучение кариотипа растений с помощью классических цитогенетических методов, обогащаемых молекулярно-биологическим анализом и компьютерными технологиями, будет использоваться для характеристики генома. Это особенно важно для изучения стабильности и изменчивости кариотипа на уровне не только отдельных организмов, но и популяции, сорта и вида. Наконец, трудно представить, каким образом можно оценить число и спектры хромосомных перестроек (аберрации, мосты) без применения методов дифференциального окрашивания. Такие исследования крайне перспективны для мониторинга окружающей среды по состоянию генома растений.
В современной России вряд ли будет проводиться прямое секвенирование геномов растений. Такие работы, требующие крупных вложений, непосильны для нашей нынешней экономики. Между тем сведений о строении геномов арабидопсиса и риса, полученных мировой наукой и доступных в международных банках данных, достаточно для развития отечественной геномики растений. Можно предвидеть расширение исследований геномов растений, основанных на подходах сравнительной геномики, для решения конкретных задач селекции и растениеводства, а также изучения происхождения различных видов растений, имеющих важное хозяйственное значение.
Можно полагать, что в отечественной селекционной практике и растениеводстве будут широко использоваться такие геномные подходы, как генетическое типирование (RELF, RAPD, AFLP-анализы и т.п.), вполне доступные для нашего бюджета. Параллельно с прямыми методами определения ДНК-полиморфизма для решения проблем генетики и селекции растений будут применяться подходы, основанные на изучении белкового полиморфизма, в первую очередь запасных белков злаков. Широкое применение получат хромосомные технологии. Они относительно недороги, их развитие требует вполне умеренных вложений. В области хромосомных исследований отечественная наука не уступает мировой.
Следует подчеркнуть, что наша наука внесла заметный вклад в становление и развитие геномики растений [ , ].
Основополагающую роль сыграл Н.И. Вавилов (1887-1943).
В молекулярной биологии и геномике растений очевиден пионерский вклад А.Н. Белозерского (1905-1972).
В области хромосомных исследований необходимо отметить работы выдающегося генетика С.Г. Навашина (1857-1930), впервые обнаружившего у растений спутниковые хромосомы и доказавшего, что можно различать отдельные хромосомы по особенностям их морфологии.
Другой классик российской науки Г.А. Левицкий (1878-1942) детально описал хромосомы ржи, пшеницы, ячменя, гороха и сахарной свеклы, ввел в науку термин "кариотип" и развил учение о нем.
Современные специалисты, опираясь на достижения мировой науки, могут внести заметный вклад в дальнейшее развитие генетики и геномики растений.
Автор выражает сердечную благодарность академику Ю.П. Алтухову за критическое обсуждение статьи и ценные советы.Работа коллектива, возглавляемого автором статьи, выполнена при поддержке Российского фонда фундаментальных исследований (гранты № 99-04-48832; 00-04-49036; 00-04-81086), Программы Президента Российской Федерации по поддержке научных школ (гранты № 00-115-97833 и НШ-1794.2003.4) и Программы Российской академии наук "Молекулярно-генетические и хромосомные маркеры в разработке современных методов селекции и семеноводства".
ЛИТЕРАТУРА
1. Зеленин А.В., Бадаева Е.Д., Муравенко О.В.
Введение
в геномику растений // Молекулярная биология. 2001. Т. 35. С. 339-348. 2. Pen E.
Bonanza for Plant Genomics // Science.
1998. V. 282. P. 652-654. 3. Plant genomics // Proc. Natl. Acad. Sci. USA. 1998.
V. 95. P. 1962-2032. 4. Картель Н.А. и др.
Генетика. Энциклопедический
словарь. Минск: Technologia, 1999. 5. Badaeva E.D., Friebe B., Gill B.S.
1996. Genome
differentiation in Aegilops. 1. Distribution of highly repetitive DNA sequences
on chromosomes of diploid species // Genome. 1996. V. 39. P. 293-306. История
хромосомного анализа // Биол. мембраны. 2001. Т. 18. С. 164-172.
В научных кругах несколько лет назад ходила байка, что Господь, создавая человека, действовал как самый настоящий программист. Программа, как правило, занимает гораздо меньше объема, чем комментарии к ней. В геноме оказалось буквально то же самое: только спустя десятилетие после прочтения человеческой ДНК «по буквам» ученые начали разбираться в «комментариях» к ней. Они нашли в геноме миллионы регуляторов работы генов и даже, судя по полученным результатам, выяснили, как они действуют. Таким образом, удалось получить массу информации о генетических заболеваниях.
В начале сентября в научном мире случилась сенсация. Практически одновременно были опубликованы 30 с лишним статей с результатами одного из проектов под названием ENCODE. Из них шесть статей появились в Nature, две — в Science и 24 - в журналах Genome Re search и Genome Biology.
Подобного всплеска молекулярно-генетических публикаций не случалось уже давно. Cуть проекта ENCODE состоит в том, что ученые исследовали ту часть ДНК, которую часто называют «мусорной» (junk DNA). Почему «мусорной»? Дело в том, что она не содержит генов, а значит, не кодирует белков. И было совершенно непонятно, для чего она нужна.
Но «мусор» оказался поистине золотым. Теперь, как говорит доктор Юан Бирни (Ewan Birney) из Европейского института биоинформатики в Хьюстоне (Великобритания), координатор анализа данных по проекту, термин «мусорная ДНК» пора выбросить в мусорную корзину.
Строение ДНК
ДНК (дезоксирибонуклеиновая кислота) - длинная полимерная молекула, состоящая из повторяющихся блоков, нуклеотидов. Каждый нуклеотид состоит из азотистого основания, сахара (дезоксирибозы) и фосфатной группы. Сама молекула имеет форму спирали из двух цепей, ориентированных азотистыми основаниями друг к другу. В ДНК четыре вида азотистых оснований (аденин, гуанин, тимин и цитозин), они соединяются попарно друг с другом водородными связями по принципу комплементарности (аденин соединяется с тимином, гуанин с цитозином).
Прочитан не значит расшифрован
В 2000 году мир узнал о том, что ученые прочитали геном человека. Точнее, в тот момент они всего лишь получили «черновик», а о полном прочтении объявили в 2003 году. В СМИ для этой работы использовали фразу «расшифровка генома», хотя она не совсем корректно описывает результат многолетней работы международного консорциума.
То, что получили, представляет собой не расшифровку, а самую настоящую шифровку. Исследователи секвенировали человеческую ДНК, то есть распознали последовательность из 3 млрд букв (А, С, T, G), обозначающих составные «кирпичики» ДНК - нуклеотиды. Двойная спираль молекулы, в которой закодирована наследственная информация человека, превратилась в длиннейшую телетайпную ленту с буквами, и некоторые из них складывались в «слова» - гены.
Но «слов-то» оказалось относительно немного! Общее количество генов в геноме человека ученые оценивают всего в 20-25 тыс. Эта цифра совсем не поражает воображение, если сравнивать, например, с мухой дрозофилой, у которой 14 тыс. генов. А у крошечного пресноводного рачка дафнии насчитали более 30 тыс. генов - на сегодня он остается чемпионом в этой номинации. Но мы-то посложнее устроены, чем дафния, один мозг человеческий чего стоит. Стало ясно, что особенность генетического устройства человека кроется вовсе не в количестве, а в качестве. Собака зарыта, таким образом, не в самом наборе генов, а в тонкой и сложной регуляции их работы.
Доктор биологических наук, биоинформатик Михаил Гельфанд заметил как-то в нашем с ним разговоре, что секвенированный геном - лишь найденный папирус, на котором виден непонятный текст. Но мы не знаем, что на нем написано, не можем перевести на свой язык. То есть мы не понимаем, как работает геном: почему в одних клетках включаются одни гены, в других клетках - иные (и благодаря этому клетки нашего организма разные), почему одни гены работают только в эмбрионе, а по мере развития человека вместо них начинают работать другие и т. д. Сами гены, как оказалось, занимают всего 1–2% длины молекулы ДНК. Напомним, что в гене содержится информация о строении белка (или нескольких белков), то есть гены кодируют белки. Но 98–99% ДНК белков не кодирует. Конечно, ученые догадывались, что не всё так просто, природа не может быть настолько расточительна и «мусорная» ДНК для чего-то очень нужна. Но, чтобы это показать, нужно было проделать много кропотливой работы, которая под силу только большому международному консорциуму. Такой масштабный замысел и стал в итоге целью проекта ENCODE (Encyclopedia of DNA Elements), в котором участвуют более 400 исследователей, члены 32 научных групп.
ДНК-энциклопедия
Работа стартовала в 2003 году. Финансировал ее Национальный институт исследований генома человека (National Human Genome Research Institute). Проект обошелся ему в 185 млн долларов США. На первом этапе, когда шла отработка методик, ученые проанализировали лишь 1% некодирующей части ДНК. С 2007 года начался второй этап, результаты которого и опубликованы одновременно в Nature, Science и других научных журналах. Но насколько велика получившаяся энциклопедия? Как пишет редактор Nature Брендан Мэйер (Brendan Maher), если распечатать все геномные данные, собранные по проекту за пять лет, при плотности 1000 пар оснований на квадратный сантиметр вышла бы распечатка 30 км в длину и 16 м в высоту. В ней содержатся 15 трлн байт информации.
По словам Мэйера, в ходе программы «Геном человека» получен «рабочий чертеж» генома. Но к этому чертежу не прилагается «руководства пользователя», и поэтому мы не знаем, как его читать. Чтобы понять это (то есть получить такой мануал), участники ENCODE стали интенсивно изучать пустые пространства между генами, предполагая, что инструкция к геному может быть записана именно там.
За пять лет они смогли перелопатить около 80% этой пустыни и нанесли на карту найденные в «мусоре» различные регуляторные участки. И чем тщательнее они исследовали ДНК, тем сложнее она оказывалась устроена - с каждым шагом вперед горы становились выше.
Транскрипционные факторы
Белки, контролирующие процесс синтеза РНК на матрице ДНК (транскрипцию) путем связывания со специфичными участками ДНК. Таким образом, они обеспечивают усиление или ослабление работы гена.
Геномная «темная материя»
Как генетики изучали ДНК, которая не делает белков? Во-первых, они убедились в том, что с некодирующих участков генома тоже образуется РНК. Основную роль в этой работе сыграла группа лаборатории КолдСпринг-Харбор, которой руководит профессор Томас Джинджерас (Thomas Gingeras).
Именно эта команда ученых доказала, что три четверти человеческой ДНК образует РНК, хотя большая часть этой РНК и не несет информации для синтеза белков клетки. Д-ру Джинджерасу и его коллегам удалось описать тысячи неизвестных ранее РНК, которые обеспечивают генную регуляцию.
Во-вторых, они пометили ДНК особым ферментом (DNaseI), который прикрепляется к определенным местам молекулы. Это и оказались регуляторные участки, которые связываются с белками - транскрипционными факторами - и через них влияют на работу генов. Одни из них расположены непосредственно рядом с генами, другие - совсем далеко от них. Доктор биологических наук Юрий Лебедев, заведующий лабораторией сравнительной функциональной геномики Института биоорганической химии им. Шемякина и Овчинникова РАН, объясняет, что задачу проекта ENCODE можно представить как «разбиение непрерывного ряда букв последовательности нуклеотидов ДНК на отдельные слова и осмысленные предложения». Для ее решения исследователи использовали не «виртуальные» биоинформатические, а прямые экспериментальные методы, например разного рода биологические чипы. «Чип можно представить как своеобразную “щетку”, каждая “ворсинка” которой представляет собой короткий кусочек ДНК с точно известным положением в геноме», - поясняет ученый. Этим методом идентифицируют положение участков ДНК, которые связываются с транскрипционным фактором. При нанесении раствора-зонда на чип на некоторых ворсинках возникает флуоресцентный сигнал.
«Если для приготовления зонда взять ДНК из разных типов клеток, можно увидеть разницу в наборе флуоресцентных сигналов, - продолжает Лебедев. - Например, в ДНК из лейкоцитов данный белок будет связываться с одними участками, а в ДНК из клеток печени или мозга спектр этих участков будет другим. Подобным же образом определяют профили метилирования геномной ДНК - одного из вездесущих клеточных механизмов, регулирующих активность генов. Чтобы найти метилированные участки ДНК, используют группу специальных метил-связывающих белков. Так получается подробная функциональная карта генома для разных типов клеток».
Метилирование ДНК
Химическая модификация молекулы ДНК без изменения состава нуклеотидной последовательности. Выражается в присоединении метильной группы (СН3--) к цитозину. От степени метилирования зависит уровень экспрессии гена. Это один из механизмов регуляции работы генов.
Дирижеры генного оркестра
Итак, на 25 тыс. генов в ДНК обнаружилось около 4 млн регуляторных участков. Каждый ген взаимодействует со множеством регуляторов. «Большинство людей представляют геном линейно - 3 млрд нуклеотидов, вытянутых в линию, - говорит Марк Герштейн (Mark Gerstein), профессор биоинформатики на отделении молекулярной биофизики и биохимии Йельского университета (США). - Но геном - трехмерный объект». По его словам, «мы будто открыли коммутационный отсек и увидели спутанный клубок проводов. И теперь пытаемся распутать этот клубок и разобраться, куда ведут провода». В статье в Nature Марк Герштейн и его коллеги пишут про сложную пространственную сеть, в которую объединены транскрипционные факторы, которые регулируют работу генов на разных уровнях: среди них есть топ-регуляторы, регуляторы среднего и низшего звена.
Ученые имели дело с большим разнообразием клеток - всего они изучили 147 типов клеток, взятых из многих тканей на разных стадиях их развития. Оказалось, что команда регуляторов, которые дирижируют генным оркестром, меняется с типом клетки и со временем. Для разных клеток исследователи создали карты активных регуляторных участков. В этом ключ к пониманию того, что клетки развиваются и проходят дифференцировку от стволовых к специализированным, и нервные клетки в итоге не похожи на мышечные. «Полученные карты генома разных клеток можно сравнить с картами, которые нам дает Google Maps, - объясняет Эрик Лэндер (Eric Lander), президент Broad Institute (объединенный институт, в состав которого входят Массачусетский технологический институт, Гарвардский университет и институт Уайтхеда). - По сравнению с ними результаты предшествующего проекта “Геном человека” давали нам взгляд на Землю из космоса. По этим снимкам невозможно определить, где проходят трассы, каков на них трафик в данное время дня, они не укажут вам на лучшие рестораны в округе или на больницы в этом городе на берегу реки». Теперь же, продолжаем сравнение, по геному стало возможно «ездить с навигатором».
Дифференцировка
Процесс специализации клетки - развития от стадии стволовой клетки до специализированной клетки какой-либо ткани.
Однонуклеотидный полиморфизм (SNP)
Точечные мутации - замена одного нуклеотида на другой. Один из наиболее распространенных вариантов генетического разнообразия.
Болезни - чаще поломка не генов, а регуляторов
В последнее десятилетие ученые активно исследуют генетическую природу различных заболеваний. Этому помогает широкогеномное генотипирование - GWAS (genome wide association study). В группе больных и в группе здоровых людей сравнивают генетическую вариабельность, или однонуклеотидный полиморфизм (SNP), - точечные мутации, выражающиеся в замене одного нуклеотида другим. Таким образом выявляют ассоциации мутаций с болезнью. Иногда удается связать болезнь с определенными генами.
Трудность состоит в том, что только 15% этих вредных мутаций приходится на гены, и тогда можно понять, что именно ломается в организме. А 85% мутаций попадает вовсе не на гены, а на ту самую межгенную «темную материю», о которой ученые до недавнего времени практически ничего не знали. «Большинство изменений, которые связаны с болезнями, лежат не в самих генах, а в переключателях», - объясняет Майкл Снайдер (Michael Snyder), исследователь-микробиолог из Стэнфордского университета (США). Поэтому работы по расшифровке генома пока дают очень малый эффект для диагностики и лечения.
«Многие исследователи находили участки человеческого генома, мутации в которых вызывают определенные болезни, - объясняет Джоб Дэккер (Job Dekker), профессор отделения биохимии и молекулярной фармакологии Медицинской школы Массачусетского университета (США). - Во многих случаях, как удалось понять, эти участки совсем не содержат генов, и тогда объяснить причину патологии трудно. Данные ENCODE показывают, что многие из этих мутаций затрагивают регуляторные элементы генов, и в некоторых случаях мы можем найти, какие гены регулируются этими элементами. Таким образом, мы можем значительно лучше понять генетические основы болезни».
Разбираясь в том, какие регуляторы ломаются и работу каких генов они нарушают, генетикам удалось обнаружить неожиданные связи между, казалось бы, весьма далекими по природе заболеваниями, пишут авторы статьи в Nature. Например, одна мутация в регуляторном участке изменяет работу нескольких генов, что может в конечном итоге привести к рассеянному склерозу, волчанке, ревматоидному артриту, болезни Крона, глютеновой болезни.
«Самый главный выход проекта - в предоставлении громадного массива данных для сравнительного анализа функциональных карт, - считает Юрий Лебедев. - Проведение такого анализа крайне важно для развития медицины, поскольку его результаты могут ответить на вопрос, что изменится в геноме больных клеток по сравнению с геномом здоровых. Если мы возьмем, скажем, ДНК из клеток двух типов, например клеток раковой опухоли легкого и неповрежденных клеток легкого (поверхностный эпителий альвеол), у них можно сравнить профиль метилирования или связь с транскрипционными факторами, и профили будут разными. Если этот результат получен не на одном пациенте, а на многих, он может стать диагностическим признаком».
Таким образом уже удалось найти мутации, которые связаны с развитием рака, - подавляющее число мутаций в раковых клетках появляются опять-таки не в генах, а в зоне «темной материи». Об этом говорит д-р Марк Рубин (Mark Rubin), специалист по генетике рака простаты из Медицинского колледжа Вейл Корнелл в Нью-Йорке. Его группа обнаружила мутации в ключевых генах, связанные с раком простаты, которые, однако, было невозможно компенсировать лекарствами. Теперь ясно, какие участки «темной материи» нарушают работу этих генов, - появились новые мишени для лекарственной терапии.
Марк Герштейн считает, что результаты проекта ENCODE найдут когда-нибудь применение в области персональной геномики: «В будущем каждый человек будет располагать собственным секвенированным геномом и сможет использовать эту информацию для получения персональной медицинской помощи. Индивидуальные генетические карты будут применяться для оценки индивидуального риска развития тех или иных болезней и для разработки индивидуальной схемы лечения».
Издательство «БИНОМ. Лаборатория знаний» выпускает книгу воспоминаний ученого-генетика Крейга Вентера «Расшифрованная жизнь». Крейг Вентер известен работами по прочтению и расшифровке генома человека. В 1992 году он основал Институт исследований генома (TIGR). В 2010 году Вентер создал первый в мире искусственный организм – синтетическую бактерию Mycoplasma laboratorium. Мы предлагаем вам ознакомиться с одной из глав книги, в которой Крейг Вентер рассказывает о работе 1999–2000 годов по секвенированию генома мухи дрозофилы.
Вперед, и только вперед
Фундаментальные аспекты наследственности оказались, к нашему удивлению, довольно просты, а потому появилась надежда, что, возможно, природа не так уж непознаваема, а ее не раз провозглашаемая самыми разными людьми непостижимость - просто еще одна иллюзия, плод нашего невежества. Это вселяет в нас оптимизм, поскольку, если бы мир был настолько сложным, как уверяют некоторые наши друзья, у биологии не было бы никакого шанса стать точной наукой.
Томас Хант Морган . Физические основы наследственности
Многие спрашивали меня, почему из всех живых существ на нашей планете я выбрал дрозофилу; других интересовало, почему я сразу не перешел к расшифровке генома человека. Дело в том, что нам нужна была основа для будущих экспериментов, мы хотели быть уверенными в правильности нашего метода, прежде чем потратить почти 100 миллионов долларов на секвенирование генома человека.
Маленькая дрозофила сыграла огромную роль в развитии биологии, особенно генетики. Род дрозофилы включает разных мушек - уксусных, винных, яблочных, виноградных, а также фруктовых, - всего около 26 сотен видов. Но стоит произнести слово «дрозофила», и любой ученый сразу подумает об одном определенном виде - Drosophilamelanogaster. Из-за того, что она быстро и легко размножается, эта крошечная мушка служит для биологов-эволюционистов модельным организмом. Они используют ее, чтобы пролить свет на чудо творения - от момента оплодотворения до становления взрослого организма. Благодаря дрозофилам было сделано немало открытий, в том числе обнаружены гомеобокссодержащие гены, регулирующие общее строение всех живых организмов.
Каждый, изучающий генетику, знаком с опытами на дрозофиле, выполненными Томасом Хантом Морганом, отцом американской генетики. В 1910 году он заметил среди обычных красноглазых мушек мутантов мужского пола с белыми глазами. Он скрестил белоглазую мужскую особь с красноглазой женской особью и обнаружил, что их потомство получилось красноглазым: белоглазость оказалась рецессивным признаком, и теперь мы знаем: чтобы у мушек были белые глаза, нужны две копии гена белоглазости, по одному от каждого родителя. Продолжая скрещивать мутантов, Морган обнаружил, что только у мужских особей проявляется признак белых глаз, и сделал вывод, что этот признак связан с половой хромосомой (Y-хромосомой). Морган и его ученики изучали наследуемые признаки у тысяч плодовых мушек. Сегодня эксперименты с дрозофилой ведутся в лабораториях молекулярной биологии всего мира, где это маленькое насекомое изучают более пяти тысяч человек.
Я на собственном опыте понял всю важность дрозофилы, когда использовал библиотеки ее кДНК генов при исследовании адреналиновых рецепторов и обнаружил у мушки их эквивалент - октопаминовые рецепторы. Это открытие указывало на общность эволюционной наследственности нервной системы мушки и человека. Пытаясь разобраться в библиотеках кДНК мозга человека, я путем компьютерного сопоставления генов человека с генами дрозофилы нашел гены со сходными функциями.
Проект секвенирования гена дрозофилы был запущен в 1991 году, когда Джерри Рубин из Калифорнийского университета в Беркли и Аллен Спредлинг из института Карнеги решили, что настало время приняться за эту задачу. В мае 1998 года 25% секвенирования было уже завершено, и я внес предложение, которое, по словам Рубина, было «слишком хорошим, чтобы от него отказаться». Моя идея была довольно рискованной: тысячам исследователей плодовой мушки из разных стран предстояло пристально изучить каждую букву полученного нами кода, сравнивая ее с высококачественными, эталонными данными самого Джерри, а затем сделать заключение о пригодности моего метода.
Исходный план предполагал завершение секвенирования генома мушки в течение шести месяцев - к апрелю 1999 года, чтобы затем начать атаку на геном человека. Мне казалось, это самый эффектный и всем понятный способ продемонстрировать, что наш новый метод работает. А если у нас ничего не получится, полагал я, то лучше в этом быстро убедиться на примере дрозофилы, чем работая над геномом человека. Но, по правде говоря, полная неудача была бы самым впечатляющим провалом в истории биологии. Джерри тоже рисковал своей репутацией, поэтому все в Celera были полны решимости поддержать его. Я попросил Марка Адамса возглавить нашу часть проекта, и так как у Джерри в Беркли тоже была первоклассная команда, наше сотрудничество шло как по маслу.
Прежде всего встал вопрос о чистоте ДНК, которую нам предстояло секвенировать. Как и люди, мушки различаются на генетическом уровне. Если генетических вариаций в популяции более 2%, и мы имеем 50 различающихся индивидуумов в выбранной группе, то расшифровка оказывается весьма сложной. В первую очередь Джерри пришлось провести инбридинг мушек в максимально возможной степени, чтобы предоставить нам однородный вариант ДНК. Но для обеспечения генной чистоты инбридинга было недостаточно: при извлечении ДНК мушки существовала опасность загрязнения генетическим материалом из клеток бактерий, находящихся в пище мушки или в ее кишечнике. Чтобы избежать этих проблем, Джерри предпочитал извлекать ДНК из мушиных эмбрионов. Но и из клеток эмбрионов приходилось сначала выделять ядра с нужной нам ДНК, чтобы не загрязнять ее внеядерной ДНК митохондрий - «силовых установок» клетки. В результате мы получили пробирку с мутноватым раствором чистой дрозофильной ДНК.
Летом 1998 года команда Хэма, имея такую чистую ДНК мушки, приступила к созданию библиотек ее фрагментов. Сам Хэм больше всего любил разрезать ДНК и соединять внахлест полученные фрагменты, понизив чувствительность своего слухового аппарата, чтобы никакие посторонние звуки не отвлекали его от работы. Создание библиотек должно было положить начало масштабному секвенированию, но пока повсюду раздавались одни только звуки дрели, стук молотков и визжание пил. Рядом постоянно мозолила глаза целая армия строителей, а мы продолжали решать важнейшие проблемы - устранение неполадок в работе секвенаторов, роботов и другого оборудования, пытаясь не за годы, а за считанные месяцы создать с нуля настоящую «фабрику» секвенирования.
Первый секвенатор ДНК модели 3700 был доставлен в Celera 8 декабря 1998 года и встречен c большим восторгом и всеобщим вздохом облегчения. Устройство извлекли из деревянного ящика, поместили в комнату без окон в подвале - его временное пристанище, и сразу приступили к пробным испытаниям. Когда он заработал, мы получили очень качественные результаты. Но эти первые экземпляры секвенаторов работали весьма нестабильно, а некоторые были неисправны с самого начала. С работающими тоже постоянно возникали проблемы, порой чуть ли не ежедневно. Например, в программе управления роботом-манипулятором появилась серьезная ошибка - иногда механическая рука робота на большой скорости выдвигалась над устройством и с размаху врезалась в стену. В результате секвенатор останавливался, и для его починки приходилось вызывать ремонтную бригаду. Некоторые секвенаторы выходили из строя из-за блуждающих лазерных лучей. Для защиты от перегрева использовались ленты из фольги и скотча, поскольку при высокой температуре из последовательностей испарялись окрашенные в желтый цвет фрагменты Gs.
Хотя устройства теперь поставлялись регулярно, около 90% из них с самого начала были неисправны. В некоторые дни секвенаторы вообще не работали. Я твердо верил в Майка Ханкапиллера, однако моя вера сильно поколебалась, когда он стал винить в неудачах наших сотрудников, строительную пыль, малейшие колебания температуры, фазы Луны и так далее. Некоторые из нас от стресса даже поседели.
Не подающие признаков жизни 3700-е, ожидающие отправки обратно в ABI, стояли в кафетерии, и, в конце концов, дошло до того, что нам приходилось обедать практически в «морге» секвенаторов. Я был в отчаянии - ведь мне ежедневно нужно было определенное количество работающих устройств, а именно 230! За примерно 70 миллионов долларов компания ABI обещала предоставить нам или 230 абсолютно исправных устройств, работающих без перебоев целый день, или 460, которые работали хотя бы полдня. Кроме того, Майку следовало удвоить количество квалифицированного технического персонала для незамедлительного ремонта секвенаторов после поломки.
Однако какой интерес заниматься всем этим за те же деньги! К тому же у Майка появился еще один клиент - государственный геномный проект, руководители которого уже начали закупать сотни устройств безо всякого тестирования. Будущее Celera зависело от этих секвенаторов, но Майк, по-видимому, не понимал, что и будущее ABI от них зависело. Конфликт был неизбежен, что и проявилось на важном совещании инженеров ABI и моей команды, состоявшемся в Celera.
После того, как мы сообщили об огромном количестве дефектных приборов и о том, как много времени требуется на исправление поломок секвенаторов, Майк снова попытался свалить всю вину на моих сотрудников, но даже его собственные инженеры с ним не согласились. В конце концов вмешался Тони Уайт. «Мне все равно, сколько это стоит и кого нужно прибить за это», - сказал он. Тогда он в первый и последний раз действительно встал на мою сторону. Он приказал Майку как можно скорее обеспечить поставку новых секвенаторов, даже в ущерб другим клиентам и даже если пока неизвестно, во сколько это обойдется.
Тони также распорядился, чтобы Майк нанял еще двадцать специалистов для оперативного ремонта и определения причин всех проблем. На деле это было легче сказать, чем сделать, потому что опытных работников не хватало. Начать с того, что Эрик Ландер переманил двоих из самых квалифицированных инженеров, и по мнению Майка, тут тоже были виноваты мы. Повернувшись к Марку Адамсу, Майк сказал: «Вы должны были нанять их раньше, чем это сделал кто-то другой». После такого заявления я окончательно потерял к нему всякое уважение. Ведь согласно нашему договору, я не мог нанимать сотрудников ABI, в то время как Ландер и другие руководители государственного проекта генома имели на это право, поэтому очень скоро лучшие инженеры ABI начали работать на наших конкурентов. К концу совещания я понял - проблемы остались, но луч надежды на улучшение все-таки забрезжил.
Так и произошло, хотя и не сразу. Наш арсенал секвенаторов увеличился с 230 до 300 устройств, и если 20–25% из них отказывали, мы все-таки имели около 200 работающих секвенаторов и кое-как справлялись с поставленными задачами. Технические сотрудники работали героически и неуклонно увеличивали темп ремонтных работ, сокращая простои. Все это время я думал об одном: то, что мы делаем, - выполнимо. Неудачи возникали по тысяче причин, но провал не входил в мои планы.
Мы всерьез взялись за секвенирование генома дрозофилы 8 апреля, примерно тогда, когда уже должны были завершить эту работу. Я, конечно, понимал, что Уайт хочет от меня избавиться, но делал все от меня зависящее ради выполнения главной задачи. Напряжение и беспокойство преследовали меня и дома, но с самым своим «доверенным лицом» я эти проблемы обсуждать не мог. Клэр откровенно демонстрировала свое презрение, видя, насколько я поглощен делами Celera. Ей казалось, что я повторяю те же ошибки, которые делал, работая в TIGR/HGS. К 1 июля я чувствовал себя глубоко подавленным, как это уже было во Вьетнаме.
Поскольку конвейерный метод пока у нас не работал, нам предстоял тяжелый изнурительный труд - заново «склеивать» фрагменты генома. Чтобы обнаруживать совпадения и не отвлекаться на повторы, Джин Майерс предложил алгоритм на основе ключевого принципа моего варианта метода дробовика: секвенировать оба конца всех полученных клонов. Поскольку Хэм получал клоны трех точно известных размеров, мы знали, что две концевые последовательности находятся на строго определенном расстоянии друг от друга. Как и прежде, этот способ «нахождения пары» даст нам прекрасную возможность снова собрать геном.
Но поскольку каждый конец последовательности секвенировался отдельно, для обеспечения четкой работы этого метода сборки нужно было вести тщательный учет - для абсолютной уверенности, что мы смогли правильно соединить все пары концевых последовательностей: ведь если хотя бы одна из ста попыток приведет к ошибке и не найдется соответствующая пара для последовательности, все пойдет насмарку и метод не сработает. Один из способов избежать этого - использование штрих-кода и датчиков для отслеживания каждого этапа процесса. Но в начале работы у лаборантов не было необходимого программного обеспечения и оборудования для секвенирования, поэтому приходилось делать все вручную. В Celera небольшая команда, менее двадцати человек, каждый день обрабатывала рекордное количество клонов - 200 тысяч. Мы могли предвидеть некоторые ошибки, например неправильное прочтение данных из 384 лунок, а затем использовать компьютер для нахождения явно ошибочной операции и исправить положение. Конечно, еще оставались отдельные недочеты, но это только подтверждало мастерство команды и уверенность, что мы можем устранять ошибки.
Несмотря на все сложности, мы сумели за четыре месяца прочесть 3156 миллионов последовательностей, всего около 1,76 миллиарда нуклеотидных пар, содержащихся между концами 1,51 миллиона клонов ДНК. Теперь настала очередь Джина Майерса, его команды и нашего компьютера - нужно было сложить все участки вместе в хромосомы дрозофилы. Чем длиннее становились участки, тем менее точным оказывалось секвенирование. В случае дрозофилы последовательности насчитывали в среднем 551 нуклеотидную пару, и средняя точность была 99,5%. Если иметь 500-буквенные последовательности, почти любой может определить места совпадений, передвигая одну последовательность вдоль другой до тех пор, пока не обнаружатся совпадения.
Для секвенирования Haemophilus influenzae у нас было 26 тысяч последовательностей. Для сравнения каждой из них со всеми остальными потребовалось бы проделать 26 тысяч сравнений в квадрате, или 676 миллионов. Геном дрозофилы, с его 3,156 миллиона прочтений потребовал бы около 9,9 триллиона сравнений. В случае человека и мыши, где мы произвели 26 миллионов прочтений последовательности, требовалось около 680 триллионов сравнения. Поэтому не вызывает удивления, что большинство ученых весьма скептически относились к возможному успеху этого метода.
Хотя Майерc и обещал все наладить, у него постоянно возникали сомнения. Теперь он работал дни и ночи напролет, выглядел измученным и как-то посерел. К тому же у него были проблемы в семье, и он стал большую часть свободного времени проводить с журналистом Джеймсом Шривом, который писал о нашем проекте и как тень следил за ходом исследований. Пытаясь как-то отвлечь Джина, я взял его с собой на Карибы - расслабиться и походить под парусом на моей яхте. Но и там он часами сидел, скрючившись над ноутбуком, нахмурив черные брови и щуря свои черные глаза от яркого солнца. И, несмотря на невероятные трудности, Джин и его команда сумели за полгода сгенерировать более полумиллиона строк компьютерного кода для нового ассемблера.
Если бы результаты секвенирования были стопроцентно точными, без повторяющихся ДНК, сборка генома была бы относительно несложной задачей. Но в реальности геномы содержат большое количество повторяющихся ДНК разного типа, разной длины и частоты. С короткими повторами, состоящими из менее пяти сотен пар нуклеотидов, справиться относительно легко, с более длинными повторами - сложнее. Для решения этой проблемы мы использовали метод «нахождения пары», то есть секвенировали оба конца каждого клона и получали клоны разной длины для обеспечения максимального количества совпадений.
Алгоритмы, закодированные в полумиллионе строк компьютерного кода команды Джина, предполагали поэтапный сценарий - от самых «безвредных» действий, например простого перекрывания двух последовательностей, до более сложных, например использования обнаруженных пар для слияния островков перекрывшихся последовательностей. Это было похоже на сложение головоломки, когда небольшие островки собранных участков составляются вместе и образуют большие острова, а затем весь процесс повторяется снова. Только вот в нашей головоломке было 27 миллионов фрагментов. И было очень важно, чтобы участки брались из последовательности высокого качества сборки: представьте себе, что будет, если вы собираете пазл, а цвета или изображения его элементов нечеткие и размытые. Для дальнего порядка последовательности генома значительная доля прочтений должна быть в виде совпадающих пар. Учитывая, что результаты все еще отслеживались вручную, мы с облегчением обнаружили, что 70% имевшихся у нас последовательностей именно такие. Специалисты по компьютерному моделированию объяснили, что при меньшем проценте собрать нашего «шалтая-болтая» было бы невозможно.
И теперь мы смогли использовать ассемблер Celera для секвенирования последовательности: на первом этапе результаты корректировались для достижения самой высокой точности; на втором этапе программа Screener удаляла загрязняющие последовательности из ДНК плазмиды или E. coli. Процесс сборки может быть нарушен всего-навсего какими-то 10 парами оснований «чужой» последовательности. На третьем этапе программа Screener проверяла каждый фрагмент на соответствие известным повторяющимся последовательностям в геноме плодовой мушки - данным Джерри Рубина, который их «любезно» нам предоставил. Местоположение повторов с частично перекрывающимися участками записывалось. На четвертом этапе другая программа (Overlapper) обнаруживала перекрывающиеся участки, сравнивая каждый фрагмент со всеми остальными, - колоссальный эксперимент по обработке огромного объема числовых данных. Ежесекундно мы сравнивали 32 миллиона фрагментов с целью обнаружить по крайней мере 40 перекрывающихся пар оснований с менее 6% различий. При обнаружении двух перекрывающихся участков мы объединяли их в больший фрагмент, так называемый «контиг» - набор перекрывающихся фрагментов.
В идеальном случае этого бы вполне хватило для сборки генома. Но нам приходилось бороться со статтерами и повторами в коде ДНК, а это означало, что один фрагмент ДНК может перекрываться с несколькими различными участками, создавая ложные соединения. Чтобы упростить задачу, мы оставляли только однозначно соединенные фрагменты, так называемые «унитиги». Программа, с помощью которой мы выполняли эту операцию (Unitigger), по существу удаляла всю последовательность ДНК, которую мы не могли с уверенностью определить, оставляя лишь эти унитиги. Этот шаг не только дал нам возможность рассмотреть другие варианты сборки фрагментов, но и существенно упростил задачу. После редукции количество перекрывающихся фрагментов сократилось с 212 миллионов до 3,1 миллиона, и проблема упростилась в 68 раз. Детали головоломки постепенно, но неуклонно вставали на свои места.
А затем мы могли использовать информацию о способе спаривания последовательностей одного и того же клона, используя «каркасный» алгоритм. Все возможные унитиги со взаимно перекрывающимися парами оснований объединялись в специальные каркасы. Для описания этого этапа в своих лекциях я провожу аналогию с детским игрушечным конструктором Tinkertoys. Он состоит из палочек разной длины, которые можно вставлять в отверстия, расположенные на деревянных узловых деталях (шариках и дисках), и составить так объемную конструкцию. В нашем случае узловые детали - это унитиги. Зная, что парные последовательности располагаются на концах клонов длиной в 2 тысячи, 10 тысяч или 50 тысяч пар оснований - то есть как бы находятся на расстоянии определенного количества отверстий друг от друга, - их можно выстроить в одну линию.
В результате тестирования этой методики на последовательности Джерри Рубина, составлявшей примерно одну пятую генома плодовой мушки, мы получили всего лишь 500 пробелов. Проведя в августе испытания на наших собственных данных, мы получили в результате более 800 тысяч небольших фрагментов. Существенно большее количество данных для обработки показало, что методика работала плохо - результат оказался противоположным ожидаемому. В течение нескольких следующих дней паника нарастала, а список возможных ошибок удлинялся. С верхнего этажа корпуса № 2 адреналиновый раж просачивался в комнату, шутливо называемую «Безмятежными покоями». Однако никакого покоя и безмятежности там не ощущалось, особенно в течение по крайней мере пары недель, когда сотрудники буквально кругами слонялись в поисках выхода из создавшегося положения.
В конце концов проблему решил Артур Делчер, работавший с программой Overlapper. Он заметил нечто странное в 678-й строке кода из 150 тысяч строк, в том месте, где пустяковая неточность означала, что важная часть совпадений не записана. Ошибка была исправлена, и 7 сентября у нас было 134 клеточных каркаса, покрывавших действующий (эухроматический) геном плодовой мушки. Мы были в восторге и с облегчением выдохнули. Пришла пора объявить всему миру о нашем успехе.
Конференция по секвенированию генома, которую я начал проводить несколько лет назад, предоставляла для этого прекрасную возможность. Я был уверен, что найдется большое количество жаждущих удостовериться, сдержали ли мы свое обещание. Я решил, что рассказывать о наших достижениях, и прежде всего о процессе секвенирования, сборке генома и значении этого для науки, должны Марк Адамс, Джин Майерс и Джерри Рубин. Из-за наплыва желающих приехать на конференцию мне пришлось перенести ее из Хилтон-Хеда в более вместительный отель «Фонтенбло» в Майами. На конференции присутствовали представители крупных фармацевтических и биотехнических компаний, специалисты по геномным исследованиям со всего мира, довольно много обозревателей, репортеров и представителей инвестиционных компаний - все были в сборе. Наши конкуренты из компании Incyte потратили немалые средства на организацию приема после окончания конференции, корпоративную видеосъемку и прочее - делали все, дабы убедить публику, что именно они предлагают «самую подробную информацию о геноме человека».
Мы собрались в большом конференц-зале. Выдержанный в нейтральных тонах, украшенный настенными светильниками, он был рассчитан на две тысячи человек, но народ все прибывал, и вскоре зал заполнился до отказа. Открытие конференции состоялось 17 сентября 1999 года, и на первом заседании с сообщениями выступили Джерри, Марк и Джин. После небольшого вступления Джерри Рубин объявил, что собравшимся предстоит услышать о лучшем совместном проекте известных компаний, в котором ему когда-либо довелось участвовать. Атмосфера накалялась. Аудитория поняла, что он не стал бы говорить так высокопарно, если бы у нас не было заготовлено что-то действительно сенсационное.
В воцарившейся тишине Марк Адамс начал подробно описывать работу нашего «производственного цеха» в Celera и наши новые методы секвенирования генома. Однако при этом он ни слова не сказал о собранном геноме, словно поддразнивая публику. Затем вышел Джин, поведавший о принципах метода дробовика, о секвенировании Haemophilus, об основных стадиях работы ассемблера. С помощью компьютерной анимации он продемонстрировал весь процесс обратной сборки генома. Отведенное на выступления время заканчивалось, и многие было уже решили, что все ограничится элементарной презентацией с использованием программы PowerPoint, без предъявления конкретных результатов. Но тут Джин c ехидной улыбкой заметил, что аудитория, наверное, захочет все-таки увидеть реальные результаты и не удовольствуется имитацией.
Невозможно было представить наши результаты яснее и выразительнее, чем это сделал Джин Майерс. Он понял, что сами по себе результаты секвенирования не произведут должного впечатления, поэтому для большей убедительности сравнил их с результатами кропотливого исследования Джерри традиционным методом. Они оказались идентичными! Таким образом, Джин сравнил результаты нашей сборки генома со всеми известными маркерами, картированными на геноме плодовой мушки десятки лет назад. Из тысяч маркеров только шесть не совпадали с результатами нашей сборки. Тщательно исследовав все шесть, мы убедились, что секвенирование в Celera было верным и что ошибки содержались в работах, выполненных в других лабораториях старыми методами. Под конец Джин сообщил, что мы только что приступили к секвенированию ДНК человека, и с повторами здесь наверняка будет меньше проблем, чем в случае дрозофилы.
Последовали громкие и продолжительные аплодисменты. Не прекращавшийся и во время перерыва гул означал, что мы своего добились. Кто-то из журналистов заметил участника государственного проекта генома, сокрушенно качающего головой: «Похоже, эти мерзавцы действительно собираются все сделать» 1 . Мы покинули конференцию с новым зарядом энергии.
Оставалось решить две важные проблемы, и обе были нам хорошо знакомы. Первая - как публиковать результаты. Несмотря на подписанный с Джерри Рубином меморандум о взаимопонимании, сотрудники нашего бизнес-отдела не одобряли идею передачи ценных результатов секвенирования дрозофилы в GenBank. Они предлагали разместить результаты секвенирования плодовой мушки в отдельной базе данных в Национальном центре биотехнологической информации, где ими сможет пользоваться каждый при одном условии - не в коммерческих целях. Вспыльчивый, постоянно курящий Майкл Эшбернер из Европейского института биоинформатики был крайне этим недоволен. Он считал, что компания Celera «всех надула» 2 . (Он писал Рубину: «Что, черт подери, происходит в Celera?» 3) Коллинз тоже был недоволен, но что гораздо важнее, недоволен был и Джерри Рубин. В конце концов я все-таки отослал наши результаты в GenBank.
Вторая проблема касалась дрозофилы - у нас были результаты секвенирования ее генома, но мы совершенно не понимали, что они означают. Нужно было проанализировать их, если мы хотели написать статью, - так же, как четыре года назад в случае с Haemophilus. Анализ и описание генома мушки могли занять более года - а у меня такого времени не было, потому что теперь следовало сосредоточиться на геноме человека. Обсудив это с Джерри и Марком, мы решили вовлечь в работу над Drosophila научное сообщество, превратив это в увлекательную научную задачу, и таким образом быстро продвинуть дело, устроить из скучного процесса описания генома веселый праздник - наподобие международного скаутского слета. Мы назвали его «Геномное Джамбори» и пригласили ведущих ученых со всего мира приехать в Роквилл примерно на неделю или дней на десять - проанализировать геном мушки. На основе полученных результатов мы планировали написать серию статей.
Идея всем понравилась. Джерри начал рассылать приглашения на наше мероприятие группам ведущих исследователей, а специалисты по биоинформатике Celera решали, какие компьютеры и программы понадобятся, чтоб сделать работу ученых максимально эффективной. Мы договорились, что Celera оплатит им расходы на проезд и проживание. Среди приглашенных были и самые мои суровые критики, но мы надеялись, что их политические амбиции не повлияют на успех нашей затеи.
В ноябре к нам прибыло около 40 специалистов по дрозофиле, и даже для наших недругов предложение оказалось слишком привлекательным, чтобы от него отказаться. Вначале, когда участники поняли, что им предстоит проанализировать более ста миллионов пар оснований генетического кода в течение нескольких дней, ситуация была довольно напряженной. Пока вновь прибывшие ученые спали, мои сотрудники круглые сутки трудились, разрабатывая программы решения непредвиденных проблем. К концу третьего дня, когда оказалось, что новые программные средства позволяют ученым, как сказал один из наших гостей, «за несколько часов делать потрясающие открытия, на которые раньше уходила чуть ли не вся жизнь», обстановка разрядилась. Ежедневно в середине дня, по сигналу китайского гонга все собирались вместе - обсудить последние результаты, решить текущие проблемы и составить план работы на следующий раунд.
С каждым днем дискуссии становились все увлекательнее. Благодаря Celera, у наших гостей появилась возможность первыми заглянуть в новый мир, и то, что открывалось взору, превосходило ожидания. Скоро оказалось, что нам не хватает времени обсудить все, что хочется, и понять, что все это значит. Марк устроил праздничный ужин, который продолжался очень недолго, так как все быстро устремились обратно в лаборатории. Скоро обеды и ужины поглощались прямо перед экранами компьютеров с выведенными на них данными о геноме дрозофилы. Впервые были обнаружены долгожданные семейства рецепторных генов и одновременно удивительное количество генов плодовой мушки, аналогичных генам болезней человека. Каждое открытие сопровождалось радостными воплями, свистом и дружескими похлопываниями по плечу. Как это ни удивительно, но среди нашего научного пиршества одна пара нашла время для помолвки.
Было, правда, некое опасение: в ходе работы ученые обнаружили всего около 13 тысяч генов вместо ожидаемых 20 тысяч. Поскольку в «непритязательном» черве C. elegans порядка 20 тысяч генов, многие полагали, что у плодовой мушки их должно быть больше, так как у нее в 10 раз больше клеток и даже есть нервная система. Существовал один простой способ удостовериться, что в расчетах нет ошибки: взять 2500 известных генов мушки и посмотреть, сколько их удалось найти в нашей последовательности. После тщательного анализа Майкл Черри из Стэнфордского университета сообщил, что он обнаружил все гены, кроме шести. После обсуждения эти шесть генов были отнесены к артефактам. То, что гены были выявлены без ошибок, воодушевило нас и придало уверенности. Сообщество тысяч ученых, посвятивших себя исследованию дрозофилы, потратили десятки лет, отслеживая эти 2500 генов, а теперь целых 13 600 были перед ними на экране компьютера.
Во время неизбежной фотосессии в конце работы наступил незабываемый момент: после традиционного похлопывания по плечу и дружеских рукопожатий Майк Эшбернер встал на четвереньки, чтобы я увековечил себя на фотографии, поставив ногу на его спине. Так он хотел - несмотря на все свои сомнения и скептицизм - отдать должное нашим достижениям. Известный генетик, исследователь дрозофилы, он даже придумал соответствующую подпись под фотографией: «Стоя на плечах гиганта». (Он отличался довольно тщедушной фигурой.) «Отдадим должное тому, кто этого заслуживает», - написал он позже 4 . Оппоненты наши пытались представить накладки в передаче результатов секвенирования в общедоступную базу данных как отступление от наших обещаний, но и они вынуждены были признать, что слет внес «чрезвычайно ценный вклад в общемировые исследования плодовой мушки» 5 . Испытав, что такое подлинная «научная нирвана», все расстались друзьями.
Мы решили опубликовать три большие статьи: одну по секвенированию всего генома, где Майк будет первым автором, другую - по сборке генома, где первым автором будет Джин, и третью - по сравнительной геномике червя, дрожжей и генома человека с Джерри в качестве первого автора. Статьи были сданы в редакцию Science в феврале 2000 года и опубликованы в специальном выпуске от 24 марта 2000 года, - меньше чем через год после моей беседы с Джерри Рубином в Колд-Спринг-Харборе. 6 Перед публикацией Джерри организовал для меня выступление на ежегодной конференции по исследованиям дрозофилы в Питтсбурге, на которой присутствовали сотни самых видных специалистов в этой области. На каждое кресло в зале мои сотрудники положили компакт-диск, содержащий весь геном дрозофилы, а также оттиски наших статей, опубликованных в Science. Джерри очень тепло представил меня, уверив собравшихся, что я выполнил все взятые на себя обязательства и что мы прекрасно работали вместе. Мое выступление заканчивалось сообщением о некоторых исследованиях, сделанных во время слета, и краткими комментариями к данным на компакт-диске. Аплодисменты после моего выступления вызвали у меня такое же удивление и были так же приятны, как пять лет назад, когда мы с Хэмом впервые представили геном Haemоphilus на съезде микробиологов. Впоследствии статьи по геному дрозофилы стали наиболее часто цитируемыми статьями в истории науки.
Несмотря на то, что тысячи исследователей плодовой мушки всего мира были в восторге от результатов, мои критики быстро перешли в наступление. Джон Салстон назвал попытку секвенирования генома мушки неудачей, хотя полученная нами последовательность была более полной и более точной, чем результат его кропотливой десятилетней работы по секвенированию генома червя, завершение которой потребовало еще четырех лет после публикации чернового варианта в Science. Коллега Салстона Мейнард Олсон назвал последовательность генома дрозофилы «безобразием», в котором «по милости» Celera придется разбираться участникам государственного проекта генома человека. В действительности же команда Джерри Рубина сумела быстро закрыть оставшиеся пробелы в последовательности путем публикации и сравнительного анализа уже расшифрованного генома менее чем через два года. Эти данные подтвердили, что мы допустили 1–2 ошибки на 10 тысяч пар оснований во всем геноме и менее 1 ошибки на 50 тысяч пар оснований работающего (эухроматического) генома.
Однако, несмотря на всеобщее признание проекта Drosophila, летом 1999 года напряженность в наших отношениях с Тони Уайтом достигла апогея. Уайт никак не мог смириться с вниманием, которое пресса уделяла моей персоне. Каждый раз, приезжая в Celera, он проходил мимо развешанных на стенах в коридоре, рядом с моим кабинетом, копий статей о наших достижениях. А тут мы увеличили одну из них - обложку воскресного приложения газеты USA Today. На ней, под заголовком «Удастся ли этому АВАНТЮРИСТУ совершить величайшее научное открытие нашего времени?» 7 был изображен я, в синей клетчатой рубашке, закинув ногу на ногу, а вокруг меня парили в воздухе Коперник, Галилей, Ньютон и Эйнштейн - и никаких признаков Уайта.
Каждый день его пресс-секретарь звонила узнать, нельзя ли Тони принять участие в кажущемся бесконечным потоке интервью, проходящих в Celera. Он немного успокоился - да и то ненадолго, когда на следующий год ей удалось добиться, чтобы его фотографию поместили на обложке журнала Forbes как человека, который смог увеличить капитализацию компании PerkinElmer от 1,5 миллиарда долларов до 24 миллиардов долларов 8 . («Тони Уайт превратил бедолагу PerkinElmer в высокотехнологичного ловца генов».) Тони не давала покоя и моя общественная активность.
Примерно раз в неделю я выступал c докладом, соглашаясь на малую толику из огромного количества приглашений, которые постоянно получал, потому что мир хотел знать о нашей работе. Тони даже жаловался в совет директоров PerkinElmer, переименованную к тому времени в PE Corporation, что мои поездки и выступления нарушают корпоративные правила. Во время двухнедельного отпуска (за свой счет), который я провел в своем доме на Кейп-Код, Тони вместе с финансовым директором Деннисом Уингером и главным юрисконсультом Applera Уильямом Соучем полетел в Celera, чтобы опросить моих ведущих сотрудников насчет «эффективности руководства Вентера». Они надеялись собрать достаточно грязи, чтобы обосновать мое увольнение. Уайт был поражен, когда все сказали, что если я уйду, они тоже уволятся. Это вызвало огромную напряженность в нашей команде, но и одновременно сплотило нас теснее, чем когда-либо. Мы готовы были праздновать каждую победу как последнюю.
После публикации последовательности генома мушки - к тому времени это была самая большая расшифрованная последовательность в истории - Джин, Хэм, Марк и я подняли тост за то, что выдержали Тони Уайта достаточно долго и добились признания наших успехов. Мы доказали, что наш метод будет работать и при секвенировании генома человека. Даже если бы на следующий день Тони Уайт прекратил финансирование, мы знали - наше главное достижение останется с нами. Больше всего на свете я хотел уйти из Celera и не общаться с Тони Уайтом, но поскольку еще больше я хотел секвенировать геном Homo sapiens, мне приходилось идти на компромисс. Я старался, как мог, ублажить Уайта, только бы продолжить работу и завершить задуманное.
Примечания
1. Shreeve J. The Genome War: How Craig Venter Tried to Capture the Code of Life and Save the World (New York: Ballantine, 2005), p. 285.
2. Ashburner M. Won for All: How the Drosophila Genome Was Sequenced (Cold Spring Harbor Laboratory Press, 2006), p. 45.
3. Shreeve J. The Genome War, p. 300.
4. Ashburner M. Won for All, p. 55.
5. Sulston J., Ferry G. The Common Thread (London: Corgi, 2003), p. 232.
6. Adams M. D., Celniker S. E. et al. «The Genome Sequence of Drosophila Melanogaster», Science, № 287, 2185–95, March 24, 2000.
7. Gillis J. «Will this MAVERICK Unlock the Greatest Scientific Discovery of His Age? Copernicus, Newton, Einstein and VENTER?», USA Weekend, January 29–31, 1999.
8. Ross P. E. «Gene Machine», Forbes, February 21, 2000.
Крейг Вентер
Человеку давно не давал покоя вопрос “Кто я?”, и в поисках ответа на него он на всякий случай торопился улучшить себя прикладной генетикой: древние греки убивали нездоровых детей, чтобы “очищать” популяцию. Выяснилось - абсолютно напрасно. Генетические дефекты внешне не видны, и какой-нибудь спартанский задохлик, если бы ему не свернули шею, мог бы наплодить олимпийских чемпионов. Перенесемся в год 2016. Вашему пышащему здоровьем годовалому младенцу составляют генетический паспорт, по которому видно, что у него есть 3 “больных” гена, свидетельствующие о предрасположенности к сердечно-сосудистым заболеваниям. Ему подбирается индивидуальная медикаментозная программа и диета, и он преспокойно доживает до 22 века благодаря открытиям, сделанным в рамках проекта “Геном человека”. Фантастика? Да нет, геномика.
Начало XXI века ознаменовалось серьезной биологической шумихой. В июне 2000 года на церемонии в Белом доме президент Клинтон торжественно замирил две соперничающие группы - компанию “Селера”, возглавляемую Крэгом Вентером, и межгосударственный проект HUGO под руководством директора национального Института генома Фрэнсиса Коллинза, и объявил, что после многих лет работы обе они, независимо друг от друга, вплотную подошли к расшифровке генома человека, то есть к составлению полной последовательности всех человеческих дезоксирибонуклеиновых кислот (ДНК).
Основной рабочей единицей любой живой системы является клетка. Вся информация, необходимая для жизнедеятельности клеток, хранится в ДНК. Геном - это полный набор ДНК организма. В человеческом геноме ДНК содержатся в 23 хромосомных парах. Хромосомы - это отдельные молекулы длиной от 50 млн до 250 млн базовых пар ДНК. Каждая хромосома несет в себе различные гены, которые представляют собой определенные последовательности базовых пар ДНК с закодированной информацией о порядке воспроизводства белков. Если информация не та - нормальные биологические функции будут нарушены, и возникнет болезнь.
В 1986 году американское министерство энергетики (а оно в США по указу Конгресса занимается широким разбросом технологий и, например, стояло у истоков создания ядерной бомбы) в партнерстве с Национальным Институтом здоровья объявило о запуске амбициозного проекта “Геном человека”, к участию в котором был приглашен ряд научных учреждений Японии, Англии, Франции, Германии и Китая. Целью проекта было создать базу данных, содержащую последовательность всех базовых пар ДНК и идентифицировать все человеческие гены. Попутно проект совершенствовал вычислительные механизмы для обеспечения будущих изысканий в биогенетике, определял коммерческие перспективы исследований и служил хорошей школой следующему поколению ученых-генетиков. В 1990 году Конгресс США начал финансировать работу проекта, рассчитанного на 15 лет.
Было немало скептиков, которые ставили под сомнение осуществление столь грандиозного проекта и его целесообразность. Первые несколько лет были потрачены на разработку методик и создание технологий, позволяющих подсчитывать и обрабатывать такое огромное количество данных. Поначалу идентификация одной базовой пары обходилась в $10, и специалист высокой квалификации мог просканировать до 10000 базовых пар в день. К моменту завершения проекта появились роботы, которые в состоянии обрабатывать 10000 пар в секунду, снизив стоимость идентификации до 5 центов.
Работа над проектом закипела намного энергичнее, когда в 1999 году биологический концерн “Селера Джиномикс” объявил о своем намерении самому вычленить все человеческие ДНК и начать продавать информацию о них фармацевтическим компаниям. Вооруженная обнародованными к тому времени наработками группы Коллинза, “Селера” собиралась провернуть всю работу за 3 года и утереть нос государственным бюрократам. Потенциальный позор вызвал усиленное вливание денег налогоплательщиков (проект к тому времени “кушал” по 1 млн долларов в день) и нелестную критику “Селеры”, рвущуюся к сверхприбылям, приторговывая достоянием всего человечества. Проект “Геном человека” заработал с такой скоростью, что черновой портрет человеческих ДНК был обнародован на 2 года раньше срока. Ученые из “Селеры” тут же отыскали в нем массу огрехов. Вмешательство администрации президента положило конец этим распрям, и в 2000 году Клинтон соединил руки Вентера и Коллинза сказав, что и государственный, и частный сектор разными путями пришли к похожим выводам, что успех второго был бы невозможен без наработок первого, и что благодаря участию “Селеры” результаты исследования быстрее преобразуются в конкретные плюсы для потребителей.
В апреле 2003 года проект, обошедшийся американской казне в 2,7 млрд долларов, был формально завершен на 2 года раньше срока. Президенты всех стран-участников проекта поздравили генетиков с победой. В распоряжение ученых всего мира поступил источник информации беспрецендентного объема, предопределяющий ход дальнейших изысканий на много лет вперед. Параллельно с человеческой были расшифрованы нуклеотидные последовательности многих других организмов, что дало толчок в развитии сравнительной генетики. Были быстро идентифицированы десятки тысяч генов, отвечающих за врожденные глухоту и слепоту, заболевания почек, рак груди, болезни костной ткани, инсульта, диабета и других заболеваний. Если раньше ученым потребовалось 9 лет работы, чтобы открыть ген, вызывающий фиброзно-кистозную дегенерацию, то, на основании опыта, полученного в ходе исследований генома, ген был найден всего за 9 дней.
Правда, когда все протрезвели от выпитого по случаю шампанского, выяснилось, что около 1% генома расшифровке не поддалось, что вероятность ошибок хоть и снизилась в 10 раз, но остановилась на уровне одной на 100.000 базовых пар ДНК и что пробелы в последовательности все-таки попадаются каждые 27 млн базовых пар. По-прежнему остался вопрос, сколько же генов делают человека человеком. В настоящее время предположительное количество колеблется на уровне 30 тысяч. Ожидается, что со временем оно вырастет до 40.000, но уж точно не до 100 тысяч, как предполагали многие. Таким образом, у человека лишь в 3 раза больше генов, чем у мухи дрозофилы, и лишь на пару сотен больше, чем у мыши.
Еще ученые узнали, что:
- В человеческом геноме 3 млрд нуклеотидных базовых пар.
- Наш ген состоит в среднем из 3 тысяч базовых пар; самый большой ген - дистрофин - состоит из 2,4 млн пар.
- Люди очень похожи - последовательность ДНК на 99,9% одинаковая у всех.
- Больше всего генов (2968) в самой большой человеческой хромосоме - 1, меньше всего (231) в самой маленькой хромосоме - Y.
- Около 2% генома содержит информацию по синтезу белков.
- Белки, а не гены, отвечают за выполнение жизненно-важных функций.
- В геноме насчитывается 30 тысяч генов и 400 тысяч белков.
Из последнего наблюдения делается вывод, что многообразие белков не объясняется результатами генетических исследований. Если геном остается сравнительно неизменяемым, то протеом находится в постоянном движении в зависимости от сигналов, поступающих как снаружи, так и изнутри клетки. Поведение каждого отдельно взятого белка определяется не только последовательностью генов, но и его взаимодействием с другими белками клетки. А про это нам известно совсем немного, и протеомика (изучение строения белка), похоже, будет орешек покрепче геномики (изучения строения генов).
Вооружившись шекспировской цитатой, “что в прошлом - лишь пролог”, руководители проекта заговорили о следующей, прикладной стадии исследований. Генетическое тестирование стало одним из первых коммерческих применений открытий в области генетики. Получив доступ к последовательности нуклеотидов, медики оказались в состоянии предсказывать предрасположенность к той или иной болезни и ее этапы, ставить правильный диагноз с максимально эффективным курсом лечения и минимальными побочными эффектами, разрабатывать новые лекарства на молекулярном уровне не столько для лечения, сколько для предотвращения заболеваний.
Естественно, что легче лечить болезни достаточно редкие, связанные с повреждением одного гена, а не многих. Но тут оказалось, что генотерапия в целом отстает от научных открытий, и далеко не все достижения могут быть успешно претворены в жизнь. Например, когда был выделен ген мышечной дистрофии Дюшена (смертельная болезнь, когда в клетках не вырабатывается дистрофин, без которого не сокращаются мышцы), стало очевидно, что нет эффективных способов доставки здорового гена во все клетки, и нет механизма, способного предотвратить его отторжение клетками.
Общество также оказалось неподготовленным к этическим и психологическим последствиям информационного взрыва. Когда стало известно, что в планы ученых входит исследование генов, определяющих этническую принадлежность, индивидуальные черты и форму поведения, присущие конкретному индивиду, и другая политически заряженная проблематика, возникли опасения, что генетическая информация может попасть в “чужие” руки, что страховые компании будут использовать ее в дискриминационных целях, и что люди не готовы узнать о себе всю генетическую правду. Завязался спор, насколько гены обуславливают наше поведение, и можем ли мы, изменяя их, изменить себя. Подняла новую голову старая гидра евгеники, проснулся генетический детерминизм.
Как часто бывает с важными открытиями, обнародование последовательности ДНК вызвало чуть ли не больше вопросов, чем дало ответов. Ведь если у нас всего в 3 раза больше генов, чем у фруктовой мушки, то что же тогда означает быть человеком? С трепетом будем ждать момента, когда раскодируют последовательность нуклеотидов шимпанзе, потому что вполне вероятно, что у людей с ними будет полное совпадение. А как же тогда гений Леонардо, Шопена и Достоевского? Неужели человек - это лишь сумма генов? Не слишком ли просто?
“Повода для беспокойства нет”, - в один голос говорят бывшие соперники Вентер и Коллинз, - “не следует впадать в крайности”. Геном человека был “человеческим” лишь 10 млн из 3 млрд лет эволюции. Поэтому 10% наших генов очень древние, и их мы делим с каждым живущим под солнцем живым организмом. Еще больше общих генов у нас с позвоночными, у млекопитающих с человеком еще больше сходства, а с шимпанзе мы почти идентичны. Если бы проект вычленял гены шимпанзе, то результаты бы получились почти такие же: к тому времени, когда мы слезли с деревьев, все наши гены уже были на своих местах.
То, что случилось с нами тогда, не было какой-то “генетической революцией”, потому что наш геном не несет в себе никаких ее следов. Во время палеолита сэволюционировал человеческий мозг и возникло человеческое сознание, без которого невозможны чисто человеческие замашки, вроде любви, духовности и способности помножить 2 на 2. Но если сознание тихо и без генетических сдвигов пришло к нам на такой поздней стадии эволюции, то что же вызвало его появление? Каков бы ни был этот механизм, а по поводу него ведется много споров, можно предположить, что наш разум развился в сложном взаимодействии генов с окружающей средой. Гены набросали план-схему, а наши родители, соплеменники и приобретаемый опыт дали ей плоть. Поэтому искать гены разума или интеллекта - это все равно, что искать второй концерт Рахманинова среди рояльных струн.
А в каком беспорядке природа содержит наш геном? Сравнивая наши хромосомы с хромосомами других живых существ, мы замечаем, что природа не только добавляла новые гены, но переставляла местами, удваивала, а то и просто выкидывала большие сегменты хромосом, проводя нечто вроде капитальной уборки каждый миллион лет. Дарвин в “Происхождении видов” писал о величии воплощения жизни. По результатам исследования человеческого генома, это воплощение носило довольно произвольный характер: природа по-своему понимала генетическое строительство, но кто первый бросит в нее камень, сказав, что конечный продукт не соответствует первоначальному замыслу?
Ученые из США создали алгоритм, способный предсказывать по геному, как в живом организме работают транскрипционные факторы - белки, управляющие синтезом других белков. Исследование опубликовано в PNAS.
Хотя последовательности ДНК многих организмов уже прочитаны, ученые еще не до конца понимают, как они работают. Одной из таких загадок долгое время оставались Hox-гены, которые управляют ростом организма и развитием его частей в правильных местах. Именно они «приказывают» голове у личинки дрозофилы расти спереди, определяют, где и в каком количестве появятся крылья и ноги. Есть эта группа генов и у млекопитающих.
Hox-гены кодируют не простые белки, а особенные, которые называются транскрипционными факторами. Эти белки работают «выключателями» для многих других генов, присоединяясь к специальным участкам ДНК, чтобы усилить или запретить считывание последовательности. Это и позволяет Hox-генам «дирижировать» развитием эмбриона. Однако ученые заметили странную особенность: хотя каждый Hox-ген отвечает за рост и развитие разных частей организма, все они сильно связываются с одними и теми же последовательностями ДНК.
В 2015 году генетики из Колумбийского университета обнаружили, что эти транскрипционные факторы связываются и со множеством других участков ДНК, но намного слабее. Ученые поняли, что эти слабые связывания – ключ к пониманию работы Hox-генов. Однако найти их все в геноме было непросто. Для этого генетики создали новый метод секвенирования (прочтения последовательностей ДНК), который назвали SELEX-seq. Для этого подхода нужно было много раз подряд секвенировать один и тот же участок, однако он не давал информации о важных участках со слабым связыванием. «Это было словно прогонять один и тот же абзац через Google-переводчик снова и снова, но в конце получать только 10% слов, переведенных аккуратно», – прокомментировал работу один из авторов технологии, Хиггинсовский профессор биохимии и молекулярной биофизики в Колумбийском университете Ричард Манн.
Исследователи создали новый алгоритм, позволяющий понять, почему ДНК-последовательности вели себя в этом эксперименте именно так. Алгоритм назвали No Read Left Behind, или NRLB (буквально «ни одно прочтение не забыто»). Этот алгоритм стал первым количественным методом, способным оценить силу связывания участков ДНК с транскрипционными факторами. Кроме того, он смог точно предсказать влияние определенных мутаций на уровень экспрессии генов в эмбрионах дрозофилы даже для слабо связывающихся участков.
Транскрипционных факторов в геноме около 10%, и их сила связывания с разными последовательностями может варьироваться в тысячи раз. Поэтому работа важна не только в контексте изучения Hox-генов, но и для нашего понимания того, как функционирует геном.
Понравился материал? в «Мои источники» Яндекс.Новостей и читайте нас чаще.