|
Биология in silico
Автор: Михаил Гельфанд, gelfand@integratedgenomics.ru
Дата публикации:21.09.2001
Вычислительная биология, она же биоинформатика, она же компьютерная генетика - молодая наука, возникшая в начале 80-х годов на стыке молекулярной биологии и генетики, математики (статистики и теории вероятности) и информатики, испытавшая влияние лингвистики и физики полимеров. Толчком к этому послужило появление в конце 70-х годов быстрых методов секвенирования* последовательностей ДНК*. Нарастание объема данных происходило лавинообразно (рис. 2) и довольно скоро стало ясно, что каждая полученная последовательность не только представляет интерес сама по себе (например, для целей генной инженерии и биотехнологии), но и приобретает дополнительный смысл при сравнении с другими. В 1982 году были организованы банки данных нуклеотидных последовательностей - GenBank в США и EMBL в Европе. Первоначально данные переносились в банки из статей вручную, однако, когда этот процесс начал захлебываться, все ведущие журналы стали требовать, чтобы последовательности, упоминаемые в статье, были помещены в банк самими авторами. Более того, поскольку секвенирование уже давно стало рутинным процессом, который выполняют роботы или студенты младших курсов на лабораторных работах, многие последовательности сейчас попадают в банки без публикации. Банки постоянно обмениваются данными и, в этом смысле, практически равноценны, однако средства работы с ними, разрабатываемые в Центре биотехнологической информации США и Европейском институте биоинформатики, различны. Пожалуй, первым биологически важным результатом, полученным при помощи анализа последовательностей, было обнаружение сходства вирусного онкогена v-sis и нормального гена фактора роста тромбоцитов, что привело к значительному прогрессу в понимании механизма рака. С тех пор работа с последовательностями стала необходимым элементом лабораторной практики.
Рис. 2.
Количество статей по молекулярной биологии в библиографической базе данных PubMed (красные ромбы) и количество фрагментов нуклеотидных последовательностей в базе данных GenBank (синие квадраты) по состоянию на 1982-2000 годы.
Шкала - логарифмическая, так что рост количества последовательностей - экспоненциальный.
Объем базы в нуклеотидах тоже растет экспоненциально.
В 1995 году был секвенирован первый бактериальный геном*, в 1997 - геном дрожжей. В 1998 было объявлено о завершении секвенирования генома первого многоклеточного организма - нематоды 1. По состоянию на 1 сентября 2001 года доступны 55 геномов бактерий, геном дрожжей, практически полные геномы Arabidopsis thaliana (растения, родственного горчице), нематоды, мухи дрозофилы - все это стандартные объекты лабораторных исследований. Уже два раза (весной 2000 и зимой 2001 года) было объявлено о практическом завершении секвенирования генома человека - имеющиеся фрагменты действительно покрывают его более чем на 90%. Количество геномов, находящихся в распоряжении фармацевтических и биотехнологических компаний, оценить трудно, хотя, по-видимому, оно составляет многие десятки и даже сотни. Ясно, что подавляющее большинство генов в этих геномах никогда не будет исследовано экспериментально. Поэтому компьютерный анализ и становится основным средством изучения.
При использовании материалов активная ссылка на источник обязательна.