Эта статья, возможно, покажется немного трудной, но я приложила все свои популяризационные способности:), чтобы в итоге каждый, кто захочет приложить минимум усилий, смог бы его понять и получить удовольствие от прикосновения к современным технологиям в генетике.
Сначала — несколько очень кратких абзацев в качестве предисловия.
Итак, предварительная информация:
1. Белки состоят из небольших молекул — аминокислот. Длинная линейная цепочка таких аминокислот, соединенных между собой, и есть белок. Точнее — это цепочка аминокислотных остатков, но это не так существенно. Эта белковая цепочка хитро сворачивается во вторичную, а затем в третичную структуру, иногда образуя с другими белками четвертичную структуру, но изначальная цепочка аминокислот остается при этом стабильной
2. Белки строит специальная молекулярная фабрика — рибосома
3. Для того, чтобы узнать — какую очередную аминокислоту поместить в строящийся белок, рибосома ориентируется на матричную РНК (мРНК), каждые три нуклеотида которой (кодоны) четко указывают на определенную аминокислоту — в этом суть генетического кода
4. мРНК, кодирующая белок, строится в соответствии с соответствующим этому белку геном, расположенном на одной из молекул ДНК
5. Для того, чтобы рибосома смогла всунуть нужную аминокислоту в строящийся белок, эта аминокислота должна быть подтащена к ней поближе, и этим занимаются транспортные РНК (тРНК). У каждой аминокислоты своя особенная тРНК.
6. Ну и соответственно, эта транспортная РНК должна быть создана, и создаются они тоже по генам в процессе транскрипции.
Ничего особенно сложного тут нет.
Далеко не все участки генома кодируют какие-то белки или РНК, и ученым очень важно найти в длинных молекулах ДНК именно гены, то есть кодирующие участки, по которым будут строиться белки или РНК.
Допустим, мы хотим найти ген, который содержит карту определенной транспортной РНК (тРНК). И вот в этом посте я в общих чертах расскажу о том — как это делается. Нам сейчас главное будет понять общую идею.
Транспортная РНК имеет очень красивую форму. На картинке слева приведена упрощенная ее структурная форма, это просто чтобы полюбоваться. А справа — та же тРНК, но в расправленном, плоском виде. И вот именно эта плоская схема нам сейчас пригодится.
Как видишь, в тРНК есть четыре зоны, выделенные цветом. Возьмем, к примеру, участки красного цвета. Каждый квадратик — это определенный нуклеотид — один из четырех, из которых строятся ДНК и РНК.
Мы помним, что каждый нуклеотид может соединяться и образовывать пару только с одним из четырех, таким образом возможно только два вида пар: А-Т и C-G. И вот когда мы видим, что в красной зоне сразу 7 нуклеотидов образовали пару с 7 другими, это значит, что вся семерка комплементарна друг другу, и если слева стоит А, то напротив него точно стоит Т, и т.д.
То есть в четырех зонах тРНК образуются водородные связи между противолежащими нуклеотидами, что и обеспечивает стабильность этой молекуле и придает ей такую хитрую форму.
И это очень здорово. Это значит, что если теперь молекулу тРНК растянуть в одну линию, то в ее начале будут такие 7 нуклеотидов, что на ее конце, отступив несколько нуклеотидов с самого конца, будет комплементарная ей семерка.
То есть если начальная семерка состоит из нуклеотидов:
А-С-А-С-А-С-А
значит соответствующая ей семерка рядом с концом молекулы будет:
Т-G-Т-G-Т-G-Т
И тогда они отлично спарятся и образуют нарисованную на картинке конструкцию.
Тот же ход рассуждений применим к остальным трем выделенным зонам.
Всё, что нам нужно теперь, это сунуть весь список последовательности нуклеотидов, из которых состоит геном, в компьютер, который простым перебором поищет такие цепочки нуклеотидов, которые обладают указанной выше закономерностью. Компьютер должен найти такую последовательность нуклеотидов, чтобы на ней были четыре комплементарных группы указанной длины с известными расстояниями между ними. Длину комплементарных цепочек и расстояние между ними компьютер может еще и поварьировать, чтобы не упустить какую-нибудь неизвестную науке тРНК.
Для компьютера такая задача исключительно проста, и все программы, опирающиеся на описанный мною алгоритм, работают очень успешно.