Шрифт:
Закладка:
Можно минимизировать не число спаренных оснований, а минимизировать энергию (эта задача сложнее, но ее с помощью разных ухищрений тоже можно оставить кубичной). Минимизация все равно не позволяет достигнуть большой точности предсказания. Проблемы предсказания вторичной структуры РНК.
Только около 65–70 % тРНК сворачиваются в правильную структуру.
Для предсказания вторичной структуры используются энергетические параметры, а они определены не очень точно. Более того, в клетке бывают разные условия, и, соответственно, реализуются разные параметры.
Находится единственная структура с минимальной энергией, в то время как обычно существует несколько структур с энергией, близкой к оптимальной.
Поэтому есть предложения искать субоптимальные структуры и искать эволюционно консервативные структуры (структуры тРНК и рРНК определены именно так). То есть забыть про энергию, и если мы знаем, что эти наборы РНК выполняют одну и ту же функцию, то мы можем построить такую структуру, которая была бы общей для всех этих последовательностей.
Теперь я расскажу, как это все применяется.
Исследование консервативности альтернативного сплайсинга, или Почему мышь не стала человеком?
Структура генов прокариот очень проста: есть начало, есть конец, получается мРНК, которая имеет начало и конец, идет транскрипция, трансляция и белок.
У эукариот структура гена сложнее. Из длинной мРНК удаляются (вырезаются) интроны (insertion sequences, вставочные последовательности), а оставшиеся экзоны сшиваются в единую нить. Из пре-мРНК получается зрелая мРНК, процесс называется сплайсингом. Потом происходит трансляция зрелой мРНК, в результате образуется белок. Мы будем интересоваться экзонами и интронами.
Если бы мы умели правильно предсказывать интроны и экзоны, мы бы могли разметить ген на белок-кодирующие и белок-некодирующие участки.
Альтернативный сплайсинг
Оказывается, ситуация еще сложнее. РНК, прочитанная с одного и того же гена, может сплайсироваться по-разному, что приводит к образованию мРНК с разными наборами экзонов: какой-то экзон в один вариант мРНК попадает, а в другой — нет, и в итоге получатся две разных мРНК и, соответственно, два разных белка. Это называется альтернативным сплайсингом. Таким образом, на уровне созревания мРНК могут образовываться разные РНК-продукты, которые приводят к образованию разных белков.
Сплайсинг происходит в ядре, трансляция — в цитоплазме. Для изучения того, что же оказалось в цитоплазме (то есть того, что подвергается трансляции), секвенируют короткие, 500–600 до 1000 нуклеотидов куски цитоплазматической РНК. Такие сиквенсы называются EST (expresstion sequence tag — "ярлыки экспрессируемых последовательностей"). EST — это короткие, прочитанные однократно (то есть весьма неточно), фрагменты цитоплазматической (сплайсированной, содержащей только экзоны) РНК. Если у нас есть геном, то мы можем эти EST картировать на геном и, тем самым, найти, где находятся интроны и экзоны.
Если при картирование EST полностью, без перерывов, соответствует геномной последовательности — это ген без интронов. Если EST ложится на геном с перерывами, то мы наблюдаем результат сплайсинга. Если же разные EST демонстрируют несколько вариантов расположения в одном и том же участке генома (то есть выявляют разные сочетания экзонов), то мы наблюдаем альтернативный сплайсинг. Экзон, который может включаться в белок, а может и не включаться, называется кассетным экзоном. мРНК с разными наборами экзонов данного гена (то есть в которые некий кассетный экзон или включается или не включается), называются изоформами.
Частота альтернативного сплайсинга
Сначала альтернативный сплайсинг был обнаружен у вирусов, считалось, что это экзотика. До 1998 г. считалось, что только около 6 % генов человека имеют альтернативный сплайсинг. Рассчитали, что для того, чтобы обеспечить наблюдаемое разнообразие белков, в геноме человека должно было быть 80 — 100 тысяч генов. В 1998 году было показано, что около половины генов человека имеют альтернативный сплайсинг. За счет альтернативного сплайсинга число генов может быть меньше числа кодируемых ими белков, так как с одного гена может образовываться несколько белков.
Как было написано в какой-то газете "Многолетними усилиями ученых количество генов человека было сокращено со 100 тысяч до 25". Действительно, по последним оценкам в геноме человека около 25–30 тысяч генов. Оценка количества белков не изменилась — разных белков около 80-100 тысяч. Разнообразие белков обеспечивается альтернативным сплайсингом. Например, в одних клетках белок должен быть в цитоплазме, в других — такой же белок в мембране, в третьих — транспортироваться наружу. И это легко делается не за счет наличия разных генов для каждого случая, а за счет альтернативного сплайсинга, который цепляет на N-конец разные сигналы, при том что "рабочая часть" белка остается одной и той же, и одна изоформа белка размещается в мембране, другая изоформа белка — в цитоплазме, и т. д.
Сейчас общеизвестно, что не менее 50 % генов человека альтернативно сплайсируется.
Альтернативный сплайсинг бывает разных типов (галочками показано, как вырезаются экзоны):
На этом рисунке показаны кассетный экзон (вставляемый в одни изоформы и отсутствующий в других), альтернативный акцептор, альтернативный донор, далее интрон может либо вырезаться, либо не вырезаться.
Теперь вернемся к вопросу о человеке и мыши. Человек и мышь биологически очень похожи. Белки похожи — уровень сходства аминокислотных последовательностей 80 %, также похожа значительная часть некодирующих областей генома. Практически у всех генов одинаково устроена экзон-интронная структура, для 99 % генов экзонная структура одинакова. Только 1 % генов уникален у каждого генома, остальные гены имеют гомологи в другом геноме. Интересен тот факт, что при таком относительно невысоком уровне различий человека от мыши внешне отличают легко. А два вида мухи дрозофилы вряд ли кто-то различит на глаз, хотя генетически они различаются сильнее, чем человек и мышь.
Возникает вопрос: Если геномы одинаковы, то может быть, и белки одинаковы? Непонятно, чем же человек отличается от мыши. Одинаково ли устроен альтернативный сплайсинг у мыши и человека?
Наивный подход для ответа на этот вопрос такой: возьмем весь набор альтернативного сплайсинга мыши и человека и сравним его. Этот подход неправильный, так как при исследовании альтернативного сплайсинга мы здесь имеем дело с EST. Если у человека EST просеквенировано несколько миллионов штук, то у мыши сделано всего несколько тысяч, поэтому там, где мы можем увидеть альтернативный сплайсинг у человека, можем ничего не увидеть у мыши, так как базы данных еще не совсем полные. Поэтому такое сравнение даст нам неправильный ответ.
Правильный подход в данной ситуации