«эффективность использования информационных технологий в аннотации геномов» icon

«эффективность использования информационных технологий в аннотации геномов»




Название«эффективность использования информационных технологий в аннотации геномов»
Дата конвертации12.02.2013
Размер231.75 Kb.
ТипРеферат
источник



БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ


Выпускная работа по
«Основам информационных технологий»



Магистранта

биологического факультета

кафедры молекулярной биологии

Горовика Юрия Николаевича

Руководители:

доцент Лагоненко Александр Леонидович,

ассистент Шешко Сергей Михайлович


Минск – 2010 г.

ОГЛАВЛЕНИЕ


ОГЛАВЛЕНИЕ 2

СПИСОК ОБОЗНАЧЕНИЙ КО ВСЕЙ ВЫПУСКНОЙ РАБОТЕ 3

РЕФЕРАТ НА ТЕМУ «ЭФФЕКТИВНОСТЬ ИСПОЛЬЗОВАНИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В АННОТАЦИИ ГЕНОМОВ» 4

Введение 4

Глава 1. Обзор литературы 5

1.1 Программы для аннотации первичной структуры ДНК 5

1.1.1 GeneMark 6

1.1.2 Genescan 7

1.1.3 Prodigal (Prokaryotic Dynamic Programming Genefinding Algorithm) 8

1.1.4 GeneBuilder 10

^ Глава 2. Методика исследований 12

2.1 Использование компьютерных программ для аннотации участка генома прокариотического организма. 12

2.1.1 Аннотация с использованием программы GeneMark. 13

2.1.2 Аннотация с использование программы Prodigal. 13

2.1.3 Проверка точности аннотации. 13

Глава 3. Результаты и их обсуждение 13

Заключение 14

Список литературы к реферату 15

^ ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ К РЕФЕРАТУ 16

ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ 17

ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ В WWW 19

ГРАФ НАУЧНЫХ ИНТЕРЕСОВ 20

ПРЕЗЕНТАЦИЯ МАГИСТЕРСКОЙ ДИССЕРТАЦИИ 21

СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ 22

ПРИЛОЖЕНИЕ А 23

ПРИЛОЖЕНИЕ Б 25



^

СПИСОК ОБОЗНАЧЕНИЙ КО ВСЕЙ ВЫПУСКНОЙ РАБОТЕ


ДНК дезоксирибонуклеиновая кислота

ОРС открытая рамка считывания

РЕФЕРАТ НА ТЕМУ «ЭФФЕКТИВНОСТЬ ИСПОЛЬЗОВАНИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В АННОТАЦИИ ГЕНОМОВ»

Введение


ДНК – универсальный хранитель наследственной информации. В ее первичной структуре – последовательности из четырех типов нуклеотидов – закодированы данные о первичной структуре белков, транспортных и рибосомальных РНК (рибонуклеиновая кислота). Поэтому, зная первичную структуру ДНК, можно узнать и первичную структуру белков, которые в ней закодированы, а белки определяют большинство уникальных свойств, присущих живым организмам. Практически любые изменения первичной структуры ДНК, отражаются и на структуре белков, а это в свою очередь может изменить их свойства и функции, а значит и свойства клетки или даже всего организма.

Процесс определения первичной структуры ДНК называется секвенированием. Его особенности таковы, что для достоверного определения первичной структуры ДНК, ее молекулы, зачастую состоящие из миллиардов пар нуклеотидов, приходится разбивать на огромное количество мелких фрагментов и секвенировать их по-отдельности. Так как разбиению на фрагменты подвергается множество копий молекулы ДНК, а само разбиение происходит по случайным сайтам, то получается огромное количество перекрывающихся последовательностей, нуждающихся в сборке. Осуществлять такую сборку вручную – долго и неудобно, поэтому для этого применяют различные компьютерные программы. Но для больших молекул ДНК даже с помощью компьютерных программ не удается со стопроцентной точностью восстановить первичную структуру по набору мелких фрагментов. Этому есть множество причин: как программных, так и связанных с особенностями секвенирования.

Следующий шаг после установления первичной структуры ДНК – ее аннотация, т. е. поиск кодирующих (гены) и регуляторных (промоторы, энхансеры и т. п.) последовательностей. Это также трудоемкий процесс, для которого можно использовать компьютерные программы.

Т. о. целью данной работы является анализ современных средств информационных технологий, используемых для аннотации секвенированных фрагментов ДНК и оценка эффективности их работы.
^

Глава 1. Обзор литературы

1.1 Программы для аннотации первичной структуры ДНК


Поиск значащих и регуляторных последовательностей в ДНК происходит по определенным критериям. Этими критериями являются специфические участки ДНК, общие для искомых последовательностей у всех организмов или организмов определенной группы.

Компьютерные программы работают как экспортные системы, которые взвешивают каждый из этих критериев и на выходе дают оценку, есть в этой последовательности ген или его там нет (есть там кодирующие участки или нет). Большая часть таких программ организована по принципу нейронных сетей. Правильное название – «искусственные нейронные сети», т.е. симулирующие реальную нейронную структуру мозга, а именно, сеть биологических процессоров, которые связаны друг с другом отростками: аксонами на длинные расстояния, дендритами – на короткие. Вместо реальных нейронов, в искусственных нейронных сетях используются логические единицы, которые на выходе дают «да» или «нет». Вместо отростков нейронов используются логические соединения, выражаемые в коэффициентах.

В самом простом случае нейронная сеть состоит из двух слоев нейронов. При этом входные нейроны – это логические ячейки, каждая из которых получает информацию о каком-то одном свойстве изучаемой последовательности: о рамках считывания, об использованных кодонах, о сайтах сплайсинга, о гомологии с известными кодирующими последовательностями и т.д. Есть много факторов, данные о которых поступают на вход нейронной сети. В этом же простейшем случае на выходе будет стоять всего лишь один нейрон, который будет говорить, кодирующая эта последовательность или некодирующая. Если есть рамка считывания, входной нейрон включается, идет положительный сигнал «да» к выходному нейрону. Соответствуют использованные кодоны предпочтительным кодонам для данного организма – второй входной нейрон выдает логическую единицу (1=«+»). Есть рядом подходящие сайты сплайсинга – логическая единица от третьего нейрона. Есть гомология – единица от четвертого. Если нет, посылается нуль. Все эти единицы и нули перемножаются на коэффициенты, и принимается решение, достаточно ли получившегося показателя. Если с четырех нейронов получено четыре единицы, то выходной нейрон скажет «да» (что это кодирующая последовательность). А если их не четыре? Надо принять решение, достаточно ли этих факторов, чтобы считать изучаемую последовательность кодирующей. Все коэффициенты должны быть каким-то образом определены. Определяются они за счет тренировки нейронной сети: на вход подаются данные по известным последовательностям, кодирующим и некодирующим, т.е. выходной нейрон при этом знает правильный ответ. Фактически нейронной сети скармливается некий массив экспериментально определенных знаний, а она рассчитывает коэффициенты (с помощью специальных программ). После такой тренировки сеть готова выдавать заключения по неизвестным последовательностям.

Но выходных нейронов, как правило, больше, т.к. идет анализ всей последовательности, а выходные нейроны говорят, кодирующая эта последовательность или нет, экзон или не экзон, интрон или не интрон, регуляторный сайт или нет, CpG-остров или нет, транспозон или не транспозон и т.д.

В наиболее серьезных программах кроме этих двух слоев нейронов используется еще так называемый спрятанный слой. Когда есть третий слой нейронов, нейронная сеть способна проводить дополнительные корреляции среди исходных данных и делать неожиданные положительные выводы. Нейронную сеть с третьим слоем гораздо сложнее тренировать, но зато считается, что она дает наиболее качественные предсказания.

Ценность нейронной сети зависит от того, насколько хорошо программист написал программу, и от качественности набора экспериментальных данных на стадии тренировки.

Помимо нейронных сетей есть еще один интересный алгоритм, который основан на так называемых спрятанных цепях Маркова (этот математический аппарат разработан советским математиком).

Большинство программ для аннотации последовательностей ДНК создавались под конкретный организм, геном которого исследовался. В последующем, некоторые их таких программ дорабатывались для расширения их возможностей, и теперь они применяются для аннотации геномов целой группы организмов (например, растений или млекопитающих) или даже прокариот и эукариот в целом [4].

1.1.1 GeneMark


Эта программа была разработана в 1993 году Марком Бородовским для аннотации прокариотических геномов. Именно она была использована для «расшифровки» первого прокариотическго генома: бактерии Haemophilus influenzae. Алгоритм GeneMark использует видоспецифичные неоднородные модели цепи Маркова для последовательности, кодирующей белок и однородные модели цепи Маркова для некодирующей ДНК. Параметры моделей оценивались по тренировке, в которой использовались последовательности известного типа. Главная стадия алгоритма вычисляет потенциальную возможность фрагмента последовательности продолжать генетический код в одной из шести возможных рамок считывания (учитывая три рамки на комплементарной цепи) или быть «некодирующей». Программа зарекомендовала себя как довольно надежное средство, поэтому ее поддерживали и модифицировали.

В настоящее время существует несколько разновидностей программы GeneMark, предназначенных для разных целей. GeneMark.hmm-P представляет собой версию программы для работы с прокариотическими геномами. Ее алгоритм был улучшен для более точного предсказания генов, в частности, для лучшего определения точного начала генов. Идея была в том, чтобы объединить модель GeneMark с ранее разработанной спрятанной моделью Маркова. В итоге границы генов моделируются как переходы между скрытыми состояниями. Кроме того, используется модель сайтов связывания рибосом для более точного предсказания генов. GeneMark.hmm-E предназначена для работы с эукариотическими геномами. Ее архитектура состоит из скрытых состояний для начальных, внутренних и терминальных экзонов, интронов, межгенных участков и одноэкзонных генов для обеих цепей ДНК. Она также включает скрытые состояния для сайтов инициации и терминации сплайсинга и донорных и акцепторных сайтах интронов. Эта программа подходит для аннотации геномов растений и животных [3].

Доступна по адресу: http://exon.gatech.edu/GeneMark

1.1.2 Genescan


Эту программу разработали Chris Burge и Samuel Karlin для поиска генов в геномной ДНК человека и других позвоночных. Ее использовали в проекте «Геном человека». Основной функцией программы является прогнозирование экзонов. Для этого она использует вероятностную модель структуры гена. Программа способна устанавливать значимые вероятности для отдельных событий, например, событие Е что определенный экзон существует. Вероятность этого события Р(Е), определяется как сумма вероятностей в соответствии с моделью всех возможных описаний структуры гена, которые содержат точный экзон Е в правильной рамке считывания. Хотя эта сумма, как правило, слишком велика, чтобы выразить ее точным числом, она может быть посчитана с помощью подхода, называемого «вперед-назад». Вероятность каждого предсказанного экзона, рассчитанная таким методом отображается в колонке итоговых результатов, обозначаемой буквой «Р». Этот алгоритм используется для так называемых «оптимальных» экзонов, т. е. соответствующих критериям для большинства экзонов. Однако, если в гене есть альтернативные сайты сплайсинга это может менять стандартный набор критериев для экзонов, и такие экзоны называют «субоптимальными». Для оценки вероятности существования таких экзонов вводят коэффициент С. Тогда для субоптимальных экзонов справедливо будет неравенство Р(Е)>С.

Так как программа создавалась для работы с геномами позвоночных, то для них она и дает наиболее точные прогнозы. В последнее время программу модифицировали для работы с геномной ДНК таких модельных организмов как Drosophila и Arabidopsis.

Среди недостатков программы следует отметить ее слабые возможности при поиске промоторов, а также сайтов сплайсинга у растений [1].

Доступна по адресу: http://genes.mit.edu/GENSCAN.html
^

1.1.3 Prodigal (Prokaryotic Dynamic Programming Genefinding Algorithm)


Эта программа разработана сотрудниками Oak Ridge National Laboratory и университета Теннеси. Как видно из названия, она предназначена для поиска генов в геномах прокариотических организмов. Программа работает по алгоритму, который можно разделить на несколько этапов.

На первом этапе происходит построение так называемого тренировочного набора для кодирования белков. Большинство программ подобного рода просто берт все открытые рамки считывания (ОРС) больше определенного размера и считают их настоящими генами. Для GC-бедных геномов это вполне справедливо. Но в случае с GC-богатыми геномами не все так просто. Из-за недостатка в них нуклеотидов А и Т стоп-кодоны встречаются реже, поэтому крупные ОРС встречаются чаще, но не все они являются настоящими генами. Prodigal решает эту проблему путем GC-проектирования, при котором он рассматривает все ОРС в геноме и ищет в них смещения для G или C в 1-ой, 2-ой или 3-ей позиции каждого кодона. Затем он делает динамическое программирование через весь геном, строит модели генов, используя эти смещения рамки как их (генов) единственный критерий функции кодирования. Хотя модели генов, построенные таким приближенным образом далеки от совершенства, они обеспечивают достаточные основания для сбора статистики по кодированию.

На втором этапе происходит построение правдоподобной статистики по кодированию, на основании тренировочных данных. Prodigal набирает дикодонную (гексамерную) статистику для всех генов в его начальной, динамически спрограммированной модели. Кодирующая функция это основная вероятность сигнала для исходных данных. Как только эта функция получена, каждый потенциальный ген в геноме (все «старты» и «стопы») засчитывается (ему присваиваются очки).

Следующий этап – усечение очков кодирования. После того как Prodigal присвоил очки кодирования всем потенциальным кандидатам в данной ОРС, он осуществляет «усечение» очков кодирования. В это время он «наказывает» все потенциальные кандидаты на старт гена, которые лежат позади старта с высоким количеством очков. Причина такого решения в том, что если мы выберем более внутренний старт на стадии динамического программирования, мы автоматически пропустим область выше этого старта. Например, ген между позициями 3701 – 4000 имеет 100 очков, а между позициями 3763 – 4000 имеет 75 очков. Мы пересматриваем счет последнего гена, чтобы он был 75 минус недобранные очки (25), т. е. 50.

Учет фактора длины. В очки кодирования добавляется постоянный фактор длины. Он выше в GC-бедных геномах и выше в GC-богатых. Если ОРС особенно длинная, но имеет отрицательный счет, ее очки кодирования искусственно заменяются с небольшой позитивной отметкой за каждое основание. Это позволяет распознавать длинные ОРС как истинные гены, но они не будут выбраны среди действительно хороших альтернатив.

На следующем этапе происходит повторная тренировка стартовых позиций. Для каждой открытой рамки считывания, содержащей ген с набором очков выше определенного порога, записывается сайт инициации трансляции с наивысшим баллом кодирования. Этот набор «кодирующих пиков», хотя только 60 – 70% из них являются истинными началами генов, обеспечивает прочную основу для тренировки стартовых позиций. Эти старты проверяются на частоту ATG/GTG/TTG кодонов, а также сайтов связывания рибосом (ССР). Этим стартам затем присваиваются очки на основании этих исследований, а затем выбирается новый набор стартов с наибольшим количеством очков. Процедура повторяется до тех пор, пока не утвердится набор «лучших стартов». Этот финальный набор «лучших стартов» используется как тренировочный набор для оценки стартов, и данные, собранные с этого набора соотносятся с ССР, дистанциями, частотой ATG/GTG/TTG кодонов.

Финальная стадия динамического программирования. Она осуществляется через набор всех старт-стоп пар в геноме. Счет каждого потенциального гена это сумма очков старта и кодирования. Некоторые небольшие перекрытия возможны между генами на одной нити и большее число перекрытий возможно на 3’-концах двух генов, Находящихся на противоположной нити. Бонусы к счету даются для потенциальных оперонов, еще большие бонусы даются для -1 и -4 типов перекрытия оснований между двумя генами на одной нити [5].

Доступна по адресу: http://compbio.ornl.gov/prodigal/server.html

1.1.4 GeneBuilder


Эта программа была разработана И. Б. Рогозиным и предназначена для аннотации геномов эукариот. Система GeneBuilder основана на прогнозировании функциональных сигналов и кодирующих участков с помощью различных подходов: поиска сходства с белковыми и базами данных кДНК и получение потенциальных моделей структуры гена с помощью динамического программирования. Программа позволяет использовать несколько параметров для прогнозирования генов и уточнения их структуры. Использование различных уровней гомологии белковых последовательностей, взятых из списка гомологичных белков во время построения модели гена, может увеличить точность предсказания структуры гена. В случае низкой гомологии GeneBuilder все равно способен предсказать структуру гена.

GeneBuilder состоит из множества модулей. Каждый модуль работает самостоятельно. Результаты работы GeneBuilder основаны на результатах полученных во время выполнения различных программ и выводятся в отдельном окне браузера.

Модуль первый – Организм. GeneBuilder может быть использован для последовательностей ДНК человека, мыши, рыбы фугу, Drosophila, C.elegans, Arabidopsis и Aspergillus. Этот параметр очень важен, поскольку предсказание функциональных сигналов, бикодонная статистика, поиск повторяющихся последовательностей видоспецифичны.

Режим (значения: Gene, Exon). Режим «Gene» используется для предсказания модели целого гена. Набор потенциальных кодирующих фрагментов используется для построения моделей генов с максимальным кодирующим потенциалом с использованием техники динамического программирования. Также можно использовать один гомологичный белок из списка гомологичных белков для уточнения предсказанной модели гена. Опция «Exon» используется, если необходимо найти только наиболее вероятные экзоны. Используется два уровня вероятности: превосходная и хорошая. Опция «Exon» может быть полезна для длинных последовательностей с неизвестным числом потенциальных генов.

Нить (значения: Direct, Complement). По умолчания анализ проводиться для прямой нити. Если выбрана опция «Complement», анализ проводиться по ней.

Коррекция ошибок секвенирования (значения: Disable, Error report, Automatic correction). Выбрав опцию «Automatic correction» можно найти и автоматически исправить ошибки сиквенса из-за сдвига рамки считывания или замены в стоп кодоне. Если такие ошибки будут устранены, это может существенно улучшить предсказанную модель гена. При выборе опции «Error report» создается только отчет, а ошибки остаются неисправленными в ходе анализа.

Предсказание сайтов сплайсинга (значения: All, Excellent only). Для предсказания сайтов сплайсинга используется классификационный анализ в сочетании с техникой веса матрицы. Когда выбрана опция «Excellent», программа способна найти 95% реальных сайтов сплайсинга. Около 15% псевдосайтов будут предсказаны как сигналы сплайсинга. Если выбрана опция «All», то программа способна найти 98% реальных сайтов, однако 30-35% из всех предсказанных сайтов будут ложными.

Потенциальные кодирующие области (значения: All, Good, Excellent, Key protein similarity). Потенциальные кодирующие области находятся путем комбинирования подсчета вероятности кодирования с использованием бикодонной статистики и информации о сигналах сплайсинга. С выбранной опцией «All», все потенциальные кодирующие экзоны (с подобием и без подобия с выбранным белком) будут использованы для конструирования гена. В этом режиме и с включенной опцией «Gene», GeneBuilder попытается реконструировать потенциальный ген. Этот режим может быть очень полезен как первый шаг в анализе секвенированной последовательности, когда недоступна информация о содержимом гена для запрашиваемой последовательности. В качестве второго шага обнаружение белков, путем поиска по предсказанным аминокислотным последовательностям в белковых базах данных, может быть использовано для получения более точной структуры гена. Когда выбрана опция «Good», для реконструкции гена используются только экзоны, имеющие значение вероятности «хорошее». Когда выбрана опция «Excellent», то для реконструкции гена используются только экзоны имеющие «превосходную» вероятность. И, наконец, когда выбрана опция «Key protein similarity», для реконструкции гена будут использованы только экзоны, имеющие подобие с выбранным гомологичным белком.

Первый и последний кодирующие экзоны (значения: Disable, Exons with high protein homology). С выбранной опцией «Exons with high protein homology» возможно получить более точные данные при определении первого и последнего экзонов (потенциальные гены должны начинаться и заканчиваться хорошо подтверждаемыми экзонами). Эта опция очень важна когда в исследуемой последовательности находиться несколько генов и их локализация может быть подтверждена на основании гомологии с выбранной белковой последовательностью.

Полная модель гена (значения: Yes, No). Если выбрана опция «Yes», то программа будет выводить только модели, соответствующие полной структуре гена, включая первый и последний экзоны. С опцией «No» программа будет сообщать обо всех моделях генов, даже частичных.

Картирование повторяющихся элементов (значения: Yes, No). С выбранной опцией «Yes» программа способна предсказать повторяющиеся элементы, присутствующие в последовательности.

кДНК картирование (значения: Yes, No). Если выбрана опция «Yes», то программа осуществляет поиск гомологии среди баз данных кДНК и гомологичные кДНК-последовательности помещаются в отчет для исследуемой последовательности. Повторяющиеся элементы могут быть автоматически спрятаны перед поиском гомологии. Эта информация используется только тогда, когда подобие между кДНК-последовательностями и изучаемой последовательностью больше 95%.

Предсказание ТАТА-боксов (значения: Good, Marginal). Этот модуль использует Hamming-Clustering метод для предсказания ТАТА-боксов. С опцией «Good» только лучшие совпадения представляются как ТАТА-боксы. Если выбрана опция «Marginal», то выводятся все потенциальные ТАТА-боксы. Из-за трудности определения точного местоположения этого сигнала, лучше взять общую модель гена, а затем определить истинную позицию ТАТА-бокса перед первой кодирующей последовательностью.

Предсказание сайта полиаденилирования (значения: PolyA pattern length). Этот модуль также основан на Hamming-Clustering методе. Опция «PolyA pattern length» используется для увеличения или уменьшения дискриминации паттернов. Для этого сигнала авторы предлагают взять общую модель гена и затем определить истинную позицию сайта полиаденилирования после последней кодирующей последовательности.

Поиск потенциальных сайтов связывания для факторов транскрипции (значения: Vertebrates, Fungi, Insects, Plants, Miscellaneous, All). Опции соответствуют различным группам организмов, для которых используются соответствующие группы весовых матриц.

Т. о. достоинствами программы являются: широкий набор опций, учитывающий многие особенности процесса аннотации, а также достаточно высокая точность предсказаний [2].

Доступна по адресу: http://zeus2.itb.cnr.it/~webgene/genebuilder.html
^

Глава 2. Методика исследований

2.1 Использование компьютерных программ для аннотации участка генома прокариотического организма.


Исследовался фрагмент генома бактерии Pectobacterium atrosepticum размером 2825 нуклеотидов.
^

2.1.1 Аннотация с использованием программы GeneMark.


На сайте данной программы был выбран модуль для аннотации геномов прокариотических организмов GeneMark.hmm-P. В появившееся окно программы я скопировал исследуемую последовательность, затем выбрал из списка микроорганизм, геном которого секвенирован и будет использоваться как модель для обнаружения генов в исследуемой последовательности. В моем случае, в списке нашелся исследуемый организм, но под устаревшим названием Erwinia carotovora subsp. atroseptica. Затем я выбрал в опциях отчета пункт «Generate PDF graphics (screen)», для получения графиков отдельным файлом в формате PDF и пункт «Sequences of predicted genes» для вывода последовательности предсказанных генов.
^

2.1.2 Аннотация с использование программы Prodigal.


В данном случае аннотация провести не удалось, т. к. данная программа работает только с последовательностями, размер которых превышает 10000 нуклеотидов.
^

2.1.3 Проверка точности аннотации.


К настоящему времени секвенировано и аннотировано достаточно много последовательностей ДНК из различных организмов. Все они хранятся в специализированных базах данных, доступ к которым можно получить с помощью сети Интернет. Благодаря этим базам секвенированные последовательности можно сравнивать между собой, для чего существуют специальные программы. Одна из самых популярных таких программ – BLAST (Basic Logical Alignment Search Tool). Это целый пакт программ, отдельные компоненты которого предназначены для сравнения не только последовательностей ДНК, но и белковых последовательностей.

Для проверки правильности аннотации исследуемой последовательности я сравнивал ее с последовательностями из других микроорганизмов с помощью программы из пакета BLAST – blastn. Для этого я скопировал исследуемую последовательность в специальное окно программы blastn и для сравнения выбрал все возможные последовательности из микроорганизмов.
^

Глава 3. Результаты и их обсуждение


В результате работы программы GeneMark я получил текстовый отчет и PDF-файл с графическим представлением полученных данных. Из отчета следует, что программа обнаружила в составе изучаемой последовательности три открытых рамки считывания: одну на прямой нити и две на комплементарной. В отчете также представлены: G-C состав последовательности, порядковые номера нуклеотидов, соответствующих началу и концу каждой рамки считывания, длина каждой рамки считывания и последовательности двух самых длинных рамок считывания.

Графики в отчете формата PDF отображают вероятность каждого кодона находиться в рамке считывания (Рисунок 1).



^ Рисунок 1 - Фрагмент графика, полученного в результате работы программы GeneMark.hmm-P

Для проверки результатов работы программы GeneMark я сравнивал исследуемую последовательность с известными последовательностями из баз данных с помощью программы blastn. Результаты оказались неожиданными: программа blastn обнаружила сходство исследуемой последовательности с четырьмя генами из базы данных. Причем в одном случае сходство было стопроцентным: вся исследуемая последовательность полностью совпадала с последовательностью белка – регулятора транскрипции гена, кодирующего синтез N-ацетилгомосерин лактона. Т. е. вся последовательность представляет собой одну рамку считывания. Этот результат сильно разнится с результатом программы GeneMark, которая обнаружила три рамки считывания, самая длинная из которых была всего лишь в 1197 нуклеотидов. Т. о. точность программы GeneMark в данном конкретном случае оставляет желать лучшего.

По результатам проделанной работы можно сделать вывод о том, что в случае с прокариотическими организмами, геномы которых хорошо изучены, лучшим способом выяснения приблизительной функции секвенированной последовательности является ее сравнение с уже известными.

Заключение


В настоящее время существует достаточное количество программ, предназначенных для аннотации последовательностей ДНК. Все они с разной степенью точности справляются со своей задачей: предсказанием кодирующих участков ДНК – генов или отдельных экзонов, а также регуляторных элементов. Такое предсказание не может считаться настоящим доказательством присутствия именно этого гена именно в этом месте, однако оно может служить основанием для выдвижения рабочей гипотезы для последующей ее проверки различными экспериментальными методами. Весьма полезным также может быть сравнение исследуемой последовательности с уже аннотированными последовательностями, хранящимися в базах данных. В целом, вся совокупность информационных технологий в области биологии существенно облегчает некоторые аспекты исследований. А прогресс геномики, произошедший в последние 15 лет был бы попросту невозможен без прогресса в области компьютерной техники.
^

Список литературы к реферату


  1. Finding the genes in genomic DNA / S. Karlin [et al.] // Curr. Opin. Struct. Biol. – 1998. - № 8. – P. 346-354.

  2. GeneBuilder: interactive in silico prediction of genes structure / L. Milanesi [et al.] // Bioinformatics. – 1999. – Vol. 15, № 7. – P. 612-621.

  3. GeneMark.hmm: new solutions for gene finding / M. Borodovsky [et al.] // Nucleic Acids Research. – 1998. – Vol. 26, № 4. – P. 1107-1115.

  4. Genome annotation / Y.Hayashizaki [et al.] // Methods Mol Biol. – 2008. - № 452. – P. 125-139.

  5. http://compbio.ornl.gov/prodigal/algorithm.html



^

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ К РЕФЕРАТУ


G

GeneBuilder 10, 11, 15

GeneMark 6, 7, 13, 14, 15

Genescan 7

P

Prodigal 8, 9, 13

а

аннотация 4, 5, 6, 7, 10, 12, 13, 14

г

ген 4, 5, 7, 8, 9, 10, 11, 12, 13, 14

геном 6, 7, 8, 10, 13, 14, 20

Д

ДНК 3, 4, 5, 6, 7, 8, 10, 13, 14, 17, 20

и

интрон 6, 7

п

прокариот 6, 8, 13

э

экзон 6, 7, 10, 11, 12, 14

эукариот 6, 10, 17



^

ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ


http://highwire.stanford.edu

Сайт секции библиотеки Стэнфордского университета предлагает вниманию пользователей огромную базу материалов, доступных к бесплатному скачиванию в полном объеме. Источниками предлагаемых статей являются 975 журналов, читатели имеют возможность доступа к полным текстам почти 1 435 924 статей, которые перед публикацией получили рецензию экспертов. Возможен быстрый поиск и расширенный поиск (по авторам статей, названиям, цитатам, ключевым словам и т.д.).

http://molbiol.edu.ru/

Практическая молекулярная биология. Сайт является незаменимым для биохимиков, генетиков, микробиологов и молекулярных биологов. Это крупнейшая биологическая база данных. Сайт содержит подробный справочник, который состоит из наиболее важных разделов. Здесь можно найти руководства и рекомендации по выполнению тех или иных операций, подробное описание методов исследования (работа с бактериями, бактериофагами, эукариотическими организмами, дигибридные системы, методы выделения и анализа ДНК про- и эукариотических организмов, работа с белками), методики и расчеты для приготовления растворов, подбор необходимых для исследования ферментов и реактивов. Можно следить за свежими публикациями. Имеются обзоры различных биологических ресурсов и программ, а также ссылки на биологические журналы и гранты биологического профиля. Внимание уделяется также образованию и образовательным ресурсам. Имеются сведения о компаниях и русскоязычных институтах биологического профиля, а также ссылки на полезные web-ресурсы.

http://www.ncbi.nlm.nih.gov/pubmed

PubMed – это информационный ресурс Национального Института Здравоохранения США, состоящий из множества разделов. Он содержит более 16 миллионов цитат из научных журналов биомедицинской и естественнонаучной направленности, начиная с 1950-х годов. Здесь размещаются ссылки на полные тексты статей и другие связанные ресурсы (на страницы Национальной Библиотеки медицины США; на страницу Medline – базу материалов о более чем 700 заболеваниях и состояниях, о лекарственных средствах, на этом портале есть также медицинская энциклопедия и медицинский словарь и много другой полезной информации; на базы данных по токсикологии и токсическим веществам и др.). Поиск в базе данных журналов можно осуществлять по предмету или по названию журнала, по сокращенному названию, аббревиатуре ISO и другим параметрам.

http://www.scirus.com/srsapp/

Scirus – наиболее полная поисковая система для ученых в Интернете. Основанный на последних поисковых технологиях, он ищет более, чем в 300 миллионах определенных для науки Web-страницах, позволяя пользователям быстро находить:

  • научные, медицинские и технические сведения;

  • последние публикации; рецензируемые журналы; патенты и журналы, которые обычно пропускают другие поисковые системы.

  • поисковик предлагает уникальные функциональные возможности для ученых и исследователей

  • эта поисковая система обращает внимание только на те Web-страницы, которые содержат научную информацию.

Scirus поможет быстро определять местонахождение научной информации в Интернете:

  • отфильтровывает ненаучные сайты;

  • находит рецензируемые статьи формата PDF и файлы PostScript, которые являются часто невидимыми для других поисковиков;

  • ищет глубже чем другие поисковые системы, показывая таким образом нужную информацию.

С Scirus, можно:

  • выбрать диапазон предметных областей для поиска;

  • сузить ваш поиск по конкретному автору, журналу или статье;

  • ограничить поиск диапазоном даты;

  • найти информацию о научных конференциях, резюме и патентах;

  • усовершенствовать, настроить и сохранить результаты поиска.
^

ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ В WWW


http://fedya-tralor.narod.ru

ГРАФ НАУЧНЫХ ИНТЕРЕСОВ


магистранта Горовика Ю.Н. биологический факультет

Специальность «молекулярная биология»

Смежные специальности

03.00.07 – микробиология

  1. Морфология, физиология, биохимия и генетика микроорганизмов.

  2. Выделение, культивирование и идентификация микроорганизмов




^ 03.00.15 – генетика

    1. Генетика плазмид.







Основная специальность



^ 03.00.26 – молекулярная генетика

  1. Молекулярные механизмы эволюции геномов, генетический полиморфизм.

  2. Повторяющиеся последовательности ДНК, транспозоны, ретротранспозоны. Их использование в молекулярно-генетических исследованиях.







Сопутствующие специальности

отстутствуют





^

ПРЕЗЕНТАЦИЯ МАГИСТЕРСКОЙ ДИССЕРТАЦИИ


Презентация магистерской диссертации доступна по адресу http://fedya-tralor.narod.ru/presentation.ppt
^

СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ


  1. Microsoft Office XP в целом: наиб. полное рук-во. Для широкого круга пользователей / Ф.Новиков, А.Яценко. – Спб: БХВ-Петербург, 2002. – 917 с., ил.

  2. Microsoft PowerPoint 2003: самоучитель / М.В.Спека. – Москва, Санкт-Петербург, Киев: Диалектика, 2004. – 363 с., ил.

  3. Microsoft Word 2003 в теории и на практике / С.Бондаренко, М.Бондаренко. – Минск: Новое знание, 2004. – 336 с., ил.

  4. Шафрин Ю.А. Информационные технологии: учеб. пособие: В 2 ч / Ю.А.Шафрин. – М.: Лаборатория Базовых Знаний, 2003. – Ч.1: Основы информатики и ИТ – 316 с., ил.

  5. Шафрин Ю.А. Информационные технологии: учеб. пособие: В 2 ч / Ю.А.Шафрин. – М.: Лаборатория Базовых Знаний, 2003. – Ч.1: Офисная технология и ИТ – 336 с., ил.
^

ПРИЛОЖЕНИЕ А


ПРЕЗЕНТАЦИЯ МАГИСТЕРСКОЙ ДИССЕРТАЦИИ
































^

ПРИЛОЖЕНИЕ Б


ТЕСТОВЫЕ ВОПРОСЫ



Как обозначается селектор класса?



#term

,term

нет правильного ответа

.term








Самый распространенный старт-кодон



ГУГ

АГУ

АУГ

УАГ








Похожие:

«эффективность использования информационных технологий в аннотации геномов» iconЭффективность использования информационных технологий в исследованиях политической культуры выпускная работа по «Основам информационных технологий»
Специальность 23. 00. 01 – теория и философия политики, история и методология политической науки
«эффективность использования информационных технологий в аннотации геномов» iconРоль информационных технологий в инновационном развитии экономических субъектов Выпускная работа по «Основам информационных технологий»
Теоретико-методологические основы использования информационных технологий в инновационном развитии 6
«эффективность использования информационных технологий в аннотации геномов» iconРеферат по курсу «Основы информационных технологий» Применение информационных технологий в науке гражданского процесса
Перспективы использования информационных технологий при исследовании проблем гражданского процесса 15
«эффективность использования информационных технологий в аннотации геномов» iconРеферат по курсу «Основы информационных технологий»
Перспективы использования информационных технологий при исследовании проблем гражданского права 14
«эффективность использования информационных технологий в аннотации геномов» iconИспользование информационных технологий в дошкольном образовании
Актуальность использования информационных технологий обусловлена социальной потребностью в повышении качества образования и воспитания...
«эффективность использования информационных технологий в аннотации геномов» iconПриказ №351 о проведении районного конкурса «Современный урок на I cтупени общего среднего образования с использованием информационных технологий»
С целью развития творческой активности педагогов по внедрению информационных технологий в образование, популяризации новых педагогических...
«эффективность использования информационных технологий в аннотации геномов» iconУрок на I cтупени общего среднего образования с использованием информационных технологий Основные положения
Конкурс направлен на развитие творческой активности педагогов по внедрению информационных технологий в учебно-воспитательном процессе,...
«эффективность использования информационных технологий в аннотации геномов» iconПлан работы творческой группы
Изучение возможностей использования информационных технологий на уроках и во внеурочной деятельности
«эффективность использования информационных технологий в аннотации геномов» iconВыпускная работа по«Основам информационных технологий» Аспиранта
Роль информационных технологий при анализе и характеристке гена лошадиного интерферона-альфа
«эффективность использования информационных технологий в аннотации геномов» iconПрименение информационных технологий в области христианской антропологии Выпускная работа по «Основам информационных технологий»
Специальность 09. 00. 13 – Религиоведение, философская антропология, философия культуры
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©sov.opredelim.com 2000-2015
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы