Сегодня листал книгу о геноме человека, понял что теории без практики будет маловато, и, более того, книга будет скучновата для рождественских каникул, поэтому купил Гуссерля (это он феноменологию придумал). А генами решил заняться по одной интересной ссылочке
собственно вот, что можно поделать, чтобы прикоснуться к биоинформатике.
Будем искать место промоутера вида (G|C)TATAAA(A|T)(G|A) в цепочке ДНК плодовой мушки. Пошаговая инструкция в лекции имеет студенческий характер, т.е. требуемый результат можно получить, только с некоторыми изменениями. Итак:
- заходим на сайт ранее ссылка была на
http://rsat.scmbb.ulb.ac.be/rsat/ - в левой панели выбираем Pattern matching -> dna-pattern
- в Query pattern вставляем
STATAAAWR - в Sequence вставляем весь текст из http://genome.crg.es/courses/Lisbon04/exercises/day2/search_motifs/sequences/All.fa (он в формате fasta)
- Search strands меняем на direct only
- Origin меняем на start
- Substitutions ставим 1 (при 0 результатов не будет, а на 2 - получим больше совпадений, но что странно - с той же вероятностью 0.89, т.е. 8 правильных из 9)
- жмем Go
- в таблице Matching positions в столбце matching_seq кроме "-" должны быть кусочки совпавших генов.
- жмем кнопку feature map
- удаляем ересь с html тегами (
,
,
), чтобы в строки начинались с ; - для Display limits ставим от 50 до 500
- в параметрах Map dimensions для опции thickness задаем значение 60
- Feature handle меняем на color dot
- ставим галку для positions среди Label keys
- жмем Go
Это был не курс "Стань генным инженером за 16 шагов", это был всего лишь поиск подстроки, который можно на питоне написать. После этого я бы спросил: "Зачем их находить?", а после возникнет вопрос: "Как искать шаблон, по которому их находить?".
Зачем их находить?
Был такой проект о расшифровке генома человека. В 1990-м году люди с энтузиазмом посмотрели на потенциально огромную работу, прикинули, сколько грантов можно под это дело себе обеспечить и начали сей проект под предлогом победы над многими болезнями. В 2003 году проект закончился. Успешно, кстати. Только есть небольшая проблема: ДНК брали у некой группы добровольных доноров, но геном у каждого человека различный. Поэтому результаты проекта - это лишь некоторая средняя модель, на которую можно опираться, но для каждого человека оно не может с точностью утверждать, какой участок гена за что отвечает.
В 2009 году выходит статья, что программы, которые предсказывают промоутеры, сравнивались между собой неверно, что давало нечестное преимущество. Я уверен, что работы все еще идут, ученые спорят, пьют чаи, но курят больше, чем пишут. К примеру, в Европе уже готовы улучшать ДНК эмбрионов [ссылка на источник потерялась]
Генная инженерия использует промоутеры при исследовании экспрессии генов http://www.biotechnolog.ru/ge/ge9_2_1.htm . Жалко, что практического материала, типа DIY, я не нашел.
Как искать шаблон?
К слову, база данных TRANSFAC требует мыло с академическим адресом. Меня, конечно, заинтересовал почтовый сервис на моем университете - нужно будет подготовить пентест. В итоге, проблема с регистрацией в следующем упражнении (http://genome.crg.es/courses/Lisbon04/exercises/day2/search_motifs/slide9.html), привела меня к иллюстрированному гайду по работе с геном, который вырабатывает лептин: http://compfly.bio.ub.es/eblanco/courses/03_promoteranalysis/
Ответ на вопрос где-то в этом гайде. Я пока работаю над этим. Но то ли извилины медленно работают, то ли отвлекающих факторов масса, то ли еще учиться да учиться мне. Что можно ждать дальше: пентест почтовых сервисов?...