Карта генов - новое средство представления множества однохромосомных геномов и их компонентов
Отмечена возможность однозначного отображения полных геномов и их компонентов информационными числовыми характеристиками строя, что позволяет быстро различать, сравнивать и осуществлять поиск длинных нуклеотидных последовательностей. На этой основе предложено наглядное картографическое представление аннотированных геномов, что позволяет облегчить неформальный экспертный анализ совокупностей организмов, а также их интерактивное и автоматическое исследование.
Map of genes - new tool for representation of a single-chromosome genomes and their components.pdf В работах [1,2] представлен новый подход, разрабатываемый на основе теории информации М. Мазура. При обработке упорядоченных массивов данных разной природы (так называемых информационных цепей) с использованием средств формального описания и анализа строя (ФОАС) непосредственно учитывается расположение компонентов в отдельных последовательностях. Для этих целей осуществляется предварительное преобразование массивов данных в строй цепи. Связи между компонентами строя - отдельные информации - определяются с помощью интервалов между ближайшими одинаковыми элементами (в случае нуклео-тидных последовательностей - это межнуклеотидные расстояния [2-4]). Интервалы представляют описательные информации, а их произведение - число таких информаций. Двоичный логарифм от этого числа представляет количество идентифицирующих информаций. Полученные таким образом числовые информационные характеристики строя представляют полное оригинальное расположение элементов в целостном объекте. Ранее формализм и характеристики строя при исследовании генетических последовательностей использовались для следующих целей: классификация организмов на высоких таксономических уровнях [2]; классификация прокариот на уровнях вида, рода, семейства [5]; определение сходства (близости) генетических последовательностей посредством сравнения распределений характеристик однородных последовательностей и вычисления матриц соответствий [2]; изучение локальной структуры нуклеотидных последовательностей; поиск различающихся фрагментов последовательностей с одинаковым строем [2]. 1. Числовые характеристики строя как меры полных геномов и их компонентов В данной работе предлагается использовать отдельные характеристики строя для двух новых задач: «хеширование» [6-8] генетических текстов и построение «карты генов». Использование одной характеристики не гарантирует отсутствия коллизий. Однако использование нескольких характеристик (в том числе частотных) позволяет значительно снизить их число. Адекватное высокочувствительное числовое отображение расположения компонентов в длинных нуклеотидных последовательностях позволяет осуществлять «хеширование» как полных геномов, так и их фрагментов и составляющих частей. Хеширование нуклеотидных последовательностей с помощью характеристик строя (т.е. их расположение в соответствии со значением той или иной характеристики) позволяет быстро различать, сравнивать и осуществлять поиск цепей без необходимости их поэлементного сравнения. При этом последовательности можно «расположить» и на числовой оси для экспертного либо автоматизированного анализа. Среди разнообразных характеристик строя в результате обработки больших массивов данных были выделены наиболее емко отображающие целостную последовательность - глубина G и средняя удаленность g, представленные здесь в виде m nj G = II log2 A-, j=-=i G = n • log2 A g, (1) 1 m nj g = - IIlog2 Ajj, n J=1i=1 mn g =I-J log2 A gj, (2) J=1 n g g = log2 Ag » где m - мощность алфавита (m = 4); n - длина последовательности; nj - число вхождений j-го нуклеотида; Aj - интервал от i-го до (i + 1)-го вхождения j-го нуклеотида; Ag - среднее геометрическое всех интервалов последовательности; Ag - средний геометрический интервал j-й однородной цепи. Первая характеристика - глубина расположения нуклеотидов в полной последовательности, - как видно из формулы (1), оценивает целостный объект длиной n. Вторая характеристика представляет усредненную удаленность гомологичных нуклеотидов в последовательности, которая позволяет эффективно определять сходство геномов организмов независимо от длины последовательности. Эти же характеристики показали свою эффективность и при хешировании. Несмотря на внешнее сходство, характеристики строя (в том числе формула (2)) не являются статистическими. Как правило, статистические оценки некоторой величины осуществляются суммированием ее отдельных значений без учета их расположения (с последующим делением на число слагаемых). Поэтому разные по порядку следования «выборки реализаций» могут давать одинаковые значения статистических характеристик. Напротив, все характеристики строя основаны на перемножении «межсобытийных» (межкомпонентных) интервалов (с последующим извлечением корня степени числа сомножителей). При изменении порядка следования событий в последовательности почти всегда меняются сомножители, поэтому числовые характеристики строя непосредственно учитывают расположение компонентов (строя) информационной цепи. В логарифмическом масштабе характеристики строя основаны на простом суммировании логарифмов межсобытийных интервалов. Важно отметить, что характеристики строя можно использовать вместо хеш-суммы для компактного представления и быстрого сравнения символьных последовательностей (в том числе нуклеотидных). Однако они не могут непосредственно использоваться в криптографических целях, так как, в отличие от общепринятого хеша, не обладают свойствами динамического хаоса и лавинным эффектом (хеш-сумма двух схожих, но не идентичных, объектов будет сильно отличаться, и наоборот, имея хеш, практически невозможно найти, для какого объекта он вычислен). Характеристики строя для схожих объектов дают близкие значения. 2. Некоторые особенности организации данных в GenBank В настоящее время наиболее крупной (международной) библиотекой нуклеотидных последовательностей и, в частности, полных геномов является GenBank (NCBI). Авторы последовательностей, представляющих полные геномы, при загрузке последовательности могут дать ее аннотацию и / или воспользоваться средством автоматического аннотирования [9]. Такая аннотация включает в себя информацию о «расположении» в полном геноме различных компонентов, таких как гены, различные РНК (рибосомальные, транспортные и т.д.), псевдогены, повторы, мобильные элементы и т.д. Поэтому для большинства геномов аннотации представлены в двух видах: загружаемые авторами или автоматические, выполненные инструментарием GenBank. Поэтому разные аннотации могут значительно отличаться, что затрудняет исследование и сравнение организмов по их компонентам. Как правило, на сайте NCBI нуклеотидная последовательность полноразмерного генома, секвенированная одной группой авторов, доступна в двух базах данных: RefSeq (NCBI Reference Sequence Database) и INSDC (International Nucleotide Sequence Database Collaboration). Различия в номенклатуре и структуре аннотаций, а также отсутствие некоторых данных при депонировании последовательностей авторами зачастую усложняют процесс сравнения геномов по существующим аннотациям. Так, в связи с несовершенством способов автоматической аннотации для многих компонентов неизвестны их точные позиция и длина. Автоматическую обработку аннотаций также усложняет то, что любая кодирующая область (и большинство других типов компонентов) размечена дважды: как CDS (coding sequence - кодирующая последовательность) и как gene (ген), в то время как некоторые редкие типы компонентов размечены только один раз. В файле, соответствующем отдельном геному, в разделе «Особенности» (Features) не всегда заполнены рубрики: источник (source), организм (organism) и описание (description). Зачастую авторы последовательностей заполняют эти поля несогласованно, что затрудняет автоматическое извлечение имен и описаний геномов. Вследствие этого и ряда других причин формат аннотаций, представленных в GenBank, является полуструктурированным и не приспособлен для полностью автоматической обработки [10, 11]. Отмеченные недостатки организации структуры данных в GenBank потребовали значительных усилий для разработки автоматизированных средств импорта и обработки больших совокупностей полных геномов и их компонентов и, в свою очередь, являются основанием для совершенствования представления данных в GenBank, а также проведения исследований с целью выявления естественных компонентов геномов. 3. Картографическое представление геномов по их компонентам Логическим развитием идеи представления нуклеотидных последовательностей с помощью характеристик строя явилась идея «картографирования» компонентов полных геномов (генов и других областей) посредством характеристик строя. При построении карты генов заданная характеристика полных геномов откладывается по оси х, а заданная характеристика компонентов (генов) - по оси у. Отмеченная точка на плоскости карты генов представляет j-й компонент t-го генома. При этом координата xt точки соответствует значению характеристики t-го полного генома, а ее координата yj - значению характеристики соответствующего j-го фрагмента этого генома. Таким образом, каждый геном оказывается представлен «столбцом» точек, каждая из которых представляет определенный компонент этого генома. Кроме того, разработанные программные средства позволяют отображать геномы на карте по их порядковому номеру, полученному при сортировке геномов по той же характеристике. Это необходимо, если на карте два или более генома, например близкородственных видов, или штаммы одного вида микроорганизмов визуально неразличимы, так как имеют слишком близкое значение характеристик. В данной работе построены две карты генов для полных геномов и плазмид с заданными перечнями их компонентов (таких как гены, рибосомальные РНК, транспортные РНК, неко-дирующие области, псевдогены и т.д.). На рис. 1 и 2 представлены фрагменты этих карт генов. На обоих рисунках в качестве характеристики полных последовательностей выбрана средняя удаленность g, а в качестве характеристик компонентов - глубина G. Единицами измерения как удаленности, так и глубины являются биты. По оси х g < 1,5 бит, по оси y G < 8 000 бит. На рисунках выбранные компоненты геномов обозначены эллипсами, а на черном фоне показаны всплывающие подсказки со всей информацией о них. Картографическое представление геномов множества организмов позволяет осуществлять неформальный экспертный анализ на предмет сходства отдельных их компонентов и, как следствие, организмов и геномов в целом. В свою очередь, хешированное представление компонентов и организмов позволяет частично автоматизировать и упростить экспертный анализ. Кроме того, с помощью карты генов возможно выборочно автоматизировать процесс сравнения геномов и их компонентов. Картографирование компонентов (кодирующих и некодирующих последовательностей) геномов позволяет сравнивать их по различным характеристикам как внутри одного генома, так и в массивах геномов близкородственных микроорганизмов. Предлагаемый подход актуален для обнаружения кодирующих последовательностей при сравнении характеристик фрагментов геномов «de novo» с помощью библиотеки нуклеотидных последовательностей, доступных по адресу: http://foarlab.org/. Другим возможным направлением его применения может стать определение структурного и функционального назначения различных областей геномов. 4. Программная реализация интерактивной карты генов Разработанная программная реализация карты генов содержит также интерактивные функции. Среди них динамическая фильтрация геномов и типов отображаемых компонентов. Для фильтрации компонентов достаточно отметить или убрать соответствующие «галочки» в их списке перед картой. Чтобы скрыть или показать все компоненты отдельного генома, достаточно выбрать его название в «легенде». Для выбранного фрагмента генома на карте может отображаться дополнительная информация, включающая название генома (со ссылкой на его страницу в GenBank), тип фрагмента, атрибуты фрагмента и их значения, его позицию в полном геноме и длину, в случае кодирующих последовательностей - ссылка на страницу этой последовательности в GenBank, а также значения характеристик текущего компонента и полного генома. Также возможен автоматизированный и автоматический поиск схожих компонентов (по их характеристике) в заданном диапазоне сходства (с заданной точностью). При выборе определенного компонента выполняется поиск других компонентов, значение характеристики которых отличается от данного не более чем на величину заданной погрешности. При этом все «совпадающие» компоненты на карте приобретают форму эллипса, а их данные отображаются во «всплывающей» подсказке. Процедуру поиска можно представить как построение горизонтальной полосы, ширина которой соответствует заданной точности, а центр проходит через данный элемент; все элементы, оказавшиеся в полосе, считаются подобными при подтверждении с помощью данных GenBank. Rickettsia rickettaii atr. Colombia I CTOOJJJf.1 Rickettaia rickettaii atr. Hlp#2 I CP003311. 1 Rickettaia rickettaii atr. R I ГР00 f00 9.1 Rickettaia rickettaii atr. "Sheila Smith" I CP00Qa4S.l Rickettaia maaailiae МГП5 I Cpnnn 683 .1 Oandidatua Rickettaia ainblyommii atrain Ac37 I CP012420.1 Rickettaia philipii atr. 3E4D I СР00330Э.1 Candidatua Rickettaia ainblyommii atr. GAT-30V I CP003334.1 Rickettaia peacockii atr. Ruatic I CP001227.1 Rickettaia akari atr. Hartford I CF0GGS47.1 Я Ц а Oi S.DDD С ■H С Я •н 7.000 о •> • * • • • т Л.. -,-> О 3* со & 8 Ге1с Pep cettaia phili „ide ncbi pag oil atr. 364D 1 CP003308.1 § м 8 db_sref = GI:37632S40B protein_id = AFB25645.1 s t Щ I 1 5 1 codon_3tart = 1 tranal_table = 1 locua_tag = RSA_J 30105 к в 1 ч Position: 13521 Length: 5553 (1.433253561103702, 8061.710929925201) s 1.4330 1.4335 1.4340 1.4345 1.4350 1.4355 1.4360 Averaae remoteness Cvclic Рис. 1. Фрагмент карты генов полных геномов организмов семейства Rickettsia Расшифровка всплывающей подсказки отдельного компонента (рис. 2): Rickettsiafelis URRWXCal2 plasmidpRF | CP000054.1 - название полной последовательности и ссылка на ее страницу в GenBank; Peptide ncbi page - ссылка на страницу аминокислотной последовательности выбранного гена в GenBank; Coding DNA sequence - тип выбранного фрагмента (кодирующая последовательность); db_xref = GI:67005365 - номер выбранного фрагмента в GenBank; proteinid = AAY62290.1 - id выбранного фрагмента в GenBank; product = Conjugative transfer protein TraA_Ti - продукт выбранного фрагмента; note = Possible nickase and helicase activities - пояснение; codonstart = 1 - номер первого кодона фрагмента с которого начинается трансляция белка; transltable = 11 - таблица аминокислот; locus_tag = RF_p39 Position: 36851 - позиция фрагмента в полной последовательности и ссылка на страницу фрагмента в GenBank; Length: 2724 - длина выбранного фрагмента; (1.4697611729042888, 4131.392884569981) - характеристика полной последовательности и выбранного фрагмента соответственно. Рис. 2. Карта генов плазмид (внехромосомная ДНК) организмов семейства Rickettsia Разработанное программное обеспечение позволяет формировать, сортировать и сравнивать компоненты изучаемой выборки геномов и плазмид по различным группам компонентов (кодирующая ДНК, рибосомальная РНК, транспортная РНК, псевдогены, некодирующие последовательности, повторяющиеся регионы и др.). Кроме того, для лучшего различения отдельных компонентов внутри генома карту можно масштабировать по вертикали. Анализ генов рибосомальной РНК в 38 геномах риккетсий и ориентий позволил получить представление о распределении нуклеотидов в последовательностях генов 5S, 16S и 23БРНК среди представителей рода Rickettsiaceae. Заключение В работе представлено два новых инструмента для описания и исследования нуклеотидных последовательностей. «Хеширование» с помощью числовых характеристик позволяет, во-первых, компактно и адекватно представлять длинные, в том числе полногеномные, последовательности, во-вторых, легко сравнивать множества таких последовательностей между собой и, наконец, быстро осуществлять их поиск. Впервые удалось адекватно обозначить точками совокупности компонентов геномов (и плазмид) разных организмов и расположить их на плоскости «карты генов». Картографирование полных геномов по их компонентам (генам и др.) дает их наглядное представление и позволяет осуществлять неформальный экспертный и автоматизированный анализ, в том числе сравнивать и находить новые компоненты в полных геномах.
Ключевые слова
формальный анализ строя,
межнуклеотидное расстояние,
карта генов,
хеширование характеристиками строя,
formal order analysis,
inter-nucleotide distance,
genes map,
hashing with order characteristicsАвторы
Поздниченко Николай Николаевич | Омский государственный технический университет | ассистент кафедры информатики и вычислительной техники факультета информационных технологий и компьютерных систем | nick670@yandex.ru |
Гуменюк Александр Степанович | Омский государственный технический университет | доцент, кандидат технических наук, доцент кафедры информатики и вычислительной техники факультета информационных технологий и компьютерных систем | gumas45@mail.ru |
Шпынов Станислав Николаевич | Федеральный научно-исследовательский центр эпидемиологии и микробиологии имени почетного академика Н.Ф. Гамалеи | доктор медицинских наук, заведующий лабораторией экологии риккетсий | stan63@inbox.ru |
Всего: 3
Ссылки
The DDBJ/ENA/GenBank Feature Table Definition. URL: http://www.insdc.org/files/feature_table.html_(access date: 15.04.2016).
GenBank Flat File Format. URL: http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html (access date: 15.04.2016).
NCBI Prokaryotic Genome Annotation Pipeline. URL: http://www.ncbi.nlm.nih.gov/genome/annotation_prok/ (access date: 15.04.2016).
Brinza D. et al. RAPID detection of gene-gene interactions in genome-wide association studies // Bioinformatics. 2010. V. 26 (22). P. 2856-2862. DOI:10.1093/bioinformatics/btq529.
Buldas A., Kroonmaa A., Laanoja R. Keyless Signatures' Infrastructure: How to Build Global Distributed Hash-Trees // Secure IT Systems. NordSec 2013 / N.H. Riis, D. Gollmann (eds.) // Lecture Notes in Computer Science. Berlin ; Heidelberg : Springer, 2013. V. 8208. P. 313-320.
Shpynov S., Pozdnichenko N., Gumenuk A. Application of Formal Order Analysis (FOA) to Higher Order Grouping of Bacteria in the Genera Rickettsia and Orientia // Microbes and Infection. 2015. V. 17. P. 839-844.
Indyk P., Motwani R. Approximate nearest neighbors: towards removing the curse of dimensionality // Proc. of 30th STOC'98 Proceedings of the thirtieth annual ACM symposium on Theory of computing. 1998. P. 604-613. DOI: 10.1145/276698.276876.
Nair A.S.S., Mahalakshmi T. Visualization of genomic data using inter-nucleotide distance signals // Proceedings of IEEE Genomic Signal Processing. Bucharest, 2005. Р. 11-13.
Afreixo V., Bastos C.A.C., Pinho A.J., Garcia S.P., Ferreira P.J.S.G. Genome analysis with inter-nucleotide distances. Bioinformatics. 2009. V. 25 (23). P. 3064-3070.
Гуменюк А.С., Поздниченко Н.Н., Шпынов С.Н., Родионов И.Н. О средствах формального анализа строя нуклеотидных цепей // Математическая биология и биоинформатика. 2013. Т. 8, № 1. С. 373-397. URL: http://www.matbio.org/article.php? journ_id=15&id=158 (дата обращения: 15.04.2016).
Gumenyuk A., Kostyshin A., Simonova S. An approach to the research of the structure of linguistic and musical texts // Glottometrics. 2002. No. 3. С. 61-69.