Алгоритм высокопроизводительного обнаружения регионов низкой сложности в длинных геномных последовательностях
Обнаружение регионов низкой сложности (Low Complexity Regions, LCR) в геномных последовательностях представляет важную задачу для множества биоинформационных инструментов, включая выравнивание последовательностей, дизайн зондов и обнаружение вариантов. В настоящей работе представлен DUSTSCAN - инструмент и модификация алгоритма DUST (оценка распределения частот уникальных триплетов в последовательности) для идентификации LCR с применением параллельных вычислений для значительного ускорения расчетов. Проводится сравнительный анализ DUSTSCAN с другими версиями алгоритма DUST. Результаты показывают значительный прирост в скорости обнаружения регионов низкой сложности. Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.
Ключевые слова
алгоритм,
параллельные вычисления,
регионы низкой сложностиАвторы
| Воробьёв Ростислав Сергеевич | Научно-исследовательский институт онкологии Томского национального исследовательского медицинского центра Российской академии наук; Национальный исследовательский Томский государственный университет | младший научный сотрудник; аспирант Института прикладной математики и компьютерных наук | tsu@rvorobev.ru |
| Замятин Александр Владимирович | Национальный исследовательский Томский государственный университет | профессор, доктор технических наук, директор Института прикладной математики и компьютерных наук | zamyatin@mail.tsu.ru |
| Геращенко Татьяна Сергеевна | Научно-исследовательский институт онкологии Томского национального исследовательского медицинского центра Российской академии наук | кандидат медицинских наук, старший научный сотрудник | t_gerashchenko@oncology.tomsk.ru |
| Коробейникова Анастасия Алексеевна | Научно-исследовательский институт онкологии Томского национального исследовательского медицинского центра Российской академии наук | младший научный сотрудник | shegolmay@gmail.com |
| Денисов Евгений Владимирович | Научно-исследовательский институт онкологии Томского национального исследовательского медицинского центра Российской академии наук | доктор биологических наук, заведующий лабораторией | d_evgeniy@oncology.tomsk.ru |
Всего: 5
Ссылки
Компо Ф., Певзнер. П. Алгоритмы биоинформатики. М. : ДМК-Пресс, 2023. 682 с.
Morgulis A., Gertz M., Schaffer A.A., Agarwala R. A Fast and Symmetric DUST Implementation to Mask Low-Complexity DNA Sequences // Journal of Computational Biology. 2006. V. 13 (5). P. 1028-1040. doi: 10.1089/cmb.2006.13.1028.
Orlov Y.L., Potapov V.N.Complexity: an internet resource for analysis of DNA sequence complexity // Nucleic Acids Research. 2004. V. 32. P. W628-W633. doi: 10.1093/nar/gkh466.
Orlov Y.L., Orlova N.G. Bioinformatics tools for the sequence complexity estimates // Biophysical Reviews. 2023. V. 15. P. 1367, doi: 10.1007/s12551-023-01140-y.
Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Research. 1997. V. 25, is. 17. P. 3389-3402. doi: 10.1093/nar/25.17.3389.
Goldfeder R.L., Priest J.R., Zook J.M., Grove M.E., Waggott D., Wheeler M.T., Salit M., Ashley E.A. Medical implications of technical accuracy in genome sequencing // Genome Medicine. 2016. V. 8. Art. 24. doi: 10.1186/s13073-016-0269-0.
Koboldt D.C. Best practices for variant calling in clinical sequencing // Genome Medicine. 2020. V. 12. Art. 91. doi: 10.1186/s13073-020-00791-w.
Lau T.Y. et al. The Neoantigen Landscape of the Coding and Noncoding Cancer Genome Space // The Journal of Molecular Diag nostic. 2022. V. 24 (6). P. 541-554. doi: 10.1016/j.jmoldx.2022.02.004 77 Обработка информации /Data processing.
Shalon D., Smith S.J., Brown P.O. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization // Genome research. 1996. V. 6 (7). P. 639-645. doi: 10.1101/gr.6.7.639.
Haas B.J., Dobin A., Li B., Stransky N., Pochet N., Regev A. Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods // Genome Biology. 2019. V. 20. Art. 213. doi: 10.1186/s13059-019-1842-9.
Feng Y., Guo Q., Chen W., Han C. A Low-Complexity Deep Learning Model for Predicting Targeted Sequencing Depth from Probe Sequence // Applied Sciences. 2023. V. 13 (12). Art. 6996. doi: 10.3390/app13126996.
Wootton J.C., Federhen S. Statistics of local complexity in amino acid sequences and sequence databases // Computers & Chemistry. 1993. V. 17, is. 2. P. 149-163. doi: 10.1016/0097-8485(93)85006-X.
Velichkovski G., Gusev M., Mileski D. CUDA Calculation of Shannon Entropy for a Sliding Window System // 32nd Telecommunications Forum (TELFOR), November 2024. Belgrade : IEEE, 2024. P. 1-4. doi: 10.1109/TELFOR63250.2024.10819103.
Frith M.C. A new repeat-masking method enables specific detection of homologous sequences // Nucleic Acids Research. 2011. V. 39, is. 4. Art. e23. doi: 10.1093/nar/gkq1212.
Chen S., Zhou Y., Chen Y., Gu J. fastp: an ultra-fast all-in-one FASTQ preprocessor // Bioinformatics. 2018. V. 34, is. 17. P. i884-i890. doi: 10.1093/bioinformatics/bty560.
Schmieder R., Edwards R. Fast Identification and Removal of Sequence Contamination from Genomic and Metagenomic Datasets // PLoS ONE. 2011. V. 6 (3). Art. e17288. doi: 10.1371/journal.pone.0017288.
Kirk D.B., Hwu W.W. Programming Massively Parallel Processors: A Hands-on Approach, 3rd ed. Morgan Kaufmann, 2016. xix, 258 p.
Sanders J., Kandrot E. CUDA by Example: An Introduction to General-Purpose GPU Programming. Addison-Wesley Professional, 2010. xix, 290 p.
Боресков А.В. и др. Параллельные вычисления на GPU. Архитектура и программная модель CUDA : учеб. пособие. М. : Изд-во Моск. ун-та, 2015. 336 с. (Суперкомпьютерное образование).
Jarnot P., Ziemska-Legiecka J., Grynberg M., Gruca A. Insights from analyses of low complexity regions with canonical methods for protein sequence comparison // Briefings in Bioinformatics. 2022. V. 23, is. 5. Art. bbac299. doi: 10.1093/bib/bbac299.
Замятин А.В. Интеллектуальный анализ данных: учебное пособие. Томск : Изд. Дом Том. гос. ун-та, 2020. 196 с.