Российская нейросеть научилась собирать карту генов по одной цепочке ДНК

Новая модель помогает работать даже с малоизученными видами организмов

В России разработали нейросеть, которая умеет «читать» ДНК и автоматически строить карту генов. Это может ускорить работу с геномами организмов, о которых раньше было мало биологических данных. Нейросеть получила название GENATATOR.

Система смотрит на последовательность ДНК и пытается понять, где начинаются и заканчиваются гены, какие они бывают и как устроены внутри. ИИ справляется со сложной задачей, ведь у генов нет чётких «меток», по которым можно сразу определить их границы.

В отличие от старых методов, которые работают по заранее заданным правилам, модель обучалась на большом количестве геномов. Поэтому она умеет находить не только обычные участки, которые кодируют белки, но и более сложные гены, например длинные некодирующие РНК.

Технология особенно полезна для «немодельных» организмов, про которые почти нет подробных данных, и есть только сырые геномные последовательности.

В ходе тестирования программа GENATATOR, обученная на человеке и 38 видах млекопитающих, успешно справилась с анализом данных, полученных от других живых организмов, включая дрозофил, растения и дрожжи. Также она находила редкие «ядовитые» экзоны, которые могут разрушать РНК.

Чтобы проверить качество модели, сделали открытый лидерборд, где GENATATOR показывает хорошие результаты. Сама модель доступна на платформе Hugging Face.

Читайте ещё материалы по теме: