В России разработали нейросеть, которая умеет «читать» ДНК и автоматически строить карту генов. Это может ускорить работу с геномами организмов, о которых раньше было мало биологических данных. Нейросеть получила название GENATATOR.
Система смотрит на последовательность ДНК и пытается понять, где начинаются и заканчиваются гены, какие они бывают и как устроены внутри. ИИ справляется со сложной задачей, ведь у генов нет чётких «меток», по которым можно сразу определить их границы.
В отличие от старых методов, которые работают по заранее заданным правилам, модель обучалась на большом количестве геномов. Поэтому она умеет находить не только обычные участки, которые кодируют белки, но и более сложные гены, например длинные некодирующие РНК.
Технология особенно полезна для «немодельных» организмов, про которые почти нет подробных данных, и есть только сырые геномные последовательности.
В ходе тестирования программа GENATATOR, обученная на человеке и 38 видах млекопитающих, успешно справилась с анализом данных, полученных от других живых организмов, включая дрозофил, растения и дрожжи. Также она находила редкие «ядовитые» экзоны, которые могут разрушать РНК.
Чтобы проверить качество модели, сделали открытый лидерборд, где GENATATOR показывает хорошие результаты. Сама модель доступна на платформе Hugging Face.