Предков станет проще найти: Alice AI VLM прокачала «Поиск по архивам»

Новая модель распознаёт роли людей, события и родственные связи в старых документах

«Яндекс» обновил сервис «Поиск по архивам»: теперь он не просто распознаёт текст в исторических документах, но и понимает структуру записи. Новая модель умеет выделять участников события, определять их роли и связи между людьми..

Раньше пользователям приходилось искать нужного человека среди всех упоминаний в архивном файле — вместе со служебными пометками, датами и другими именами. После обновления поиск стал точнее: можно задать не только ФИО, но и контекст события. Например, при поиске записи о рождении указать роли «родившийся», «отец» или «мать», а при работе со свидетельством о браке — «жених», «невеста» или «свидетель».

В основе обновления лежит мультимодальная модель «Яндекса» Alice AI VLM. Она работает с текстом и изображениями, а также хорошо понимает русский язык, что особенно важно для архивных документов. Благодаря этому разработчикам не пришлось собирать огромные обучающие выборки: модель смогла освоить извлечение данных за небольшое число итераций на специализированной разметке.

Качество системы оценивали по тому, какую долю людей удаётся найти по ФИО в архивном поиске. Средняя точность составила 90,5%. Для записей о рождении показатель достиг 92,7%, для брачных документов — 89,7%, для записей о смерти — 87,2%.

«Поиск по архивам» помогает находить упоминания о людях, населённых пунктах и событиях в рукописных документах XVIII–XX веков, которые расшифровывает нейросеть. В базе сервиса уже доступно более 20 миллионов страниц исторических документов из архивов Москвы, Московской, Оренбургской, Вологодской, Иркутской, Астраханской и других областей. Кроме того, сервис ищет данные в более чем 200 дореволюционных и советских газетах, а также в справочниках.

Читайте ещё материалы по теме: