Яндекс подвел итоги работы Поиска по архивам, запущенного 25 января 2023 года. Согласно данным компании, за год нейросеть расшифровала более 10 млн страниц исторических документов, а пользователи просмотрели их более 20 млн раз.
Сейчас в Поиске по архивам есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего за год нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: это более 10 миллионов страниц или 492 миллиона строк.
В Поиске по архивам также хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки) с информацией о людях, родившихся в России до революции. Кроме того, в сервисе собраны 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.
Отметим, технология расшифровки в Поиске по архивам основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с версткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности.