Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов

За год существования сервиса «Поиск по архивам», куда были загружены более 5,4 миллиона страниц исторических материалов, москвичи воспользовались им 20 миллионов раз, сообщила заммэра по вопросам социального развития Анастасия Ракова.

На сегодняшний день сервис содержит документы из архивов 11 регионов, с помощью него людям стало проще искать историю своих семей. Кроме того, он помогает ученым и журналистам, а на страницах, содержащих устаревшие символы и рукописи, тренируется искусственный интеллект, отметила она.

«На протяжении нескольких последних лет запросы, связанные с поиском предков и исследованием прошлого семьи, оказываются одними из самых популярных в Главархиве Москвы. Это особенно заметно в Год семьи. Мы стремимся помочь жителям в столь важном деле и ищем способы сделать доступ к документам проще», - отметила Ракова.

Она рассказала, что несколько лет назад был открыт онлайн-сервис «Моя семья», в нем разместили оцифрованные метрические книги — документы, содержащие сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий.

«На основе ресурса "Моя семья" нейросеть "Поиска по архивам" училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов», - сказала Ракова.

Сегодня в «Поиске по архивам» есть документы из архивов из Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: в сумме это более 10 миллионов страниц, или 492 миллионов строк. В «Поиске по архивам» хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки), в которых содержится информация о людях, родившихся в России до 1917 года.

Кроме того, в сервисе собраны 3,6 миллиона оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

В основе технологии расшифровки в «Поиске по архивам» лежит оптическое распознавание символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст.

Отметис, «Поиск по архивам» - сервис Яндекса, который был запущен в начале 2023 года. Он помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII-XX веков.

-- mos.ru


← Экстренная ситуация? Набираем номер 112

→ В храме святителя Димитрия Ростовского состоится встреча с кандидатом биологических наук Сергеем Дадашевым