«Яндекс» научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Об этом Rozetked рассказали в пресс-службе компании.
Обучение нейросети происходило на массиве из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Качество распознавания контролировали эксперты.
«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а наш сервис справляется с этим за несколько секунд», — Елена Бубнова, руководитель поиска «Яндекса»
Технологию можно опробовать в сервисе «Поиск по архивам». Он открывает доступ к более чем 2,5 млн исторических документов с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. Сервис оснащён системой поиска и фильтров по годам, архивам, фондам и описям. «Яндекс» обещает пополнять базу отсканированных файлов и хранилищ.