Подобряване на оптичното разпознаване на символи за български текстове

През 2020 година благодарение на съвместните усилия на Националната библиотека „Иван Вазов“ - Пловдив (НБИВ) и Института за информационни и комуникационни технологии при БАН (ИИКТ - БАН) беше създаден модел за подобряване на оптичното разпознаване (OCR) на текстове, отпечатани преди 1945 г. Този модел разчита на морфологичен речник с обем 1 121 872 словоформи, чието изписване е съобразено с Дриновско-Иванчевския правопис. Извършената работа и резултатите от проведените в НБИВ тестове бяха представени в рамките на международния уебинар Workshop Twin Talks 3: Understanding and Facilitating Collaboration in DH, организиран от CLARIN ERIC и DARIAH ERIC.

Статията, озаглавена “Towards Improving OCR Accuracy with Bulgarian Language Resources“ , вече е достъпна онлайн като част от сборника с изнесените доклади: http://ceur-ws.org/Vol-2717.

Новини

Подобряване на оптичното разпознаване на символи за български текстове

Европейски контекст и финансова подкрепа