На страницата на платформата Hugging Face са качени три свободнодостъпни Големи езикови модела за българския език, следващи архитектурата BERT (Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR, abs/1810.04805.):



Тези модели може да бъдат използвани за фина настройка към различни класификационни задачи. Специално в рамките на КЛаДА-БГ те са използвани за фина настройка към базовите задачи за обработка на текстове на български: граматическо анотиране, лематизация, разпознаване на наименовани същности, депендентен синтактичен анализ, анотиране със значения на думи, разделяне на изречения. Основното приложение на тези обработки в рамките на КЛаДА-БГ е извличането на знание от големи масиви с текстове.
А тук ви предлагаме две статии, които представят конкретни приложения на тези модели за анализ на текст. В едната се разглежда анотиране на думите с граматични характеристики, а в другата – свързване на думите в текста с техните значения:
Paev, N., Simov, K., Osenova, P. Introducing Shallow Syntactic Information within the Graph-based Dependency Parsing. In Proceedings of TLT 2024. Hamburg, Germany. https://aclanthology.org/2024.tlt-1.6/ , [pdf]
Paev, N., Simov, K., & Osenova, P. (2025). Word Sense Disambiguation with Large Language Models: Casing Bulgarian. In Global WordNet Conference 2025. [pdf]