Предварително обучени Големи езикови модели за класификационни задачи на български език

На страницата на платформата Hugging Face са качени три свободнодостъпни Големи езикови модела за българския език, следващи архитектурата BERT (Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR, abs/1810.04805.):

BERT-Base (109 милиона параметъра) –

https://huggingface.co/AIaLT…/bert_bg_lit_web_base_uncased

BERT-Large (334 милиона параметъра) –

https://huggingface.co/AIaLT…/bert_bg_lit_web_large_uncased

BERT-Extra Large (657 милиона параметъра) –

https://huggingface.co/…/bert_bg_lit_web_extra_large_uncased

Тези модели може да бъдат използвани за фина настройка към различни класификационни задачи. Специално в рамките на КЛаДА-БГ те са използвани за фина настройка към базовите задачи за обработка на текстове на български: граматическо анотиране, лематизация, разпознаване на наименовани същности, депендентен синтактичен анализ, анотиране със значения на думи, разделяне на изречения. Основното приложение на тези обработки в рамките на КЛаДА-БГ е извличането на знание от големи масиви с текстове.

А тук ви предлагаме две статии, които представят конкретни приложения на тези модели за анализ на текст. В едната се разглежда анотиране на думите с граматични характеристики, а в другата – свързване на думите в текста с техните значения:

Paev, N., Simov, K., Osenova, P. Introducing Shallow Syntactic Information within the Graph-based Dependency Parsing. In Proceedings of TLT 2024. Hamburg, Germany. https://aclanthology.org/2024.tlt-1.6/ , [pdf]

Paev, N., Simov, K., & Osenova, P. (2025). Word Sense Disambiguation with Large Language Models: Casing Bulgarian. In Global WordNet Conference 2025. [pdf]

февруари 21, 2025|Новини|

Предварително обучени Големи езикови модели за класификационни задачи на български език

Споделете тази история. Изберете платформа!

Свързани публикации

Представяне на хъба за Югоизточна Европа на DARIAH-EU по време на срещата на Националните координатори на DARIAH в Никозия, Кипър

Проф. д-р Десислава Панева-Маринова и гл.ас. д-р Максим Гойнов са отличени с Първа награда на МОН „ОРБИТ“ 2025 за цялостен принос към отворената наука

Ден на отворените врати на Електронната инфраструктура за българското езиково и културно наследство КЛаДА-БГ

Ден на отворените врати на Електронната инфраструктура за българското езиково и културно наследство КЛаДА-БГ 2025