Описание „Автоматична анотация с езикови модели“
Автоматична анотация с езикови модели
Тази услуга на КЛаДА-БГ е свързана с автоматичното анотиране на български текстове. В момента услугата може да се ползва чрез уеб интерфейс. Планирано е тя да стане достъпна и като уеб приложение.
Автоматичната анотация на текст използва няколко езикови модела, специално обучени за определена езикова задача, които заедно правят последователност от езикови анализи по няколко ключови направления.
За да се извърши анотацията, е необходимо входният текст да бъде поставен в текстовото поле, след което да се натисне бутонът „Анотирай“. По подразбиране анотацията ще се покаже под формата на таблица под въведения текст.
След като се въведе текстът и се натисне бутонът, чрез езиков модел се извършва сегментиране на текста по думи и изречения. Те са последвани от лингвистичен анализ на изреченията, извършен паралелно от няколко модела. В полето по-долу се появява таблица, съответстваща на всяко изречение, както и схема, представяща синтактичното дърво.
Резултатът от автоматичната анотация е представен в деветте колони на таблицата, както следва:
- В колоните ID и Form са представени отделните тоукъни с подредбата им в изречението (ID), както и словоформата в текста (Form).
- В колона Lemma е представена основната форма (лемата) на думата, чрез която да може да се прави връзка с различни речници.
- В колоните UPOS, XPOS и Feats са представени граматическите характеристики. По стандарта, използван в UD (Universal Dependencies), UPOS и Feats представят съответно като каква универсална част на речта (UPOS) се реализира всеки тоукън и с какви конкретни граматически характеристики (Feats). XPOS от своя страна също маркира граматическите характеристики на всяка дума при зададената във входния текст употреба, но чрез позиционен тагсет, създаден за проекта BulTreeBank. Като за всеки етикет, който е изобразен, при поставяне и задържане на курсора на мишката върху него се появява разгъвка на обозначените чрез него граматически характеристики.
- В колоните Head Index и Dep Rel е представена синтактичната анотация. Тя е определена чрез съответния индекс на опорната дума (Head Index) и чрез съответната синтактична връзка по отношение на зависимата дума (Dep Rel).
- В последната колона NER е представен етикетът за наименувана същност (Named Entity), който е важен за извличането на информация за Мрежата от знания, разработвана в рамките на инфраструктурата КЛаДА-БГ, и за индексирането на документи.
* На всяка клетка при поставяне и задържане на курсора на мишката се появява разгъвка с пояснение.