BulTreeBank WordNet (BTB-WN)

Версии на BTB-WordNet

Създаването на Българската Мрежа от думи (BTB-WN) има около 18-годишна история. През 2005 г. във връзка с участието на групата Бултрибанк в редица европейски проекти се появява нуждата от свързване на онтологични (езиково независими) понятия в дадена тематична област с лингвистичните термини (езиково специфични термини, ключови думи, лексика) в различни езици. Затова работата на групата започва с набор от български терминологични речници, подравнени със специализирани и общи онтологии, както и със съществуващия вече Onto WordNet. Те се използват в следните европейски проекти: LT4EL (в областта на компютърните умения), AsIsKnown (в областта на вътрешния дизайн), QTLeap (в областта на използването на софтуер) и др. Използването на тези речници в семантичната анотация на текстове от съответните тематични области, в машинния превод, извличането на знание, обучението по граматика и др. ни мотивира да започнем работата по създаване на свободно достъпна Българска мрежа от думи (BulTreeBank WordNet /BTB-WN/).

BTB-WordNet 4.0

Когато проектът CLaDA-BG започна в края на 2018 г., BTB-WN съдържаше малко повече от 19000 синонимни гнезда. По време на проекта CLaDA-BG през 2019 г., 2020 г., 2021 г. и в началото на 2022 г. BTB-WN е проверявана за качество от поне двама души, като са били подобрявани дефинициите;  правени са съответствия с българската Уикипедия, добавяни са нови примери за много синонимни гнезда.
Текущата версия на BTB-WN - 4.0 (която е представена тук) - е подробно проверена с помощта на специализиран софтуер и разширена с повече от 10 000 нови значения, така че в момента мрежата от думи съдържа повече от 30 000 синонимни гнезда.
Няколко тълковни речника (виж раздел 8) са използвани за справка на броя значения в BTB-WN, за проверка на дефиниции и други.

Представяне на части на речта

В момента BTB-WN включва представяния на следните четири части на речта: съществителни (където влизат бройните числителни имена и отглаголните съществителни имена), прилагателните имена (където влизат редните числителни имена и лексикализираните причастия, които функционират като прилагателни), наречия и глаголи.

Съществителни имена

Граматика

Съществителни имена, които се използват само в единствено (прах) или само в множествено число (анали), винаги имат лема съотвтено само за единствено или множествено число. Информацията за тяхната употреба ще бъде представена в допълнителен маркер към лемата.

Прилагателни имена

Граматика

В тази категория също се включват и причастия, които функционират като прилагателни имена, при две условия - причастието има речникова статия в речниците или е определено като синоним на прилагателно име. Например: прилагателното дебел има няколко синонима причастия - охранен (от глагола охранвам), угоен (от угоявам) и хранен (от храня).
Редните числителни имена (например трети) са причислени към категорията на прилагателните в BTB-WN, както и в OEW.

Наречия

Граматика

Двата вида български наречия са представени в BTB-WN - обикновени (образувани от съществителни, прилагателни, числителни, глаголи, предлози, например бързо) и местоименни наречия (образувани от местоимения, например тук).

Глаголи

Граматика

Безличните глаголи имат леми в трето лице, единствено число. Например: оказва се, окаже се.

Местоимения, предлози, съюзи, частици и междуметия ще бъдат добавени в бъдеще.

WordNet Tree

Съответствия

Open English Wordnet

Mapping with
Open English Wordnet (OEW)

BTB-WN is mapped first with the Princeton WordNet 3.0 and later also with the OEW.

The mapping process starts with translation of a Bulgarian term in English, then search for the corresponding English synset and establishment of relation between the two synsets, addition of Bulgarian definition and examples.

Since 2020 BTB-WN is mapped to the OEW and the main benefits of the mapping are that this wordnet is being updated, edited and expanded (unlike PWN).

This image for Image Layouts addon

Mapping with
Wikipedia

Two types of extension of BTB-WN were intended - extension of the existing lemmas with new senses and extension with instances.

For the first task all the lemmas in BTB-WN were compared with the titles of Bulgarian Wikipedia articles and the senses from Wikipedia, which were missing in BTB-WN, were added in the wordnet with definitions and links to Wikipedia.

The titles of the corresponding English Wikipedia articles were also extracted and used for the selection of right sense in English and thus, an appropriate synset in EWN for mapping.

This image for Image Layouts addon

Mapping with
DBpedia

The mapping with DBpedia (an open knowledge graph with information from Wikimedia) was used for the second type of BTB-WN extension - with instances.

Named entities in BulTreeBank are annotated with URIs from DBpedia and because Bulgarian DBpedia is relatively small, Bulgarian Wikipedia was also used.

So far the mapping is done with the three most frequent types of Named entities in the BulTreeBank - people, locations and organisations.

Източници

Тук е представен списък с основните източници, които са използвани по време на създаването на BulTreeBank WordNet за определяне на възможни значения, формулиране на дефиниции, примери, съотнасяне с Princeton WordNet и English Open WordNet.

  1. Многотомен речник на българския език
  2. Л. Андрейчин и др. Български тълковен речник, IV издание, допълнено и преработено от Д. Попов. Наука и изкуство, 1994
  3. Е. Пернишка, Д. Благоева и С. Колковска. Речник на новите думи в българския език, Наука и изкуство, 2010
  4. Д. Благоева и С. Колковска. Речник на новите думи в българския език, Наука и изкуство, 2021
  5. И. Касабов и К. Стоянов. Универсален енциклопедичен речник, Свидас, 1999, 2003
  6. А. Нанова. Български синонимен и антонимен речник с идиоми, Просвета, 2019
  7. Онлайн речник 
  8. Princeton WordNet 
  9. English Open WordNet 
  10. Уикипедия 
  11. Уикиречник 

В процеса на създаване на BTB-WN са използвани и конкордансери на няколко български корпуси:

  1. Bulgarian HPSG-based TreeBank
  2. Bulgarian National Reference Corpus - BulTreeBank
  3. CLaDA-BG Multi Billion Corpus 
Image

Европейски контекст и финансова подкрепа

Image
Image
Image