КЛаДА-БГ предоставя услуги и инструменти, които могат да бъдат използвани за целите на научните изследвания, както и от широк кръг потребители.
Различните ресурси и услуги са разработени от партньорите в инфраструктурата и са свободно достъпни:
Български корпус с имена, събития и роли 0.1
Валентен речник на българския език 0.1
Синтактичен корпус Бултрибанк с универсални зависимости на българския език 2.10
Повече информация на: https://universaldependencies.org/
Референтен корпус на българския език – BulTreeBank (уеб конкорданс):
http://webclark.org/
Корпус на парламентарната и журналистическата реч (уеб конкорданс):
http://political.webclark.org/
Семантичен речник със значения и синоними (BTB-Wordnet) – версия 1:
http://compling.hss.ntu.edu.sg/omw/
Българската мрежа от думи BTB-WordNet е достъпна за онлайн търсене/разглеждане тук. Може да се използва за проследяване на семантични връзки между думите и за правописни и тълковни проверки.
Интегрираната система за корпуси и речници предоставя обединен достъп до няколко електронни езикови ресурса: Думата в контекст (позволява представяне на дадена дума или израз спрямо техния десен и ляв контекст), Всичко за думата (позволява търсене на думи едновременно в тълковен, словоизменителен, етимологичен речник и предоставя граматична информация и примери) и мрежата от думи BTB-WordNet, която обединява лексикално-семантична и енциклопедична информация.
Упражнения по българска граматика
Онлайн упражнения по българска граматика в 11 категории (сред които съгласуване, време, множествено число и бройна форма, местоимения и други), които може да се използват за проверка и обогатяване на познанията по българска граматика. Упражненията са подходящи за ученици, студенти, чужденци и за всеки, който иска да развие знанията си по български език.
Играта на значения представя възможности за избор на подходящото значение на дадена дума в изречение. Има две нива на трудност. Тук ще проверите колко добре познавате значенията на определена дума в даден текст.
CHILDES Bulgarian LabLing Corpus - Корпус с данни от детска реч
DOI: 10.21415/PHWH-J834
На платформата CHILDES (ChildLanguageDataExchangeSystem) е публикуван първият български корпус с детска реч BULGARIAN LABLING CORPUS.
BULGARIAN LABLING CORPUS е създаден от изследователите от Лабораторията по приложна лингвистика (LABLING) на Шуменския университет „Епископ Константин Преславски“, която е технологичен партньор в Националния проект CLaDA-BG.
LABLASS –Уеббазирана система за представяне и изучаване на словесните асоциации
LABLASS е първата българска уеббазирана система за изследване на словесните асоциации, разработена от екип на Лабораторията по приложна лингвистика към Шуменския университет „Епископ Константин Преславски“ в рамките на работната програма на националния проект CLADA-BG.
Уебсистемата LABLASS обхваща данните от асоциативни колекции, разработенипо проекта CLADA-BG, както и данни от други речници от българската лексикографска традиция.
LABMETA –Уеббазирана система за представяне и изучаване когнитивните метафори
LABMETA е първата българска уеббазирана система за изследване на когнитивни метафори в българските политически речи, разработена от екип на Лабораторията по приложна лингвистика (LABLING ) към ШУ в рамките на Националния проект CLADA-BG.
ИИКТ-БАН публикува три свои ресурса в каталога на ELRA:
Български корпус със синтактични анализи (Бултрибанк)
ISLRN: 761-430-854-533-2
Бултрибанк се състои от 156 149 тоукъна (11 138 изречения), идващи от три основни източника: български граматики по синтаксис (1 391 изречения), вестници с новини (6 698 изречения) и други, сред които административни документи, Конституцията на Република България, закони, българска литература – българска и преводна (3 049 изречения). Корпусът се предоставя заедно със синтактична и морфологична анотация на изреченско равнище в представянето на инициативата за Универсалните зависимости.
Български корпус с анотирани събития и роли
ISLRN: 832-960-876-604-2
Българският корпус с анотирани събития и роли е съставен от 324 905 тоукъна. Ресурсът е подходящ за обучение на модул за разпознаване на имена, за свързване на имената от текста с енциклопедично знание и за разпознаване на събития за български език в сферата на хуманитаристиката. Текстовете включват документи от сферата на социалните и хуманитарните науки – научни статии, архивни документи, научнопопулярни статии и статии от Уикипедия в съответните области.
Български валентен речник
ISLRN: 188-702-981-369-5
Българският валентен речник се състои от 9547 глагола с валентни рамки. Ресурсът е в XML формат и има 960 съпоставяния с Принстънската мрежа от думи за английския език (Princeton WordNet). Речникът съдържа валентни рамки, извлечени от синтактиния корпус Бултрибанк. Тези рамки са прегледани ръчно, а структурата им следва тази на анализите в Бултрибанк.
Корпуси с парламентарна реч от фаза 1 на проекта ParlaMint:
Корпусите като данни:
Многоезикови сравними корпуси от парламентарни сесии ParlaMint 1.0 в хранилището CLARIN.SI: http://hdl.handle.net/11356/1345 Корпусите за търсене чрез конкордансери:
NoSketch Engine: https://www.clarin.si/noske/index-en.html (Търсете: - ParlaMint-SI 1.0 (parliament: COVID) - ParlaMint-BG 1.0 (parliament: COVID) - ParlaMint-HR 1.0 (parliament: COVID) - ParlaMint-PL 1.0 (parliament: COVID)
Списък с непреходните глаголи в българския език
Моля при ползване на този ресурс да се посочва изрично линкът.
Честотен списък на българските глаголи
Списъкът е подреден по леми, но отразява честотата на всички синтетични словоформи на глагола.
Моля при ползване на този ресурс да се посочва изрично линкът.
КЛаДА-БГ предоставя услуги и инструменти, които могат да бъдат използвани за целите на научните изследвания, както и от широк кръг потребители.
Различните ресурси и услуги са разработени от партньорите в инфраструктурата и са свободно достъпни:
Български корпус с имена, събития и роли 0.1
Валентен речник на българския език 0.1
Синтактичен корпус Бултрибанк с универсални зависимости на българския език 2.10
Повече информация на: https://universaldependencies.org/
Референтен корпус на българския език – BulTreeBank (уеб конкорданс):
http://webclark.org/
Корпус на парламентарната и журналистическата реч (уеб конкорданс):
http://political.webclark.org/
Семантичен речник със значения и синоними (BTB-Wordnet) – версия 1:
http://compling.hss.ntu.edu.sg/omw/
Българската мрежа от думи BTB-WordNet е достъпна за онлайн търсене/разглеждане тук. Може да се използва за проследяване на семантични връзки между думите и за правописни и тълковни проверки.
Интегрираната система за корпуси и речници предоставя обединен достъп до няколко електронни езикови ресурса: Думата в контекст (позволява представяне на дадена дума или израз спрямо техния десен и ляв контекст), Всичко за думата (позволява търсене на думи едновременно в тълковен, словоизменителен, етимологичен речник и предоставя граматична информация и примери) и мрежата от думи BTB-WordNet, която обединява лексикално-семантична и енциклопедична информация.
Упражнения по българска граматика
Онлайн упражнения по българска граматика в 11 категории (сред които съгласуване, време, множествено число и бройна форма, местоимения и други), които може да се използват за проверка и обогатяване на познанията по българска граматика. Упражненията са подходящи за ученици, студенти, чужденци и за всеки, който иска да развие знанията си по български език.
Играта на значения представя възможности за избор на подходящото значение на дадена дума в изречение. Има две нива на трудност. Тук ще проверите колко добре познавате значенията на определена дума в даден текст.
CHILDES Bulgarian LabLing Corpus - Корпус с данни от детска реч
DOI: 10.21415/PHWH-J834
На платформата CHILDES (ChildLanguageDataExchangeSystem) е публикуван първият български корпус с детска реч BULGARIAN LABLING CORPUS.
BULGARIAN LABLING CORPUS е създаден от изследователите от Лабораторията по приложна лингвистика (LABLING) на Шуменския университет „Епископ Константин Преславски“, която е технологичен партньор в Националния проект CLaDA-BG.
LABLASS –Уеббазирана система за представяне и изучаване на словесните асоциации
LABLASS е първата българска уеббазирана система за изследване на словесните асоциации, разработена от екип на Лабораторията по приложна лингвистика към Шуменския университет „Епископ Константин Преславски“ в рамките на работната програма на националния проект CLADA-BG.
Уебсистемата LABLASS обхваща данните от асоциативни колекции, разработенипо проекта CLADA-BG, както и данни от други речници от българската лексикографска традиция.
LABMETA –Уеббазирана система за представяне и изучаване когнитивните метафори
LABMETA е първата българска уеббазирана система за изследване на когнитивни метафори в българските политически речи, разработена от екип на Лабораторията по приложна лингвистика (LABLING ) към ШУ в рамките на Националния проект CLADA-BG.
ИИКТ-БАН публикува три свои ресурса в каталога на ELRA:
Български корпус със синтактични анализи (Бултрибанк)
ISLRN: 761-430-854-533-2
Бултрибанк се състои от 156 149 тоукъна (11 138 изречения), идващи от три основни източника: български граматики по синтаксис (1 391 изречения), вестници с новини (6 698 изречения) и други, сред които административни документи, Конституцията на Република България, закони, българска литература – българска и преводна (3 049 изречения). Корпусът се предоставя заедно със синтактична и морфологична анотация на изреченско равнище в представянето на инициативата за Универсалните зависимости.
Български корпус с анотирани събития и роли
ISLRN: 832-960-876-604-2
Българският корпус с анотирани събития и роли е съставен от 324 905 тоукъна. Ресурсът е подходящ за обучение на модул за разпознаване на имена, за свързване на имената от текста с енциклопедично знание и за разпознаване на събития за български език в сферата на хуманитаристиката. Текстовете включват документи от сферата на социалните и хуманитарните науки – научни статии, архивни документи, научнопопулярни статии и статии от Уикипедия в съответните области.
Български валентен речник
ISLRN: 188-702-981-369-5
Българският валентен речник се състои от 9547 глагола с валентни рамки. Ресурсът е в XML формат и има 960 съпоставяния с Принстънската мрежа от думи за английския език (Princeton WordNet). Речникът съдържа валентни рамки, извлечени от синтактиния корпус Бултрибанк. Тези рамки са прегледани ръчно, а структурата им следва тази на анализите в Бултрибанк.
Корпуси с парламентарна реч от фаза 1 на проекта ParlaMint:
Корпусите като данни:
Многоезикови сравними корпуси от парламентарни сесии ParlaMint 1.0 в хранилището CLARIN.SI: http://hdl.handle.net/11356/1345 Корпусите за търсене чрез конкордансери:
NoSketch Engine: https://www.clarin.si/noske/index-en.html (Търсете: - ParlaMint-SI 1.0 (parliament: COVID) - ParlaMint-BG 1.0 (parliament: COVID) - ParlaMint-HR 1.0 (parliament: COVID) - ParlaMint-PL 1.0 (parliament: COVID)
Списък с непреходните глаголи в българския език
Моля при ползване на този ресурс да се посочва изрично линкът.
Честотен списък на българските глаголи
Списъкът е подреден по леми, но отразява честотата на всички синтетични словоформи на глагола.
Моля при ползване на този ресурс да се посочва изрично линкът.