
ИИКТ-БАН публикува три свои ресурса в каталога на ELRA
Български корпус със синтактични анализи (Бултрибанк)
ISLRN: 761-430-854-533-2
Бултрибанк се състои от 156 149 тоукъна (11 138 изречения), идващи от три основни източника: български граматики по синтаксис (1 391 изречения), вестници с новини (6 698 изречения) и други, сред които административни документи, Конституцията на Република България, закони, българска литература – българска и преводна (3 049 изречения). Корпусът се предоставя заедно със синтактична и морфологична анотация на изреченско равнище в представянето на инициативата за Универсалните зависимости.
Български корпус с анотирани събития и роли
ISLRN: 832-960-876-604-2
Българският корпус с анотирани събития и роли е съставен от 324 905 тоукъна. Ресурсът е подходящ за обучение на модул за разпознаване на имена, за свързване на имената от текста с енциклопедично знание и за разпознаване на събития за български език в сферата на хуманитаристиката. Текстовете включват документи от сферата на социалните и хуманитарните науки – научни статии, архивни документи, научнопопулярни статии и статии от Уикипедия в съответните области.
Български валентен речник
ISLRN: 188-702-981-369-5
Българският валентен речник се състои от 9547 глагола с валентни рамки. Ресурсът е в XML формат и има 960 съпоставяния с Принстънската мрежа от думи за английския език (Princeton WordNet). Речникът съдържа валентни рамки, извлечени от синтактиния корпус Бултрибанк. Тези рамки са прегледани ръчно, а структурата им следва тази на анализите в Бултрибанк.