Rozšířená textová koreference a asociační anafora
V této práci představujeme jeden z možných modelů zpracovaní rozšířené textové koreference a asociační anafory na velkém korpusu textů, který dále používáme pro anotaci daných vztahů v textech…
Specifikacia Rozšířená textová koreference a asociační anafora
V této práci představujeme jeden z možných modelů zpracovaní rozšířené textové koreference a asociační anafory na velkém korpusu textů, který dále používáme pro anotaci daných vztahů v textech Pražského závislostního korpusu. Na základě literatury z oblasti teorie reference, diskurzu a některých dalších poznatků teoretické lingvistiky na jedné straně a s použitím existujících anotačních metodik na straně druhé jsme vytvořili detailní klasifikaci textově koreferenčních vztahů a typů vztahů asociační anafory. V rámci textové koreference rozlišujeme dva typy textově koreferenčních vztahů koreferenční vztah mezi jmennými frázemi se specifickou referencí a koreferenční vztah mezi jmennými frázemi s nespecifickou, především generickou referencí. Pro asociační anaforu jsme stanovili šest typů vztahů vztah PART mezi částí a celkem, vztah SUBSET mezi množinou a podmnožinouprvkem množiny, vztah FUNCT mezi entitou a určitým objektem, který má vzhledem k této entitě jedinečnou funkci, vztah CONTRAST vyjadřující sémantický a kontextový protiklad, vztah ANAF označující anaforické odkazování mezi nekoreferenčními entitami a vztah REST pro jiné případy asociační anafory. Jedním z úkolů výzkumu bylo vytvořit systém teoretických principů, které je nutno dodržovat při anotaci koreferenčních vztahů a asociační anafory. V rámci tohoto systému byl zaveden například princip důslednosti anotace, princip dodržování maximálního koreferenčního řetězce, princip kooperace se syntaktickou strukturou tektogramatické roviny, princip preference koreferenčního vztahu před asociační anaforou a další. Vypracovanou klasifikaci jsme aplikovali na koreferenční a anaforické vztahy v Pražském závislostním korpusu Prague Dependency Treebank, PDT. Anotace těchto vztahů byla provedena na polovině korpusu PDT cca 25 tis. vět. Srovnání shody mezi anotátory při navazování vztahů a určování typů těchto vztahů ukázalo, že použitá klasifikace při daném rozsahu materiálu je spolehlivá zejména pro účely teoretického výzkumu pro počítačové aplikační účely strojový překlad, automatické učení atd. je nutné rozšíření materiálové základny