Tvorba korpusů a vytěžování jazykových dat metody modely nástroje
Tvorba korpusů a vytěžování jazykových dat metody modely nástroje Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat efektivního vytěžování dat a prezentuje…
Specifikacia Tvorba korpusů a vytěžování jazykových dat metody modely nástroje
Tvorba korpusů a vytěžování jazykových dat metody modely nástroje
Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat efektivního vytěžování dat a prezentuje možnosti a prostředky jak sestavit vlastní textovou databázi jazykový korpus Nejprve se věnujeme základům dotazovacího jazyka CQL a vysvětlujeme elementární principy vytěžování korpusových dat Prostor je věnován i základním metodám kvantitativního vyhodnocování korpusových dat mezi něž nesporně patří vytváření frekvenčních seznamů či zkoumání kolokací a koligací prostřednictvím nejznámějších statistických testů zejm MI score t score Log Likelihood Chi squared Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů jmenovitě zejm na formát dat a kódování znaků segmentaci textu využití značkovacího jazyka XML pro korpusovou anotaci atd Tato témata jimž se věnujeme jak z teoretického pohledu tak na praktických ukázkách patří mezi klíčová pokud jde o přípravu a zpracování korpusové databáze Zároveň představují nejen fundament pro tvorbu korpusů ale i pro pokročilejší práci s regulárními výrazy a jazykem CQL především pokud jde o komplexní využití prostředků CQL a vytváření složitějších vyhledávacích masek V této souvislosti ilustrujeme na konkrétních příkladech i možnou variantnost zápisu CQL dotazů tedy jev kdy jeden dotaz lze v CQL zapsat více způsoby a tematizujeme možné přegenerovávání overgeneration komplexních strukturovaných vzorů Prezentujeme ale i alternativní možnosti a prostředky tvorby korpusových dotazů – např použití rozšířených sad regulárních výrazů PCRE a POSIX metavýrazů Zásadní je pasáž o korpusových formátech a značkovacím jazyce XML Extensible Markup Language jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází Představeny jsou prostředky a pravidla tvorby základy syntaxe XML dokumentů i možnosti pro anotaci korpusových textů v různých formátech Snažíme se ukázat principiální souvislosti XML a CQL tedy souvislost mezi XML formátem způsobem anotace databáze a formátem vyhledávacích masek CQL vč užití tzv proximitních operátorů Prezentujeme rovněž vybrané softwarové nástroje pro vytěžování korpusových dat od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje Zaměřujeme se zde převážně na práci s lingvisticky neanotovanými texty a ukazujeme možnosti relativně jednoduché tvorby malých korpusů i způsobů jejich vytěžování Podáváme přitom vždy stručnou charakteristiku nástroje jeho funkcí příp implementovaného dotazovacího jazyka Popisujeme též rozšířené funkce některých konkordančních nástrojů zejm AntConc a Xaira např možnost tvorby seznamu lemmat lemma listů zobrazení disperze výrazů v textech použití statistických testů k vyhledávání kolokátů či koligací detekce tematických slov apod Technicky nejnáročnějšími pasážemi monografie jsou kapitoly jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů a zabývají se rovněž tvorbou korpusu v systému Manatee Bonito Postupně jsou představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků konců řádků i souborového formátu segmentace či tokenizace textu jeho zpracování do některého z korpusových formátů např do tzv vertikály proces anotace různého typu a rozsahu zejm lemmatizace a taggování Součástí těchto technických pasáží jsou i základy práce s příkazovým řádkem neboť počítačové skripty je nutno kvůli absenci grafického uživatelského rozhraní spouštět právě zápisem příkazem s různými parametry z příkazového řádku operačního systému Zároveň demonstrujeme i využití příkazového řádku pro některé základní korpusové operace jako je vyhledávání klíčových slov tj generování konkordancí tvorba frekvenčních či abecedních seznamů ad možností a to vše přímo ze zdrojových textů bez nutnosti importu textů do korpusových softwarových nástrojů Doplňkem této monografie je webové úložiště http: corpus upol cz tvorba korpusu kde uživatelé tohoto textu naleznou celou řadu materiálů: instalační soubory softwarových nástrojů či počítačové skripty s nimiž v textu pracujeme ale i úryvky zdrojových textů či příkladů z textu