Definícia disambiguácie v jazykových štúdiách

In lingvistika, disambiguácia je proces určenia, ktorý zmysel a slovo sa používa v konkrétnom kontext. Tiež známy ako lexikálna jednoznačnosť.

Vo výpočtovej lingvistike sa tento diskriminačný proces nazýva zjednoznačnenie slovného významu (WSD).

Príklady a postrehy

„Stáva sa, že náš komunikácia, v rôznych jazykoch umožňuje, aby sa rovnaký tvar slova používal na označenie rôznych vecí v jednotlivých komunikačných transakciách. Dôsledkom je, že v konkrétnej transakcii je potrebné zistiť zamýšľaný význam daného slova medzi jeho potenciálne pridruženými zmyslami. Kým nejasnosti vznikajúce z takýchto viacnásobných tvarovo-významových asociácií sú pri lexikálny úrovni, musia byť často riešené pomocou širšieho kontextu z diskurz vkladanie slova. Preto by sa rôzne významy slova „služba“ dali odlíšiť len vtedy, ak by sa dalo pozerať za samotné slovo, ako je to v kontraste „ hráčska služba vo Wimbledone“ s „servisom čašníka v Sheratone“. Tento proces identifikácie významov slov v diskurze je všeobecne známy ako

instagram viewer

zmysel slova jednoznačnosť (WSD).“ (Oi Yee Kwong, Nové perspektívy výpočtových a kognitívnych stratégií pre disambiguáciu slovného významu. Springer, 2013)

Lexical Disambiguation a Word-Sense Disambiguation (WSD)

„Lexikálne jednoznačnosť vo svojej najširšej definícii nie je nič menšie ako určovanie významu každého slova v kontexte, čo sa javí ako do značnej miery nevedomý proces u ľudí. Ako výpočtový problém sa často opisuje ako „AI-complete“, teda problém, ktorého riešenie predpokladá úplné riešenie. prirodzený jazyk porozumenie alebo uvažovanie podľa zdravého rozumu (Ide a Véronis 1998).

„V oblasti počítačovej lingvistiky sa problém vo všeobecnosti nazýva slovný význam disambiguácie (WSD) a je definovaný ako problém výpočtového určenia, ktorý „zmysel“ slova sa aktivuje použitím slova v konkrétnom kontext. WSD je v podstate úlohou klasifikácie: slovné zmysly sú triedy, ktoré poskytuje kontext dôkaz a každý výskyt slova je zaradený do jednej alebo viacerých jeho možných tried na základe dôkazy. Toto je tradičná a bežná charakteristika WSD, ktorá ho vidí ako explicitný proces jednoznačnosti s ohľadom na pevný inventár významov slov. Predpokladá sa, že slová majú konečný a diskrétny súbor zmyslov z a slovník, lexikálna znalostná báza alebo ontológia (v druhej zmysly zodpovedajú pojmom, ktoré slovo lexikalizuje). Môžu sa použiť aj inventáre špecifické pre aplikáciu. Napríklad v prostredí strojového prekladu (MT) možno preklady slov považovať za významy slov, an prístup, ktorý sa stáva čoraz uskutočniteľnejším z dôvodu dostupnosti veľkého množstva jazykov paralelný korpusy ktoré môžu slúžiť ako tréningové dáta. Pevný inventár tradičného WSD znižuje zložitosť problému, existujú však alternatívne polia.. ..“ (Eneko Agirre a Philip Edmonds, „Úvod“. Zjednoznačnenie zmyslu slov: Algoritmy a aplikácie. Springer, 2007)

Homonymia a disambiguácia

„Lexikálne jednoznačnosť je vhodný najmä pre prípady homonymienapríklad výskyt BAS musia byť namapované na niektorú z lexikálnych jednotiek bas₁ alebo basy₂v závislosti od zamýšľaného významu.

„Lexikálna disambiguácia znamená kognitívnu voľbu a je úlohou, ktorá brzdí procesy porozumenia. Treba ho odlíšiť od procesov, ktoré vedú k diferenciácii slovných zmyslov. Prvá úloha je splnená pomerne spoľahlivo aj bez veľkého množstva kontextových informácií, zatiaľ čo tá druhá nie (porov. Veronis 1998, 2001). Ukázalo sa tiež, že homonymné slová, ktoré vyžadujú jednoznačnosť, spomaľujú lexikálny prístup, zatiaľ čo polysémické slová, ktoré aktivujú množstvo slovných zmyslov, urýchľujú lexikálny prístup (Rodd e.a. 2002).

„Avšak produktívna modifikácia sémantických hodnôt, ako aj priama voľba medzi lexikálne odlišnými položkami spoločné je, že vyžadujú ďalšie nelexikálne informácie." (Peter Bosch, "Produktivita, polysémia a predikátová indexikálita." Logika, jazyk a počítanie: 6. medzinárodné tbiliské sympózium o logike, jazyku a počítání, vyd. od Baldera D. desať Cate a Henk W. Zeevat. Springer, 2007)

Disambiguácia lexikálnej kategórie a princíp pravdepodobnosti

„Corley a Crocker (2000) predstavujú model širokého pokrytia lexikálnej kategóriejednoznačnosť založený na Princíp pravdepodobnosti. Konkrétne navrhujú, že pre vetu pozostávajúcu zo slov w₀... w_n, spracovateľ viet osvojuje najpravdepodobnejšie časť reči sekvencie t₀... t_n. Presnejšie povedané, ich model využíva dve jednoduché pravdepodobnosti: (i) podmienená pravdepodobnosť slova w_i daný konkrétny slovný druh t_ia (ii) pravdepodobnosť t_i vzhľadom na predchádzajúcu časť reči t_i-1. Keď sa stretne s každým slovom vety, systém mu priradí príslušnú časť reči t_i, čo maximalizuje súčin týchto dvoch pravdepodobností. Tento model využíva poznatky, ktoré mnohí syntaktický nejednoznačnosti majú lexikálny základ (MacDonald et al., 1994), ako v (3):

(3) Skladové ceny/značky sú lacnejšie ako ostatné.

„Tieto vety sú dočasne nejednoznačné medzi čítaním, v ktorom ceny alebo robí je hlavné sloveso alebo časť a zložené podstatné meno. Po trénovaní na veľkom korpuse model predpovedá najpravdepodobnejšiu časť reči pre ceny, správne zohľadňujúc skutočnosť, že ľudia rozumejú cena ako podstatné meno ale robí ako sloveso (pozri Crocker & Corley, 2002 a tam citované odkazy). Nielenže model zodpovedá za celý rad disambiguačných preferencií zakorenených v lexikálnej kategórii nejednoznačnosti, to tiež vysvetľuje, prečo sú ľudia vo všeobecnosti pri riešení takýchto nejasností veľmi presní.“ (Matthew W. Crocker, "Rational Models of Comprehension: Addressing the Performance Paradox." Psycholingvistika 21. storočia: štyri základné kamene, vyd. od Anne Cutlerovej. Lawrence Erlbaum, 2005)