MTA Nyelvtudományi Intézet Finnugor és nyelvtörténeti osztály

Department of Finno-Ugric and Historical Lingustics, RIL HAS

  • A betűméret növelése
  • Alapértelmezett betűméret
  • A betűméret csökkentése
Home Pályázatok / Competitions Befejezett / Completed OTKA K 60807: A nganaszan nyelv számítógépes morfológiai elemzése

OTKA K 60807: A nganaszan nyelv számítógépes morfológiai elemzése

E-mail Nyomtatás PDF


OTKA száma: K 60807
Kezdő év: 2006
Záró év: 2009
A projekt vezető kutatója: Wagner-Nagy Beáta, távollétében 2008 novemberétől Várnai Zsuzsa a megbízott vezető kutató

A jelen pályázatban résztvevők:

  • Novák Attila,
  • Szeverényi Sándor,
  • Várnai Zsuzsa,
  • Wagner-Nagy Beáta

A MTA Nyelvtudományi Intézetének konzorciumi vezetésével egy NKFP pályázat (2001/5/135: Komplex uráli nyelvészeti adatbázis) keretében 2001 és 2005 között kilenc uráli nyelvre kíséreltek meg több-kevesebb sikerrel számítógépes morfológiai elemzőprogramot alkotni egységes szempontok alapján. A nganaszan nyelv – mely az uráli nyelvek között az egyik legveszélyeztetettebb (alig ötszázan beszélik), és a legkevésbé kutatottak egyike – szintén bekerült a vizsgált nyelvek közé.

A nganaszan szóalaktani elemzőprogram jelentősége és fontossága nemcsak abban rejlik, hogy különböző nganaszan szövegek gyors és automatikus morfológiai elemzését teszi lehetővé, így olyan kutatók számára is hozzáférhetővé teszi ezt a különleges nyelvet, akik egyébként korábban nem foglalkoztak vele, hanem elsődlegesen abban, hogy a program rávilágít a nganaszan nyelv fonológiájáról és morfológiájáról jelenleg rendelkezésre álló leírások olyan ellentmondásaira, ill. hiányosságaira, amelyek korábban nem voltak ismertek. Míg a nganaszan morfofonológia nyelvészeti modelljeinek a pontosság és a teljesség szempontjából való vizsgálata a nyelv rendkívüli bonyolultsága miatt emberi erővel szinte lehetetlen feladat, a program lehetővé teszi, hogy nagyon részletesen teszteljük a nyelvtan adekvátságát.
A projekt célja, hogy az elemzőprogram fejlesztésével, a hiányos és ellentmondásos adatok, paradigmák tisztázásával, újabb szövegek, hangzóanyagok terepen történő gyűjtésével a nganaszan teljes fonológiai és morfológiai leírását adhassuk, hogy minél pontosabb leírás maradjon fent erről a kihalás szélén álló, különleges kis nyelvről.

A kutatás eredményei:

  1. online nganaszan morfológiai elemző program és adatbázis.
  2. megelemzett és egyértelműsített szövegek
  3. szövegygyűjtemény: 58 szöveg magyar fordítással
  4. Az elemzőprogram fejlesztésével, a programírás során felmerült (morfo)fonológiai problémák megoldása, valamint a terepen gyűjtött anyagok és tapasztalatok révén a nganaszan nyelv korábbiaknál sokkal alaposabb és korszerűbb leírását adjuk egy modern szemléletű monografikus feldolgozás keretében.
  5. A gyűjtött nyelvi anyag révén pontosabb képet kapunk a nganaszan beszélt nyelvről, a mindennapok szókincséről (az eddig lejegyzett szövegek túlnyomó része folklór-, illetve szakrális szöveg), amely további lexikológiai, etimológiai kutatásokat tesz majd lehetővé.

Az OTKA projekt munkaterve

1. év
Az első év legfontosabb feladata az NKFP-pályázat keretében elkészült Nganaszan Morfológiai Elemző tesztelése. Ennek során kiszűrhetők a homonim alakok, a tisztázatlan fonológiai, morfofonológiai problémák, a ragozási paradigmák esetleges ellentmondásai. További feladat ragozási paradigmák géppel történő generálása és ellenőrzése, e folyamat során számos ellentmondásos eset kerül majd a felszínre. A ragozási paradigmák kigenerálásához létre kell hozni a megfelelő szóalak-generátort és erre alapozva a különböző szófajokhoz egy-egy paradigmagenerátort. Célszerű egy olyan programot létrehozni, amely a nyomtatásban megjelent és gépre vitt paradigmákkal automatikusan összeveti a programban implementált nyelvtan által generált paradigmákat, és az eltérésekre automatikusan felhívja a figyelmet. Ezek alapján tudjuk finomítani a fonológiai szabályokat, valamint összegyűjteni a terepmunka során tisztázandó kérdéseket, illetve javítani és közzétenni a nyomtatott paradigmákban előforduló esetleges hibákat.

E munkával párhuzamosan történik további nganaszan nyelvű szövegek begépelése. Ennek nehézsége abban rejlik, hogy e szövegek cirill betűs, általában fonetikai lejegyzésűek, az elemzőn ugyanakkor latin betűs, fonologikus lejegyzésű szövegek futtathatók. A feldolgozandó szövegek közül kiemelkedik Labanauskas 2001-es munkája, amely mintegy kétszáz oldalnyi nganaszan szöveget tartalmaz. E munkát – a fonologikus átírás nehézségei miatt – csak a nganaszan nyelvet alaposan ismerő kutató tudja nagy biztonsággal, s minimális hibaszázalékkal elvégezni. Tervezzük újabb nyomtatásban megjelent szövegek felkutatását, beszerzését.

Az így begépelt szövegek alapján lehet bővíteni az elemző szótári részét, ezzel párhuzamosan felszínre kerülnek majd bizonytalan jelentésű szavak, melyek egyértelműsítése szintén a terepmunka során elvégzendő feladatok közé tartozik.

Az elemző tesztelése és a szövegek begépelése során felmerült kérdések és problémák alapján állítjuk össze a terepmunkához szükséges kérdőíveket. A gépen implementált nyelvtan kérdéses paramétereinek különböző beállításai mellett géppel generálnánk olyan lehetséges szóalakokat, amelyeket a terepmunka során az anyanyelvi beszélőkkel kiértékeltetve egyértelműen következtetni lehet majd a kérdéses paraméterek helyes értékére.

2. év
A második évben folytatódik a szövegek begépelése és a kérdőív összeállítása, véglegesítése. Az első évben összegyűlt kérdések mellett ritkán adatolt morfológiai jelenségekre is gyűjtenénk adatokat (pl. prohibitív módú igealakok, bizonyos ritka tagadó szerkezetek, birtokos személyragos szerkezetek predikatív ragozása, predikatív szerepű főnév melléknévi jelzőjének morfológiai viselkedése, stb.). Az elemző által produkált esetleges hamis túlelemzések csökkentése érdekében – és hogy a nganaszan nyelvtan ezen komponensét is pontosabban leírjuk – fel kell tárnunk a nyelvre jellemző esetleges eddig le nem írt morfotaktikai megszorításokat, különös tekintettel a képzők együttes előfordulására vonatkozó megszorításokra.

Folyamatosan tartjuk a kapcsolatot a másik két kiemelkedő a nganaszan nyelvvel foglalkozó kutatóhellyel: Hamburgban Eugen Helimski professzorral, Moszkvában Valentin Guszevvel, az interneten szabadon hozzáférhető nganaszan hangos szótár szerkesztőjével. Ez utóbbi kapcsolat fenntartásában nagy segítségünkre van az MTA és az orosz akadémia között 2005–2007 évekre szóló együttműködési szerződés, melyben a szamojédológia
kiemelt szerepet kapott. A terepmunka előkészítése során számítunk a fent nevezett kollegákkal való konzultációra is.

A második évben kerül sor az első terepmunkára, amely egyfelől a kérdőívek több adatközlővel való együttműködés során való lekérdezését jelenti, másfelől reményeink szerint sikerül újabb szövegeket is gyűjtenünk. A szöveggyűjtés során a hétköznapi élet szövegeire koncentrálunk.
Megkezdődik a kérdőívek és a gyűjtött szövegek feldolgozása.

3. év
Ebben az évben több munkafolyamat zajlana párhuzamosan: a projektben résztvevő kutatók feladata ebben az évben az újonnan beszerzett források begépelése és a gyűjtött nyelvi anyag feldolgozása, valamint a terepmunka tapasztalatai alapján a morfofonológia szabályok pontosítása. A projektben résztvevő informatikus-nyelvész a pontosított szabályokat beépíti a programba, valamint teszteli a program elkészült részeit. Feltételezhető, hogy a tesztelés során újabb kérdések merülnek fel, amiket a második terepmunka során tudunk tisztázni.

A terepmunka során gyűjtött és feldolgozott szövegek alapján a program szótári részét tovább bővítjük.

4. év
A második terepmunka során gyűjtött anyag értékelése, feldolgozása. Az elemző program véglegesítése. Reményeink szerint ez a munka előkészíti a nganaszan nyelvtan monografikus feldolgozását.

Módosítás dátuma: 2010. július 15. csütörtök, 12:56