HVG 2006. április 7.
A SZOFTVERES FORDÍTÁS NEHÉZSÉGEI
Mondd, mit ért el?
Kérdéses, hogy a nyelvek átültetésében a számítógép valaha is elérheti-e azt a szintet, mint a sakkban, vagyis képes lesz-e emberi szintű teljesítményre. Ma még inkább csak megértés- vagy fordítástámogatásról lehet beszélni.

Ajándék csónak ne nézd a lapát. Ennek a mondatnak a számítógépes fordítóprogram minden fenntartás nélkül ugyanúgy nekiesik, mint annak, hogy: Ajándék lónak ne nézd a fogát. A két fordítás közül az egyik persze értelmetlen lesz. Az ember pedig kétszer nevet: először a szóviccen, aztán a számítógépen. Utóbbi azonban méltánytalan: a gép nemcsak szépirodalom fordítására alkalmatlan, hanem már az iróniába vagy akár a pongyolaságokba is beletörik a bicskája.
Az időjárás-jelentések angol-francia fordítása a kevés siker egyike - mond példát Váradi Tamás, az MTA Nyelvtudományi Intézet osztályvezetője arra, hogy a gépnek akkor van könnyű dolga, amikor szűk szakterülettel, csekély szókinccsel, kiszámítható fordulatokkal kell megbirkóznia. Halácsy Péter, a Műegyetem Médiaoktató és Kutató Központjának tanársegédje a másik végletet vázolja föl. A „Nem akarok lefeküdni" válasz egészen mást jelent, ha gyereket küld fogat mosni az apja, és megint mást más élethelyzetben, ha például bokszoló reagál arra az edzői intelemre, hogy jobb lenne ezt a meccset elveszíteni. Emberi fejjel gondolkodva bármily egyszerűnek tűnik is az efféle - nem nyelvi, hanem kulturális - tudás, egyelőre mégsem lehet számítógépesíteni. Ehhez már mesterséges intelligencia kellene - mondja Váradi -, ez pedig már-már utópiának számít. A gépet ma még az is szinte leküzdhetetlen akadály elé állítja, hogy a „megmondtam neki" angol fordításához a hímnemet jelző „him" vagy a nőnemre utaló „her" névmást válassza. Azt pedig végképp nem tudja megállapítani, hogy az angolban azonos megszólításokat magyarul magázásnak vagy tegezésnek fordítsa-e.
Gépi fordítás helyett a szakemberek tehát szívesebben beszélnek megértés- vagy fordítástámogatásról. A meglévő szoftverek ma legfeljebb arra alkalmasak, hogy azok is valami képet nyerhessenek a világhálón olvasható szövegekről, akik nem tudják lefordítani maguknak az internet uralkodó nyelvét, az angolt. A gépi nyersfordítás a profiknak nem feltétlenül jelent segítséget, ha a kiköpött szöveg javítgatása több időbe telik, mint maga a fordítás. A hivatásosok egyelőre inkább másfajta támogatásra számítanak: a fordításmemóriákra, amelyek elraktározzák és gombnyomásra az új szövegbe illesztik az egyszer már lefordított mondatokat. Egy új nyomtató kezelési utasítása például nem sokban különbözik a régitől, az azonos mondatok automatikusan átemelhetők. Sajnos a szoftverek még ebben sem tökéletesek, és nem biztos, hogy fölismerik a hasonlóságot a „tegye be a patront" és a „helyezze be a patront" között - hoz példát Váradi. A fordításmemóriák nagy előnye ugyanakkor, hogy a tudás közös forrását jelentik, ennek jelentőségére jó példa az Európai Unió joganyaga, amelynek szövegében egységesen kell használni a kifejezéseket. Elvégre nem lenne jó, ha minden fordító kitalálna egy új megoldást.
A sokféle nevű és tudású fordítóprogramok alapjában kétféle módszert alkalmaznak. Az első, kézenfekvő megközelítés a számítógépek megjelenésével nagyjából egy időben, az 1950-es években alakult ki. A szabályalapú fordítás abból indult ki, hogy ha a két nyelv szavait, kifejezéseit és nyelvtani szabályait betáplálják, akkor a gép darabjaira szedi a forrásnyelv szövegét, majd szépen összerakja a célnyelv mondataivá. Később azzal is próbálkoztak, hogy egy közvetítő nyelv, afféle gépi eszperantó beiktatása révén soknyelvű fordítóprogramot hozzanak létre.
A módszerek másik csoportja statisztikai alapon dolgozik. Emberek által korábban lefordított szövegeket mindkét nyelven hatalmas mennyiségben a gépbe zúdítanak - erre valók a számítógépes szövegtárak, a korpuszok -, amely aztán minden kifejezést a szövegkörnyezettel együtt vizsgál, így tanulva meg, milyen összefüggésben szokott előfordulni, és megállapítja, hogy a szótárilag elvben lehetséges fordítások közül melyik a legvalószínűbb. A szabályalapú módszer pontosabb, de létrehozása sokkal több munkába kerül, és korlátja, hogy a szoftver csak azt tudja, amire kifejezetten megtanították. A számítógépes mondattárban a hasonlóságok alapján válogató statisztikai módszer egyszerűbb, kevésbé nyelvfüggő, de pontatlanabb. A mai fordítóprogramok igyekeznek a két módszerből és alfajaikból összerakni a legpraktikusabbnak tűnő megoldást.
Az aprólékos próbálgatás példájaként Prószéky Gábor, a nyelvi eszközöket fejlesztő MorphoLogic ügyvezető igazgatója a „kacsónak" szót hozza fel. A gép - ha nem ismerné - sok mindenre gondolhat: lehet, hogy a „kacsónak" úgy, ahogy van, magyar főnév, csak éppen hiányzik a szótárából. Lehet, hogy a „kacsóna" többes számáról van szó, netán a „kacsni" ige melléknévi igenevének részes esetéről, vagy éppen a „ka" és a „csónak" főnevekből összetett szóról. Ha elég jó az alapszótár, ha elég alaposan betáplálták a mondattan, a ragozás, a szóképzés szabályait, no meg ha a gép olyan felismerésekre jut, hogy például semmilyen szövegben nem talál sem „ka" főnevet, sem „kacsni" igét, akkor előbb-utóbb rájön, hogy csakis a „kacsó" részes esetével kerülhetett szembe.
A gép viszont minden eshetőségre felkészül. Ha egy magyar szó úgy kezdődik, hogy leg-, akkor a komputer arra is gondol, hogy felsőfokú melléknév következik. Aztán ha „legelő" vagy „legott" lesz belőle, elveti a használhatatlan feltételezést. Ha azt olvassa, hogy „dob", akkor a főnév és az ige egyaránt felrémlik előtte, és elő is készíti az ezekhez tartozó vonzatokat, szókapcsolatokat. A „dobbal" vagy „dobta" hatására szűkül a választék, de ha „dobok" lesz belőle, továbbra is mindkettőre gondol, és lehet, hogy csak a mondat végén tisztázódik a helyzet. (A gépi találgatáshoz hasonló elven működik az újabb mobiltelefonokon az úgynevezett prediktív szövegbevitel, amely minden egyes billentyű leütése után megpróbálja kitalálni, milyen szót készül bepötyögni a gazdája.) A fordítószoftverek e módszere azért is említésre méltó, mert bár létrehozóiknak egyáltalán nem az emberi gondolkodás utánzása volt a céljuk, Prószéky érdekesnek tartja, hogy újabb pszicholingvisztikai kutatások szerint az ember is hasonló tömbök rakosgatásával értelmezi a mondatokat - sőt félreértéseknek vagy szóvicceknek is olykor az az alapjuk, hogy egy szó vagy mondat másképp folytatódik, mint amire az előzmények alapján számítottunk.
Emberi segítséggel mindenképpen jobban boldogul a gép. Az egyik magyar program, a Dativus használati utasítása szerint „ha a szóhasználati beállításunk »általános«, akkor a fordításban a »walkers« mint »gyalogosok« szerepel. Ugyanezen szó jelentése, ha a beállítás »orvostudományi«, akkor »járógép«, »természettudományi« beállításnál pedig »lépegető madár«". Váradi szerint viszont alkalmas kulcsszavak alapján ma már elég jól megvalósítható a szövegek automatikus osztályozása is. Ha például néhányszor előfordul a „védőoltás" szó, alighanem orvosi, nem pedig várostervezési szöveg került a számítógépbe. Igaz, a nem éppen szakszónak számító igék többértelműségével a gép ez esetben sem birkózik meg könnyen.
Magyarra (és a többi toldalékoló nyelvre) a számítógépet másképp kell megtanítani. Az angolban eleinte nagy volt a kísértés - idézi fel Prószéky -, hogy egyszerűen minden szóalakot betápláljanak (főneveknél kettő is elég volt, mint például cat és cats), ám magyarul reménytelennek bizonyult a végtelennek tűnő macska, macskák, macskát, macskával, macskától és így tovább sorozat. A „macska + nyelvtani információ" típusú elemzésre az angolban nemigen van szükség, a magyarban viszont ez válik be. Arról a különbségről nem is beszélve, hogy a gépnek a mondatok szintjén is könnyebb dolga van az alany, állítmány, tárgy sorrendben dolgozó angollal, mint a magyarral, amelyben a kötetlen szórend miatt a gép kevésbé sejtheti előre, mire számítson.
Talán nem zárható ki, hogy a gép előbb-utóbb a fordításban is eléri az emberi teljesítmény szintjét, legalábbis a mesterséges intelligencia kutatásában gyakran idézett Turing-teszt értelmében. Vagyis úgy, hogy a fordítás, ha nem lesz is feltűnően magas színvonalú, de nem tér el majd jelentősen egy átlagos emberi fordítástól. Váradi szerint a fő problémát az jelenti, hogy a sakkjátékhoz képest a mondatok száma egy párbeszédben vagy egy szövegben elvben végtelen, összefüggéseik pedig bonyolultak. Más szóval: az összes sakklépés kiszámítása csak a gép teljesítőképességétől függ, de „az összes magyar mondat" még elvileg sem gyűjthető össze.
Pár ezer hindi, thai vagy egyéb egzotikus mondattal jól elboldogul az amerikai hadsereg „fordítógépe", amelyet azonban a fenti elméleti megfontolások után csak idézőjelben lehet így nevezni. A zenelejátszóhoz hasonló készülék előre rögzített mondatokat ad ki magából idegen nyelven, miután amerikai használója a képernyőn kiválasztotta, vagy éppen saját hangján bemondta, mire gondol. A hangos szótárgép aligha alkalmas az „azonnal dobja el a fegyvert" kezdetű párbeszédek hatékony intézésére, de tényleg helyettesítheti a tolmácsot sebesültek ellátásakor vagy mentési munkálatok közben. Meglehetősen kezdeti stádiumban van viszont az a japán szerkentyű, amely három szoftvert tartalmaz: beszédfelismerést, oda-vissza angol fordítást és hangképzést. A HVG által megkérdezett magyar szakértők szkeptikusak: a gépi fordítás említett nehézségeit a gyerekcipőben járó beszédfelismerés csak fokozza, a beszélő tolmácsgépek belátható időn belül nem vehetik fel a versenyt az emberrel.

„Ütközés a délszaki mosónőn van"

„A Herz-féle szalámiban / Sokkal sűrűbb a só, / Mint más hasonló terményekben, / Hidd el, ó nyájas olvasó!" A félrefordítás e mindmáig felülmúlhatatlan klasszikusa Karinthy Frigyestől való. Az Így írtok ti egyik paródiájában valaki egy Ady-verset ültet át német nyelvre, az általa közreadott változatot egy másik, bakizásra szintén hajlamos műfordító visszamagyarítja, s így tovább. A Karinthy-műben szereplő kiindulópontnál jobbat mi sem választhattunk volna a magyar piacon hozzáférhető két (angol nyelvet ismerő) fordítóprogram kipróbálására:
Jöttem a Gangesz partjairól,
hol álmodoztam déli verőn.
A szívem egy nagy harangvirág,
s finom remegések az erőm.

Tekintettel a komputerek gyengéire, a versszakot mai helyesírással és a fenti, egyszerűsített központozással tápláltuk be. Mivel a Morphologic magyar-angol változata az év végére lesz készen, a magyar szöveget csak a Dativusra bízhattuk, amely ezt hozta ki:
I came from shores of the Ganges,
where I daydreamed on southern
washerwoman's beater.
My heart is a large harebell,
and fine trembles are my bodily strength.

Az ütő és a verő közötti különbségre a gép nem érzett rá, ráadásul a szótárból az efféle szerszámok közül pont a mosáshoz régen használatos sulykot választotta, és túl is magyarázta. A délből napszak helyett égtáj lett, és a fölöslegesen beiktatott mosónőtől sem szabadul meg többé a költemény. Íme a Morphologic visszamagyarítása:
A Ganges partjairól származtam,
hol álmodoztam a déli mosónő ütőjén.
A szívem van egy nagy *harebell(),
és a jó remegések a testi erőim.

A program a „harebell" szóval nem tudott megbirkózni, kénytelenek vagyunk besegíteni neki. A további fordulók során az eredeti változatban szereplő „verő" „ütőhangszereszközzé", később „ütközéssé" változik. A dél viszont következetesen égtáj marad. A programok végül saját csapdájukba esnek: ha már korábban „testi erőnek" fordították az erőt, következetesnek kellett maradniuk, és máris itt az újabb karinthyáda: maga mindent kétszer mond, kétszer mond... A hatodik oda-vissza fordítás végén a Dativus „tollából" ezt olvashattuk:
Gangeszekből származtam,
egyadik az ő partja, az,
hol ébren álmodtam, ütközés
a délszaki mosónőn van.
Irántam egy nagy harangvirág
az én szívem itt,
és a jó remegés, az enyém vagy,
az én testim testi.

Karinthy az ő Herz szalámijával verhetetlennek bizonyult. A tudomány mai állása szerint a gép nemcsak fordításban, hanem félrefordításban sem képes felülmúlni az embert.