Ajándék csónak ne nézd a lapát. Ennek a mondatnak a számítógépes fordítóprogram
minden fenntartás nélkül ugyanúgy nekiesik, mint annak, hogy: Ajándék
lónak ne nézd a fogát. A két fordítás közül az egyik persze értelmetlen
lesz. Az ember pedig kétszer nevet: először a szóviccen, aztán a számítógépen.
Utóbbi azonban méltánytalan: a gép nemcsak szépirodalom fordítására alkalmatlan,
hanem már az iróniába vagy akár a pongyolaságokba is beletörik a bicskája.
Az időjárás-jelentések angol-francia fordítása a kevés siker egyike -
mond példát Váradi Tamás, az MTA Nyelvtudományi Intézet osztályvezetője
arra, hogy a gépnek akkor van könnyű dolga, amikor szűk szakterülettel,
csekély szókinccsel, kiszámítható fordulatokkal kell megbirkóznia. Halácsy
Péter, a Műegyetem Médiaoktató és Kutató Központjának tanársegédje a másik
végletet vázolja föl. A „Nem akarok lefeküdni" válasz egészen mást
jelent, ha gyereket küld fogat mosni az apja, és megint mást más élethelyzetben,
ha például bokszoló reagál arra az edzői intelemre, hogy jobb lenne ezt
a meccset elveszíteni. Emberi fejjel gondolkodva bármily egyszerűnek tűnik
is az efféle - nem nyelvi, hanem kulturális - tudás, egyelőre mégsem lehet
számítógépesíteni. Ehhez már mesterséges intelligencia kellene - mondja
Váradi -, ez pedig már-már utópiának számít. A gépet ma még az is szinte
leküzdhetetlen akadály elé állítja, hogy a „megmondtam neki" angol
fordításához a hímnemet jelző „him" vagy a nőnemre utaló „her"
névmást válassza. Azt pedig végképp nem tudja megállapítani, hogy az angolban
azonos megszólításokat magyarul magázásnak vagy tegezésnek fordítsa-e.
Gépi fordítás helyett a szakemberek tehát szívesebben beszélnek megértés-
vagy fordítástámogatásról. A meglévő szoftverek ma legfeljebb arra alkalmasak,
hogy azok is valami képet nyerhessenek a világhálón olvasható szövegekről,
akik nem tudják lefordítani maguknak az internet uralkodó nyelvét, az
angolt. A gépi nyersfordítás a profiknak nem feltétlenül jelent segítséget,
ha a kiköpött szöveg javítgatása több időbe telik, mint maga a fordítás.
A hivatásosok egyelőre inkább másfajta támogatásra számítanak: a fordításmemóriákra,
amelyek elraktározzák és gombnyomásra az új szövegbe illesztik az egyszer
már lefordított mondatokat. Egy új nyomtató kezelési utasítása például
nem sokban különbözik a régitől, az azonos mondatok automatikusan átemelhetők.
Sajnos a szoftverek még ebben sem tökéletesek, és nem biztos, hogy fölismerik
a hasonlóságot a „tegye be a patront" és a „helyezze be a patront"
között - hoz példát Váradi. A fordításmemóriák nagy előnye ugyanakkor,
hogy a tudás közös forrását jelentik, ennek jelentőségére jó példa az
Európai Unió joganyaga, amelynek szövegében egységesen kell használni
a kifejezéseket. Elvégre nem lenne jó, ha minden fordító kitalálna egy
új megoldást.
A sokféle nevű és tudású fordítóprogramok alapjában kétféle módszert alkalmaznak.
Az első, kézenfekvő megközelítés a számítógépek megjelenésével nagyjából
egy időben, az 1950-es években alakult ki. A szabályalapú fordítás abból
indult ki, hogy ha a két nyelv szavait, kifejezéseit és nyelvtani szabályait
betáplálják, akkor a gép darabjaira szedi a forrásnyelv szövegét, majd
szépen összerakja a célnyelv mondataivá. Később azzal is próbálkoztak,
hogy egy közvetítő nyelv, afféle gépi eszperantó beiktatása révén soknyelvű
fordítóprogramot hozzanak létre.
A módszerek másik csoportja statisztikai alapon dolgozik. Emberek által
korábban lefordított szövegeket mindkét nyelven hatalmas mennyiségben
a gépbe zúdítanak - erre valók a számítógépes szövegtárak, a korpuszok
-, amely aztán minden kifejezést a szövegkörnyezettel együtt vizsgál,
így tanulva meg, milyen összefüggésben szokott előfordulni, és megállapítja,
hogy a szótárilag elvben lehetséges fordítások közül melyik a legvalószínűbb.
A szabályalapú módszer pontosabb, de létrehozása sokkal több munkába kerül,
és korlátja, hogy a szoftver csak azt tudja, amire kifejezetten megtanították.
A számítógépes mondattárban a hasonlóságok alapján válogató statisztikai
módszer egyszerűbb, kevésbé nyelvfüggő, de pontatlanabb. A mai fordítóprogramok
igyekeznek a két módszerből és alfajaikból összerakni a legpraktikusabbnak
tűnő megoldást.
Az aprólékos próbálgatás példájaként Prószéky Gábor, a nyelvi eszközöket
fejlesztő MorphoLogic ügyvezető igazgatója a „kacsónak" szót hozza
fel. A gép - ha nem ismerné - sok mindenre gondolhat: lehet, hogy a „kacsónak"
úgy, ahogy van, magyar főnév, csak éppen hiányzik a szótárából. Lehet,
hogy a „kacsóna" többes számáról van szó, netán a „kacsni" ige
melléknévi igenevének részes esetéről, vagy éppen a „ka" és a „csónak"
főnevekből összetett szóról. Ha elég jó az alapszótár, ha elég alaposan
betáplálták a mondattan, a ragozás, a szóképzés szabályait, no meg ha
a gép olyan felismerésekre jut, hogy például semmilyen szövegben nem talál
sem „ka" főnevet, sem „kacsni" igét, akkor előbb-utóbb rájön,
hogy csakis a „kacsó" részes esetével kerülhetett szembe.
A gép viszont minden eshetőségre felkészül. Ha egy magyar szó úgy kezdődik,
hogy leg-, akkor a komputer arra is gondol, hogy felsőfokú melléknév következik.
Aztán ha „legelő" vagy „legott" lesz belőle, elveti a használhatatlan
feltételezést. Ha azt olvassa, hogy „dob", akkor a főnév és az ige
egyaránt felrémlik előtte, és elő is készíti az ezekhez tartozó vonzatokat,
szókapcsolatokat. A „dobbal" vagy „dobta" hatására szűkül a
választék, de ha „dobok" lesz belőle, továbbra is mindkettőre gondol,
és lehet, hogy csak a mondat végén tisztázódik a helyzet. (A gépi találgatáshoz
hasonló elven működik az újabb mobiltelefonokon az úgynevezett prediktív
szövegbevitel, amely minden egyes billentyű leütése után megpróbálja kitalálni,
milyen szót készül bepötyögni a gazdája.) A fordítószoftverek e módszere
azért is említésre méltó, mert bár létrehozóiknak egyáltalán nem az emberi
gondolkodás utánzása volt a céljuk, Prószéky érdekesnek tartja, hogy újabb
pszicholingvisztikai kutatások szerint az ember is hasonló tömbök rakosgatásával
értelmezi a mondatokat - sőt félreértéseknek vagy szóvicceknek is olykor
az az alapjuk, hogy egy szó vagy mondat másképp folytatódik, mint amire
az előzmények alapján számítottunk.
Emberi segítséggel mindenképpen jobban boldogul a gép. Az egyik magyar
program, a Dativus használati utasítása szerint „ha a szóhasználati beállításunk
»általános«, akkor a fordításban a »walkers« mint »gyalogosok« szerepel.
Ugyanezen szó jelentése, ha a beállítás »orvostudományi«, akkor »járógép«,
»természettudományi« beállításnál pedig »lépegető madár«". Váradi
szerint viszont alkalmas kulcsszavak alapján ma már elég jól megvalósítható
a szövegek automatikus osztályozása is. Ha például néhányszor előfordul
a „védőoltás" szó, alighanem orvosi, nem pedig várostervezési szöveg
került a számítógépbe. Igaz, a nem éppen szakszónak számító igék többértelműségével
a gép ez esetben sem birkózik meg könnyen.
Magyarra (és a többi toldalékoló nyelvre) a számítógépet másképp kell
megtanítani. Az angolban eleinte nagy volt a kísértés - idézi fel Prószéky
-, hogy egyszerűen minden szóalakot betápláljanak (főneveknél kettő is
elég volt, mint például cat és cats), ám magyarul reménytelennek bizonyult
a végtelennek tűnő macska, macskák, macskát, macskával, macskától és így
tovább sorozat. A „macska + nyelvtani információ" típusú elemzésre
az angolban nemigen van szükség, a magyarban viszont ez válik be. Arról
a különbségről nem is beszélve, hogy a gépnek a mondatok szintjén is könnyebb
dolga van az alany, állítmány, tárgy sorrendben dolgozó angollal, mint
a magyarral, amelyben a kötetlen szórend miatt a gép kevésbé sejtheti
előre, mire számítson.
Talán nem zárható ki, hogy a gép előbb-utóbb a fordításban is eléri az
emberi teljesítmény szintjét, legalábbis a mesterséges intelligencia kutatásában
gyakran idézett Turing-teszt értelmében. Vagyis úgy, hogy a fordítás,
ha nem lesz is feltűnően magas színvonalú, de nem tér el majd jelentősen
egy átlagos emberi fordítástól. Váradi szerint a fő problémát az jelenti,
hogy a sakkjátékhoz képest a mondatok száma egy párbeszédben vagy egy
szövegben elvben végtelen, összefüggéseik pedig bonyolultak. Más szóval:
az összes sakklépés kiszámítása csak a gép teljesítőképességétől függ,
de „az összes magyar mondat" még elvileg sem gyűjthető össze.
Pár ezer hindi, thai vagy egyéb egzotikus mondattal jól elboldogul az
amerikai hadsereg „fordítógépe", amelyet azonban a fenti elméleti
megfontolások után csak idézőjelben lehet így nevezni. A zenelejátszóhoz
hasonló készülék előre rögzített mondatokat ad ki magából idegen nyelven,
miután amerikai használója a képernyőn kiválasztotta, vagy éppen saját
hangján bemondta, mire gondol. A hangos szótárgép aligha alkalmas az „azonnal
dobja el a fegyvert" kezdetű párbeszédek hatékony intézésére, de
tényleg helyettesítheti a tolmácsot sebesültek ellátásakor vagy mentési
munkálatok közben. Meglehetősen kezdeti stádiumban van viszont az a japán
szerkentyű, amely három szoftvert tartalmaz: beszédfelismerést, oda-vissza
angol fordítást és hangképzést. A HVG által megkérdezett magyar szakértők
szkeptikusak: a gépi fordítás említett nehézségeit a gyerekcipőben járó
beszédfelismerés csak fokozza, a beszélő tolmácsgépek belátható időn belül
nem vehetik fel a versenyt az emberrel.
„Ütközés a délszaki mosónőn van" |
„A Herz-féle
szalámiban / Sokkal sűrűbb a só, / Mint más hasonló terményekben,
/ Hidd el, ó nyájas olvasó!" A félrefordítás e mindmáig
felülmúlhatatlan klasszikusa Karinthy Frigyestől való. Az
Így írtok ti egyik paródiájában valaki egy Ady-verset ültet
át német nyelvre, az általa közreadott változatot egy másik,
bakizásra szintén hajlamos műfordító visszamagyarítja, s így
tovább. A Karinthy-műben szereplő kiindulópontnál jobbat mi
sem választhattunk volna a magyar piacon hozzáférhető két
(angol nyelvet ismerő) fordítóprogram kipróbálására:
Jöttem a Gangesz partjairól,
hol álmodoztam déli verőn.
A szívem egy nagy harangvirág,
s finom remegések az erőm.
Tekintettel a komputerek gyengéire, a versszakot mai helyesírással
és a fenti, egyszerűsített központozással tápláltuk be. Mivel
a Morphologic magyar-angol változata az év végére lesz készen,
a magyar szöveget csak a Dativusra bízhattuk, amely ezt hozta
ki:
I came from shores of the Ganges,
where I daydreamed on southern
washerwoman's beater.
My heart is a large harebell,
and fine trembles are my bodily strength.
Az ütő és a verő közötti különbségre a gép nem érzett rá,
ráadásul a szótárból az efféle szerszámok közül pont a mosáshoz
régen használatos sulykot választotta, és túl is magyarázta.
A délből napszak helyett égtáj lett, és a fölöslegesen beiktatott
mosónőtől sem szabadul meg többé a költemény. Íme a Morphologic
visszamagyarítása:
A Ganges partjairól származtam,
hol álmodoztam a déli mosónő ütőjén.
A szívem van egy nagy *harebell(),
és a jó remegések a testi erőim.
A program a „harebell" szóval nem tudott megbirkózni,
kénytelenek vagyunk besegíteni neki. A további fordulók során
az eredeti változatban szereplő „verő" „ütőhangszereszközzé",
később „ütközéssé" változik. A dél viszont következetesen
égtáj marad. A programok végül saját csapdájukba esnek: ha
már korábban „testi erőnek" fordították az erőt, következetesnek
kellett maradniuk, és máris itt az újabb karinthyáda: maga
mindent kétszer mond, kétszer mond... A hatodik oda-vissza
fordítás végén a Dativus „tollából" ezt olvashattuk:
Gangeszekből származtam,
egyadik az ő partja, az,
hol ébren álmodtam, ütközés
a délszaki mosónőn van.
Irántam egy nagy harangvirág
az én szívem itt,
és a jó remegés, az enyém vagy,
az én testim testi.
Karinthy az ő Herz szalámijával verhetetlennek bizonyult.
A tudomány mai állása szerint a gép nemcsak fordításban, hanem
félrefordításban sem képes felülmúlni az embert.
|
|
|