Kas iš tikrųjų slepiasi po vertimo mygtuku
Kiekvieną kartą, kai paspaudžiate „Išversti” ir per kelias sekundes gausite tekstą kita kalba, kažkur serverių salėje įvyksta kažkas, kas prieš dvidešimt metų būtų atrodę beveik magiška. Bet magija čia nė nekvepia – tai matematika, statistika ir milžiniški duomenų kiekiai, kurie kartu sudaro tai, ką mes vadiname automatiniu teksto vertėju.
Problema ta, kad dauguma žmonių šiuos įrankius naudoja kaip juodą dėžę: įdedi tekstą, išimi vertimą, tikisi, kad viskas gerai. Retai kas susimąsto, kaip tai veikia, kodėl kartais rezultatai yra puikūs, o kartais – juokingai prasti. Ir dar rečiau žmonės supranta, kada šiems įrankiams galima pasitikėti, o kada jie gali rimtai pakenkti.
Šiame straipsnyje bandysiu išardyti automatinio vertimo mechanizmą iki paskutinio varžtelio – ne tam, kad sužavėčiau technologijomis, o tam, kad padėčiau suprasti, su kuo iš tikrųjų turime reikalų.
Nuo žodynų iki neuronų: trumpa ir nelabai graži istorija
Automatinis vertimas nėra naujas dalykas. Pirmieji rimti bandymai siekia šeštąjį dešimtmetį, kai mokslininkai naiviai tikėjo, kad kalbą galima išversti tiesiog pakeičiant žodžius pagal žodyną ir pritaikant keletą gramatikos taisyklių. Tai vadinosi taisyklėmis pagrįstas vertimas (angl. Rule-Based Machine Translation, RBMT). Rezultatai buvo tokie prasti, kad 1966 metais JAV vyriausybės komisija ALPAC tiesiog pasakė: „Sustokite, tai neveikia” – ir nukirpo finansavimą.
Tačiau idėja niekur nedingo. Devintajame ir dešimtajame dešimtmetyje atsirado statistinis vertimas (SMT). Vietoj taisyklių – tikimybės. Sistema analizuodavo milijonus jau išverstų tekstų (vadinamuosius lygiagretuosius korpusus) ir mokydavosi, kurie žodžių junginiai vienoje kalboje dažniausiai atitinka kuriuos junginius kitoje. Tai buvo žingsnis į priekį, bet sistema vis tiek nesuprato konteksto – ji tiesiog skaičiavo, kas statistiškai tikėtiniau.
Tikras lūžis įvyko apie 2016–2017 metus, kai dominuoti pradėjo neuroniniai vertimo tinklai (NMT). Google Translate, DeepL, Microsoft Translator – visi jie dabar remiasi šia technologija. Ir čia prasideda tikrai įdomu.
Kaip neuroninis tinklas „supranta” kalbą (ir kodėl žodis „supranta” čia labai abejotinas)
Neuroninis vertimo tinklas iš esmės yra matematinė struktūra, kuri buvo apmokytas ant milžiniško kiekio tekstų. Šiuolaikiniai modeliai naudoja architektūrą, vadinamą transformeriu (angl. Transformer), kurią 2017 metais pristatė Google mokslininkai straipsnyje „Attention Is All You Need”. Pavadinimas skamba filosofiškai, bet esmė labai praktiška.
Transformer modelis tekstą apdoroja ne žodis po žodžio, kaip darė senesni modeliai, o vienu metu stebi visus žodžius ir jų ryšius tarpusavyje. Tai vadinama dėmesio mechanizmu (angl. self-attention). Kai sistema verčia sakinį, ji „žiūri” į kiekvieną žodį ir vertina, kaip jis susijęs su visais kitais žodžiais tame sakinyje. Pavyzdžiui, žodis „bankas” gali reikšti finansų įstaigą arba upės krantą – sistema pagal kontekstą (kiti žodžiai šalia) nusprendžia, kurią reikšmę naudoti.
Bet čia svarbu nesusigundyti ir nepasakyti, kad sistema „supranta” kalbą taip, kaip ją supranta žmogus. Ji nesupranta. Ji atlieka labai sudėtingus matematinius skaičiavimus su vektoriais daugiamatėje erdvėje. Žodžiai paverčiami skaičių sekomis (vadinamaisiais embeddings), ir sistema operuoja šiais skaičiais. Rezultatas gali atrodyti kaip supratimas, bet tai – statistinis artimumas, ne semantinis suvokimas.
Praktinė pasekmė: sistema gali puikiai išversti techninius tekstus, kuriuose yra daug panašių pavyzdžių mokymo duomenyse, ir visiškai susipainioti su neįprastu kontekstu, ironija, kultūrinėmis nuorodomis ar žargonu, kurių ji tiesiog nematė mokymo metu.
DeepL prieš Google Translate: ar skirtumas iš tikrųjų toks didelis
Šis klausimas kyla beveik kiekvienam, kuris rimčiau naudoja vertimo įrankius. Trumpas atsakymas: taip, skirtumas yra, bet ne visada ten, kur tikimasi.
Google Translate turi neabejotiną pranašumą – kalbų skaičius. Jis palaiko per 130 kalbų, įskaitant tokias, kurioms mokymo duomenų yra labai mažai. Tai svarbu, jei reikia išversti iš suahilių ar mongolų. Taip pat Google Translate turi gerą integraciją su naršyklėmis, mobiliaisiais įrenginiais, palaiko nuotraukų vertimą ir realaus laiko kalbos vertimą.
DeepL palaiko žymiai mažiau kalbų (apie 30), bet dažnai laikomas kokybiškesniu europietiškoms kalboms – ypač vokiečių, prancūzų, ispanų, lenkų. Kodėl? Nes DeepL naudoja specializuotus duomenis iš Linguee – daugiakalbio žodyno su kontekstiniais pavyzdžiais. Tekstai dažnai skamba natūraliau, sakinio struktūra geriau išlaikoma.
Tačiau reikia būti sąžiningam: skirtumas labai priklauso nuo kalbų poros ir teksto tipo. Verčiant iš anglų į vokiečių kalbą, DeepL dažnai lenkia Google. Verčiant iš lietuvių į anglų – skirtumas gali būti minimalus arba net atvirkštinis. Lietuvių kalba nėra nei vieno iš šių įrankių stiprioji pusė, nes mokymo duomenų yra nepalyginamai mažiau nei, tarkime, anglų ar vokiečių.
Praktinė rekomendacija: jei jums svarbi kokybė, išbandykite abu ir palyginkite. Tai užima 30 sekundžių, bet gali sutaupyti valandas redagavimo darbo.
Kodėl automatinis vertimas klumpa ten, kur žmogus net nesusimąsto
Automatinis vertimas turi keletą klasikinių silpnybių, kurios išliko net ir neuroniniams modeliams tapus dominuojančiais.
Idiomų ir frazeologizmų vertimas vis dar yra skausminga vieta. „Liet po vandeniu” arba „mesti akmenį į daržą” – tokias frazes sistema dažnai verčia pažodžiui, nes ji nemato pakankamai konteksto, kad suprastų perkeltinę reikšmę. Rezultatas – tekstas, kuris techniškai teisingas, bet visiškai nesuprantamas gimtakalbiam skaitytojui.
Kultūrinės nuorodos ir humoras – čia automatinis vertimas tiesiog kapituliuoja. Jei originale yra pokštas, paremtas kalbos žaismu, sistema arba išvers jį pažodžiui (ir pokštas išnyks), arba sukurs kažką visiškai nesusijusio.
Ilgi ir sudėtingi sakiniai su keliais šalutiniais sakiniais, ypač tokiose kalbose kaip vokiečių ar lietuvių, dažnai sukelia problemų. Sistema gali prarasti gramatinį ryšį tarp sakinio dalių arba neteisingai priskirti veiksmą subjektui.
Specializuota terminija – medicinoje, teisėje, inžinerijoje – gali būti verčiama neteisingai, jei mokymo duomenyse trūksta atitinkamų pavyzdžių. Ir tai nėra smulkmena: neteisingai išverstas medicininis terminas gali turėti rimtų pasekmių.
Gramatinė lytis – tai ypač aktualu lietuvių kalbai. Sistema dažnai klysta su giminės formomis, ypač kai kontekstas neaiškus arba kai kalbama apie abstrakčias sąvokas.
Svarbu suprasti, kad šios klaidos nėra atsitiktinės – jos sisteminės. Tai reiškia, kad jei sistema suklydo vienoje vietoje dėl tam tikros struktūros, ji greičiausiai suklys ir kitose panašiose vietose. Tai padeda redaguojant: žinodamas sistemos silpnybes, gali tiksliau žinoti, kur ieškoti klaidų.
Kada automatinis vertimas tikrai veikia ir kada jis pavojingas
Čia norisi būti konkrečiam, nes per daug žmonių arba pervertina, arba nuvertina šiuos įrankius.
Automatinis vertimas veikia gerai:
- Kai reikia greitai suprasti svetimkalbio teksto esmę (informacinis vertimas sau).
- Verčiant techninius dokumentus su standartizuota terminija, jei kalbų pora yra gerai palaikoma.
- Kaip pirmas žingsnis prieš profesionalų redagavimą – tai gali sutaupyti vertėjo laiko.
- Verčiant trumpus, struktūruotus tekstus: instrukcijas, produktų aprašymus, standartines el. laiškų frazes.
Automatinis vertimas yra pavojingas:
- Medicininiuose, teisiniuose ar finansiniuose dokumentuose, kur klaida gali turėti teisinių ar sveikatos pasekmių.
- Kai tekstas bus publikuojamas viešai ir atstovauja organizacijai ar asmeniui – klaidų pilnas vertimas kenkia reputacijai.
- Verčiant literatūrinius tekstus, poeziją, reklamą – kur stilius ir tonas yra esminis.
- Kai verčiama iš ar į mažai resursų turinčias kalbas (lietuvių, latvių, estų ir kt.) – kokybė čia žymiai prastesnė.
Yra ir pilkoji zona: verslo komunikacija, akademiniai tekstai, žurnalistika. Čia automatinis vertimas gali būti naudingas kaip pagalbinė priemonė, bet niekada neturėtų būti galutinis produktas be žmogaus peržiūros.
Kaip išgauti geresnį rezultatą: praktiniai triukai, kuriuos mažai kas naudoja
Automatinio vertimo kokybė labai priklauso nuo to, kaip suformuluotas originalus tekstas. Tai skamba paradoksaliai, bet yra tiesa: jei norite geresnio vertimo, pradėkite nuo geresnio originalo.
Rašykite aiškiai ir tiesiogiai. Ilgi sakiniai su daug šalutinių sakinių – tai receptas blogam vertimui. Suskaidykite juos į trumpesnius. Tai naudinga ne tik vertimui, bet ir pačiam tekstui.
Venkite dviprasmybių. Jei žodis turi kelias reikšmes, pridėkite kontekstą. Vietoj „bankas” rašykite „finansų bankas” arba „upės krantas” – sistema tada tiksliau parenka vertimą.
Naudokite glosariją, jei įrankis tai leidžia. DeepL Pro ir kai kurie kiti profesionalūs įrankiai leidžia nurodyti, kaip turi būti verčiami konkretūs terminai. Tai ypač svarbu verslo ar techniniam vertimui, kur terminų nuoseklumas kritiškai svarbus.
Vertinkite rezultatą kritiškai, ne tik skaitydami. Dažna klaida – perskaityti vertimą ir galvoti „skamba gerai”. Bet jei nežinote originalo kalbos, negalite žinoti, ar vertimas tikslus. Geriau patikrinkite kelis atsitiktinius sakinius naudodami kitą įrankį arba paprašykite gimtakalbio peržvelgti.
Naudokite post-editing principą. Profesionalūs vertėjai tai vadina MTPE (Machine Translation Post-Editing). Idėja paprasta: automatinis vertimas atlieka sunkų darbą, o žmogus ištaiso klaidas. Tai greičiau nei versti nuo nulio, bet reikalauja žmogaus, kuris gerai moka abi kalbas.
Eksperimentuokite su formuluotėmis. Jei vertimas atrodo keistai, pabandykite perfrazuoti originalą. Kartais net nedidelis pakeitimas duoda žymiai geresnį rezultatą. Tai nėra labai efektyvu dideliems tekstams, bet trumpiems sakiniams ar antraštėms gali padėti.
Ateitis, kuri jau čia: kur automatinis vertimas juda ir ko tikėtis
Pastaraisiais metais automatinio vertimo kokybė augo greičiau nei bet kas tikėjosi. GPT tipo modeliai, tokie kaip ChatGPT ar Claude, iš dalies pakeitė žaidimo taisykles – jie gali versti tekstą, bet kartu ir paaiškinti, kodėl pasirinko vieną ar kitą formuluotę, adaptuoti toną, pasiūlyti alternatyvas. Tai yra kokybinis šuolis, palyginti su tradiciniais vertimo įrankiais.
Tačiau reikia būti atsargiems su entuziastiniu optimizmu. Didelių kalbų modeliai taip pat turi savo problemų: jie gali „haliucinuoti” – sugalvoti informaciją, kurios nėra originale. Verčiant tai gali reikšti, kad modelis ne tik išverčia, bet ir prideda tai, ko originale nebuvo. Tai ypač pavojinga faktinėje komunikacijoje.
Kalbant apie lietuvių kalbą – situacija gerėja, bet lėtai. Problema struktūrinė: lietuvių kalbos tekstų internete yra nepalyginamai mažiau nei anglų ar vokiečių, todėl modeliai tiesiog turi mažiau mokymo medžiagos. Lietuvos akademinės institucijos ir kalbos technologijų bendruomenė dirba ties šia problema, bet tai ilgas procesas.
Vienas dalykas, kuris tikrai keičiasi – automatinis vertimas tampa neatsiejama darbo proceso dalimi. Vertėjų profesija nemiršta, bet transformuojasi: vis daugiau darbo sudaro mašininio vertimo redagavimas, o ne vertimas nuo nulio. Tai reikalauja kitokių įgūdžių – gebėjimo greitai identifikuoti sistemingas klaidas, suprasti, kaip mąsto mašina, ir efektyviai ją koreguoti.
Taip pat verta atkreipti dėmesį į privatumo klausimą, kuris dažnai ignoruojamas. Kai įkeliate tekstą į Google Translate ar DeepL, tas tekstas keliauja į išorinius serverius. Jei verčiate konfidencialius dokumentus – sutartis, medicininius įrašus, verslo planus – turėtumėte pagalvoti, ar tai priimtina. Kai kurios organizacijos dėl šios priežasties naudoja tik lokaliai įdiegtus vertimo sprendimus arba turi specialias sutartis su paslaugų teikėjais dėl duomenų apsaugos.
Tarp stebuklo ir iliuzijos: ką iš tikrųjų verta žinoti apie automatinį vertimą
Automatinis vertimas yra vienas iš tų technologinių pasiekimų, kuris atrodo paprastas iš išorės ir yra neįtikėtinai sudėtingas iš vidaus. Transformer architektūra, dėmesio mechanizmai, milijardai parametrų – visa tai susilieja į vartotojo sąsają su vienu mygtuku. Ir tai yra ir didžiausias šių įrankių privalumas, ir didžiausia problema.
Privalumas – prieinamumas. Bet kuris žmogus su internetu gali per sekundes gauti teksto vertimą į dešimtis kalbų. Tai neabejotinai demokratizavo kalbų barjero įveikimą.
Problema – pernelyg lengvas pasitikėjimas. Kai kažkas veikia greitai ir sklandžiai, žmogus linkęs manyti, kad tai veikia teisingai. Automatinis vertimas yra pakankamai geras, kad atrodytų teisingas, bet pakankamai blogas, kad sukeltų rimtų problemų, jei jo nekritikuosite.
Svarbiausia žinutė, kurią norėčiau, kad išsineštumet iš šio straipsnio: automatinis vertimas yra įrankis, ne sprendimas. Kaip ir bet kuris įrankis, jis veikia gerai, kai naudojamas tinkamam darbui, tinkamu būdu, su supratimu apie jo ribas. Naudokite jį, kai reikia greitai suprasti tekstą. Naudokite jį kaip pradinį tašką profesionaliam vertimui. Bet nepasitikėkite juo aklai, ypač kai kalbama apie tekstus, kurie turi realių pasekmių.
Ir galbūt svarbiausia praktinė rekomendacija: investuokite laiko į tai, kad suprastumėte, kaip šie įrankiai veikia. Ne tam, kad taptumėte inžinieriumi, bet tam, kad galėtumėte naudoti juos protingai. Žmogus, kuris supranta automatinio vertimo mechanizmą, yra žymiai geriau apsaugotas nuo jo klaidų nei tas, kuris tiesiog spaudžia mygtuką ir tikisi stebuklo.