Ocena tłumaczenia automatycznego

Sensowność tłumaczenia

Podczas oceny tłumaczenia automatycznego trzeba zacząć od pojęcia sensowności. Wyróżnia się trzy:

Najprościej mówiąc to słownikowe znaczenie słów. Nie zależy ona od kontekstu sytuacyjnego.

Tutaj objawiają się mankamenty technologii. Język logiki komunikowalny jest tylko poprzez język naturalny. 

Zdanie może być przetłumaczone poprawnie, w kwestii doboru słów, ale może brakować mu logicznego sensu.

Tutaj mówimy o konkretnych kontekstach sytuacyjnych.

Tłumaczenie może być dobre słownikowo, logiczne, ale niedostosowane do kodu językowego i kultury danego kraju.

Problematyka tłumaczenia automatycznego

Sens

Takie tłumaczenie musi brać pod uwagę wszystkie trzy zagadnienia sensu opisane powyżej. Oczywiście ostatni stwarza najwięcej problemów.
Popatrz na dzisiejsze reklamy produktów społecznych. Ile jest produktów lekkich albo light?
Bez określonego kodu kulturowego (i indoktrynacji przez marki) nie zrozumielibyśmy w ogóle takiego przekazu. W niektórych krajach takie reklamy nie mają sensu.

Znaczenia

Komputer oczywiście nie zna znaczenia. Gdyby twórcy programów znali każde znaczenie danego słowa byłoby prościej.

Sprzeciwia się to bowiem językowi logiki technologii. Zasada kompozycji znaczeniowej, mówi, że znaczenia wyrażenia całkowitego to suma wyrażeń składowych.

Metafory

Pojawiają się one tylko w języku naturalnym. Komputery nie są w stanie ich rozpoznać. Chyba że zostały wgrane do programu przez człowieka.
Przykład: Geografia jest moją piętą achillesową.
Bez odpowiednich statystyk lub reguł, tłumacz automatyczny nie mógłby przetłumaczyć tego zdania poprawnie.

Synonimia

W każdym języku znajdziemy słowa, których wszystkich znaczeń nie znamy. Już wtedy sprawiają nam problemy.

Tym bardziej sprawiają problemy komputerom. Tym bardziej że wyrazy mogą nie mieć odpowiednika w języku docelowym.

Homonimy

Wyrazy o dwóch znaczeniach to kolejny problem tłumaczenia automatycznego.

Zazwyczaj rozwiązują go na bazie metody statystycznej. Więcej o metodzie statystycznej i innych tutaj.

Im częściej występuje dane tłumaczenie w tekstach w Internecie, tym bardziej prawdopodobne jest, że będzie poprawne.

Składnia

Języki to żywe twory i różnią się miedzy sobą. 

Język angielski to język pozycyjny, gdzie pozycja wyrazów w zdaniu odgrywa ważną rolę. Tymczasem język polski zachowuje się zupełnie inaczej.

Dodatkowym problemem jest tutaj występowanie rodzajników, podmiotu domyślnego, różnych czasów, aspektu. Te części języka nie są obecne we wszystkich językach.

Ocena tłumaczenia automatycznego

Do dyspozycji mamy kilka środków. Najlepszym z nich jest wykorzystanie ludzkich osądów. Zajmuje dużo czasu, ale jest jedyną dotychczas opracowaną zapewniającą dobre rezultaty.
Automatyczne metody oceny to m.in. BLEU, NIST, WER i METEOR.

Rozwój metod oceny tłumaczenia maszynowego

Na rozwój metod ocen takiego tłumaczenia miały wpływ głównie dwa badania.

ALPAC (Automatic Language Processing Advisory Committee)

Pokazał on, że tłumaczenia automatyczne są kiepskiej jakości, a rząd USA obciął finansowania na tę dziedzinę technologii.

Raport ALPAC szerzej opisywałem w poście na temat historii tłumaczenia automatycznego.
Do artykułu

„Human Language Technologies Program” agencji ARPA

To tam stworzono metody oceny tłumaczenia automatycznego, z których korzystamy do dzisiaj.

Więcej o samych metodach tłumaczenia automatycznego możesz przeczytać w artykule poniżej.
Do artykułu

Metody oceny zależne od człowieka

Round-trip translation

Bardzo prosta, stosowana bardzo często. Niestety niedoskonała.
Polega na przetłumaczeniu danego tekstu na język docelowy, a potem z powrotem na język wyjściowy, tym samym narzędziem.
Minusem jest to, że testuje tak naprawdę dwa silniki tłumaczenia. Z języka A->B oraz B->A.
Możesz sprawdzić to sam, albo wyszukać memy z Google Tłumacza w Internecie. Najczęściej powstają w ten sposób.

Automatyczne metody oceny tłumaczenia automatycznego

Pominę tutaj zagadnienia czysto algorytmiczne i wzory obliczania precyzji.

Takie algorytmy ciężko zapamiętać i według mnie, nie ma to najmniejszego sensu.

BLEU

Jedna z pierwszych metod. Jej założenie mówi, że im bliższe jest tłumaczenie komputerowe tłumaczeniu ludzkiemu, tym wyższy wynik.
Obliczane są punkty za segmenty, najczęściej zdania i wyliczana jest średnia. Z badań wynika, że ta metoda jest bardzo podobna do ludzkiej oceny.
Metoda BLEU nie bierze jednak pod uwagę zrozumiałości i poprawności gramatycznej zdania. Zdanie może być nielogiczne i zupełnie niezrozumiałe i otrzymać wysokie noty.
Pomijając skomplikowane reguły i obliczanie precyzji, BLEU nie jest idealne.
BLEU uważano za podobny do ludzkiej oceny. Do dzisiaj pozostaje punktem odniesienia do wszystkich nowych metod oceny tłumaczenia automatycznego.
Takie czysto technologiczne zagadnienia są najlepszą sferą, gdzie sprawdza się ta metoda.
Zanotowano dwa przypadki, gdzie BLEU sobie poważnie nie poradził. Były to:

NIST

Wariacja metody BLEU. Poprzednia metoda przypisuje równe wartości n-gramom.

💡 N-gram to model stosowany w rozpoznawaniu języka. Opiera się na statystyce i służy do przewidywania następnego słowa lub jednostki w sekwencji.

NIST uwzględnia również, ile informacji niesie ze sobą konkretna jednostka.
Im rzadziej występuje dana jednostka, tym większą wagę otrzyma. NIST oblicza też inaczej “kary za zwięzłość” jeśli mała zmiana długości tekstu nie ma wpływu na całość.

WER

Inaczej współczynnik rozpoznawania błędów (ang. WER – Word Error Rate). Bazuje na odległości Levenshteina.
Odległość Levenshteina opisuje zmianę długości słowa. Np. dla wyrazów mama i matka wynosi 2.
Drugie m w „mama” zmienione na t oraz dołożone k; ma(~ tk)+a.
WER opisuje jednak odległość pomiędzy słowami, nie literami w obrębie jednego wyrazu.

Metoda ta porównuje ilość słów, która różni się gdy porównamy tekst do wzorcowego tłumaczenia przez człowieka.

💡 Podobną do WER jest metoda PER (ang. PER: position-independent word error rate). Opisuje ona dokładnie to samo, tylko niezależnie od pozycji.

METEOR

Metoda powstała, aby zminimalizować minusy BLEU.
Bazuje na ważonej średniej harmonicznej precyzji jak BLEU i odwołań.

Inne cechy METEOR nieobecne w innych metodach

Która z metod oceny tłumaczenia automatycznego jest najlepsza?

Pierwsze miejsce zajmuje ludzka ocena. Myślę, że nie zmieni się to w przeciągu kilkunastu lat.

Reszta metod ma swoje zastosowania. W niektórych sytuacjach jedne sprawdzają się lepiej, inne gorzej.
Za najlepszą niearbitralnie uznawany jest METEOR.

Według badań METEOR, w porównaniu do oceny człowieka, uzyskał wynik 0,964 na poziomie korpusu,

Wynik BLEU na tym samym zestawie danych to 0,817.
Najwyższa korelacja z oceną przez człowieka uzyskana na poziomie zdań to 0,403.
Jak widać, nie są to narzędzia doskonałe i nic nie jest w stanie jeszcze zastąpić ludzkiego osądu i “oka tłumacza”.

W innych postach na blogu możesz przeczytać o historii tłumaczenia automatycznego od 1933 roku i dowiedzieć się jak działają programy CAT.

Pierwsze zachowane tłumaczenie było przekładem Biblii z języka hebrajskiego na grecki z 3 wieku p.n.e. W II wieku p.n.e. sumeryjski epos o Gilgameszu doczekał się tłumaczeń na kilka języków azjatyckich.

Historia tłumaczenia sięga jeszcze jednak dalej.

Aby to „ogarnąć” musimy cofnąć się do dawnych czasów. Do czasów prehistorycznych.
Według antropologów język powstał około 100 tys. lat temu. Nikt nie potrafi podać dokładniejszych danych na temat konkretniejszego okresu.🤔
Prymitywny człowiek nie wiedział wtedy jeszcze, że właśnie odkrył narzędzie przekazywania myśli, emocji, uczyć i informacji.
Żeby te prymitywne symbole i dźwięki zmieniły się w piękne powieści i poematy, musiało minąć wiele czasu.
Faktem jest, że ludzie przez setki lat porozumiewali się wyłącznie ustnie. Nawet plemienne języki były bez wątpienia zróżnicowane.
Z tego powodu pojawiła się potrzeba, “zawód” tłumacza. Pierwsi z nich byli najczęściej zwykłymi nomadami. Towarzyszyli kupcom i brali udział we wszystkich transakcjach handlowych.
Prehistoria

Źródło: tvp.info

Nie znano wtedy jeszcze pisma, dlatego przekład odbywał się ustnie. Tłumacze wchłaniali wiedzę przez inercję – przebywając w obcojęzycznej społeczności. 💭

Powstały wtedy pierwsze siatki znaczeniowe. Czyli zapamiętane przez tłumaczy odpowiedniki wyrazów w języku obcym. Analogowy prekursor słowników.

Opłacało się to?

Zdecydowanie. Pozycja społeczna tłumaczy była bardzo wysoka. Gościli oni wszędzie od władców po kupców. Szerzyli postęp i upowszechniali idee i twierdzenia.
Bez nich Europejczycy nie poznaliby systemu dziesiętnego stworzonego przez Egipcjan albo sposobu budowy łuków.
Pierwsze pismo pojawiło się dopiero ok. 2000 lat p.n.e. w Babilonii i było to pismo klinowe. W podobnym okresie, w dolinie Indusu pojawiły się znaki, których do tej pory nie jesteśmy w stanie odszyfrować. Chociaż jesteśmy coraz bliżej.

Pismo klinowe. Źródło: topflop.pl

Tłumaczenie dosłowne

Gdy pismo na dobre upowszechniło się wśród niektórych społeczności pojawił się pierwszy sposób tłumaczenia tekstów – tłumaczenie dosłowne.
Jest to pierwsze znana i sklasyfikowana metoda tłumaczenia. Coś w stylu początków Google Tłumacza i tych sławnych memów z jego błędami.
Bodźcem do tego cały czas był handel 💰 i przenikanie się kultur, oraz szerzenie różnych idei.
Drugim bodźcem było tłumaczenie ksiąg religijnych. Ludzie tłumaczyli księgi wyznaniowe na zasadzie „słowo za słowo”, aby (w ich rozumieniu) uniknąć błędów w odczytaniu słowa bożego.
Ba, przywódcy duchowi zalecali jak najwierniejszy przekaz. Miało to zapobiec wypaczaniu sensu tekstu.
Nie brano pod uwagę gramatyki, fleksji, składni itd. Teksty były chaotyczne, niezrozumiałe i bez najmniejszego sensu.

Tłumaczenie znaczeniowe

Na przełomie starej i nowej ery pojawił się nowy sposób tłumaczenia – tłumaczenie znaczeniowe.
Sam Cyceron podobno zauważył, że takie tłumaczenie, krótko mówiąc, nie ma sensu. Namawiał do tłumaczenia w taki sposób, aby zachować ogólny sens utworu oraz normy językowe.

Cyceron demaskujący Katylinę, Cesare Maccari. Źródło: imperiumromanum

W tym okresie tłumacz nie tylko musiał przetłumaczyć tekst. Obowiązywała go również regułą ustawienia słów w określonym porządku dla języka docelowego. Tak, aby tekst miał sens i był zrozumiały dla odbiorcy.
Co nie oznacza, że odbiorcą mógł być każdy. Podstawowy proces edukacji w Rzymie, w tamtym okresie obejmował prawie wszystkich.

🖊️ Jednak styl zapisu był zupełnie odmienny od tego co znamy dzisiaj. Rzymianie pisali odręcznie, bez podziału na wielkie i małe litery. Nie stawiano przerw pomiędzy wyrazami i pisano bez znaków interpunkcyjnych.

Podobno Aulus Gelius, rzymski mówca z II wieku n.e. odmówił przeczytania publicznie tekstu, którego nie napisał.

Tłumaczenie znaczeniowe, też nie było wolne od wad.

Tak bardzo starano się zachować meritum tekstu oryginalnego, że często jego wartość historyczna i literacka zanikała.
Duży wpływ na rozwój tłumaczenia wywarło też powstanie Cesarstwa Rzymskiego w 27 r. p.n.e.
Wielkie dzieła jak Iliada, Odyseja czy Pismo Święte musiały zostać przetłumaczone na nowy wspólny język – łacinę – lingua franca. Później na języki używane w Europie i reszcie świata.
Czasami mówi się, że wielkie greckie dzieła zostały przejęte przez arabskich tłumaczy. Te właśnie arabskie wersje przetłumaczone, na łacinę stanowił podwaliny Renesansu.
Św. Hieronim (patron tłumaczy) również był tłumaczem. Jest to jeden z pierwszych wybitnych tłumaczy Biblii. Z greckiego oraz hebrajskiego przetłumaczył ją na łacinę. Przekład ten zwany Wulgatą jest oficjalnym tłumaczeniem kościoła rzymskokatolickiego.

Kontakty handlowe, czyli znowu pieniądze 💰, wymagały tłumaczeń na niespotykane dotąd języki. Tak narodziła się kolejna metoda tłumaczeń.

Translacja swobodna

We Francji na falach oświecenia w XVIII w. narodziła się szkoła tłumaczenia swobodnego. Jej założenia były wręcz idealne.

Pragnięto przybliżyć dziedzictwo epoki starożytności. Jednak praktyka okazała się inna. “Oświeceni” intelektualiści tamtych czasów tłumaczyli dzieła, bazując na ówczesnej stylistyce.

Ingerowano w treść i sens tekstu. Zmiękczano starożytne realia, aby przybliżyć czytelnikowi wartości oświecenia. U podstaw tej metody leżało przekonanie, że tłumacz może zrobić wszystko, aby przypodobać się czytelnikowi.

Popularne wtedy dzieła klasyków, tłumaczone były tak, aby ich odbiór był przyjemny i łatwy.
Antoine Houdar de la Motte
Antoine Houdar de la Motte

Czyli jak mówił Antoine de la Motte, jeden z tłumaczy tamtego okresu:

Bardzo chciałem uczynić swój przekład przyjemnym i ze względu na to, zmuszony byłem do zastąpienia idei, które podobały się w czasach Homera, ideami, które podobają się dzisiaj.

Florian, również z tamtego okresu: najprzyjemniejszy przekład będzie najwierniejszym.

Przekład adekwatny

Na szczęście „oświecone” tłumaczenie nie zagrzało długo miejsca na kartach historii.

Równolegle do metody swobodnej wykształcił się dużo lepszy sposób tłumaczenia tekstów – przekład adekwatny.

❗ Zachowywał on co ważne, historyczne realia tekstu, spójność treści i formy oraz był całkowicie funkcjonalny.

Nie nadawał się zbytnio do tłumaczeń poezji, ale znalazł swoje miejsce w tłumaczeniach tekstów technicznych.

Spora część takich tekstów, powstałych podczas rewolucji przemysłowej, została przełożona tą metodą.

Wpływ na rozwój tłumaczenia adekwatnego miała też radziecka szkoła przekładu – opowiadała się ona za funkcjonalnością tłumaczeń.

📷 Według tej szkoły osiągnięcie “fotograficznej dokładności” w przekładzie i tak nie będzie możliwe.

Wiek XX

Można powiedzieć, że jest to przełomowy wiek dla języka.

🏫 W 1953 roku, na Paryskiej Sorbonie powstała Międzynarodowa Federacja Tłumaczy – Fédération Internationale des Traducteurs

W Genewie utworzono Międzynarodowe Stowarzyszenie Tłumaczy Konferencyjnych AIIC – Association Internationale des Interprètes de Conférence.
Bazując na tych dwóch prekursorach, na całym świecie powstało jeszcze więcej organizacji, zrzeszających tłumaczy.
Po dziś dzień wiele z nich działa na rzecz ulepszania jakości tłumaczeń i poprawy statusu zawodu tłumacza. Stoją one także na straży standardów jakości i przestrzegania etyki zawodowej.
W Polsce takimi organizacjami są Stowarzyszenie Tłumaczy Polskich powstałe w 1981 roku oraz Polskie Towarzystwo Tłumaczy Ekonomicznych, Prawniczych i Sądowych „TEPIS” założone w 1990 roku.

💻 Wiek XX przyniósł także ogromne zmiany w branży tłumaczeniowej. Pierwsze narzędzia komputerowe wspomagające tłumaczenie wprowadziły tę dziedzinę w dwudzieste pierwsze stulecie.

Nie chodzi o samo pisanie na komputerze, lecz korzystanie z pomocy rozwiniętych programów. Bazy danych, które magazynują zastosowane zwroty oraz słownictwo specjalistyczne, a następnie pozwalają tłumaczowi bazować na własnym doświadczeniu, na zawsze zmieniły tę branżę.

🌎 W dzisiejszej dobie globalizacji zawód tłumacza ma się dobrze i wcale nie zmierza ku „wyginięciu”. Migracje ludności, transfer informacji i wiedzy wspomagają rozwój języków.

Spis treści:

Wstęp:

Wyróżniamy kilka podstawowych metod tłumaczenia maszynowego:

  • statystyczna (SMT)
  • oparta na przykładach (EBMT)
  • oparta na regułach / składniowa (RBMT)
    • oparta na słownikach, bezpośrednia (DBMT)
    • oparta na transferze semantycznym (TBMT)
    • oparta na interlingwie (IMT)

Oprócz tego istnieją metody hybrydowe oraz NMT.

Metoda statystyczna:

Metoda statystyczna, właściwie jej pierwsze koncepcje zostały opisane w 1949 roku przez Warrena Weavera (patrz. Historia tłumaczenia automatycznego).

Zaproponował on użycie do tego teorii informacji Claude’a Shannona.

Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.

Korzystając z tej metody, tłumaczenie tworzone jest na podstawie modeli statystycznych. Modele pozyskiwane są poprzez analizę korpusu równoległego danej pary językowej. 

Korpus równoległy to duży zbiór tekstów równoległych. Czyli odpowiadających sobie tekstów w dwóch językach.
Odpowiadające sobie zdania, zapisane jedno pod drugim nazywamy dwutekstem (ang. bitext). Jest to podobne do pamięci tłumaczeniowej używanej dzisiaj przez tłumaczy w programach CAT.
Różnicą jest to, że w pamięci tłumaczeniowej zdania przechowywane są niezależnie i traci się ich kontekst. Pamięć tłumaczeniowa jest w tym wypadku tylko bazą danych.
Istnieją formaty jak np. TMX (ang. Translation Memory eXchange) gdzie zachowuje się oryginalny układ zdań. Dzięki takim formatom można stosować pamięci tłumaczeniowe w wielu różnych programach.

Podstawy tłumaczenia statystycznego:

Przy tłumaczeniu statystycznym określa się prawdopodobieństwo, że dany ciąg znaków w języku źródłowym odpowiada ciągowi znaków w języku docelowym.

Powoduje to kilka problemów.

Znalezienie najlepszego tłumaczenia polega na wybraniu najbardziej prawdopodobnego ciągu znaków. Który jest najbardziej prawdopodobny?

Odkładając skomplikowane wzory matematyczne na bok, implementacja tej metody mogłaby polegać na przeszukiwaniu wszystkich możliwych ciągów znaków w języku docelowym.

Nie do końca. Wydajne przeszukiwanie takiego zbioru należy do zadań dekodera tłumaczenia maszynowego. Korzysta on z wielu metod i algorytmów, żeby ustalić jak najlepsze tłumaczenie. 

Tworzy on kompromis pomiędzy ograniczaniem ilości przeszukiwanych zasobów a przyzwoitą jakością tłumaczenia.
Oczywiście przeszukiwanie odpowiednika całego tekstu nie jest możliwe. Tekst tłumaczony jest zdanie po zdaniu.

Wyrazy vs. zdania w metodzie statystycznej:

Podstawową jednostką tłumaczenia za pomocą metody statystycznej są wyrazy. Oczywiście różni się ona w zależności od języka ze względu na morfologię, składnię, idiomy itd.
Teoretycznie gdyby każde słowo odpowiadało konkretnemu wyrazowi w języku docelowym, byłoby dużo prościej. Tymczasem jedno słowo może mieć wiele znaczeń.
Np. polski homonim (wyraz o kilku znaczeniach) można przełożyć na “castle” lub “lock” oraz kilka innych możliwości, zależnie od kontekstu. Które tłumaczenie jest lepsze? Bardziej prawdopodobne według dekodera tłumaczenia maszynowego.

Płodność to wskaźnik mówiący ile wyrazów można wyprodukować z jednego słowa z języka źródłowego.

Pierwsze systemy tłumaczenia statystycznego operowały na poziomie wyrazów. Obecnie korzysta się z systemów na większych strukturamch składniowych, jednak dopasowania wyrazów nadal są używane do stwierdzania różnych pojedynczych parametrów.

Tłumaczenie na podstawie wyrazów zostało zastąpione tłumaczeniami na podstawie fraz.

Frazy te, czyli inaczej bloki lub ciągi zdań nie są frazami w rozumieniu lingwistycznym, ale wyrazami z korpusu równoległego. Wyciągniętym z niego właśnie przy pomocy metod statystycznych.

Warto wspomnieć, że najnowsze technologie operują na ogromnej bazie danych. Przoduje tu Google Tłumacz i jego astronomiczna liczba tekstów równoległych.

Zalety metody statystycznej:

  • Lepsze i szybsze wykorzystanie zasobów – w obiegu jest duża ilość tekstów w postaci cyfrowej. Czeka ona tylko na obróbkę statystyczną.
  • Jest to lepsza metoda niż systemy oparte na regułach. Nie wymaga ręcznego opracowywania reguł językowych. Oszczędza to dużą ilość zasobów ludzkich i nie ogranicza działania programu do konkretnego języka.
  • Bardziej naturalne brzmiące tłumaczenie. Jeśli odpowiednik danego ciągu znaków pojawia się bardzo często, prawdopodobne jest, że będzie poprawny.
  • Takie systemy bazują też na stworzonych przez człowieka tekstach. Otrzymany przekład może być bardziej naturalny niż tłumaczenie na podstawie odgórnie napisanych reguł.

Wady tłumaczenia statystycznego:

Nie jest to metoda idealna. Do problemów metody statystycznej należą:

  • wyrazy złożone
  • homonimy (patrz wyżej)
  • idiomy
  • morfologia danego języka
  • szyk wyrazów w zdaniu
  • wyrazy niebędące w słowniku (zestawie treningowym systemu)

Metoda oparta na przykładach (ang. EBMT)

To metoda tłumaczenia maszynowego, która charakteryzuje się użyciem dwujęzycznych korpusów z tekstami równoległymi jako głównej bazy wiedzy.

Jest to zasadniczo tłumaczenie przez analogię i może być postrzegane jako implementacja podejścia do uczenia maszynowego opartego na wnioskowaniu na podstawie przypadków.

Tłumaczenia przez analogię w odniesieniu do tłumaczenia przez człowieka mówi, że ludzie nie dokonują przekładu, bazując na głębokiej analizie lingwistycznej.

Zamiast tego opiera się na przekonaniu, że ludzie:

  1. tłumaczą, rozkładając zdanie na pewne frazy,
  2. przekładają te frazy,
  3. odpowiednio składają te fragmenty w jedno długie zdanie.

Zasada tłumaczenia przez analogię jest zakodowana w tłumaczeniu maszynowym opartym na przykładach poprzez tłumaczenia przykładowe, które są używane do trenowania takiego systemu.

Podstawy tłumaczenia opartego na przykładach:

Systemy tłumaczenia maszynowego oparte na przykładach są trenowane na podstawie dwujęzycznych korpusów równoległych zawierających pary zdań.

Pary zdań zawierają zdania w jednym języku wraz z ich tłumaczeniami na inny język. Na podstawie par minimalnych, zdań różniących się tylko jednym elementem, można łatwo nauczyć się tłumaczeń części zdania.

Komponowanie tych jednostek może być wykorzystane do tworzenia nowych tłumaczeń w przyszłości.

Pierwsze systemy tłumaczenia opartego na przykładach zostały wynalezione w latach 70. Przykładem takiego systemu jest Systran (patrz Historia tłumaczenia automatycznego).

Przykładem systemu korzystającego z metody opartej na przykładach jest Cunei.

Platforma typu open source, która powstała w wyniku badań nad EBMT, ale obejmuje również najnowsze osiągnięcia w dziedzinie metody statystycznej.

Tłumaczenie maszynowe oparte na przykładach zostało po raz pierwszy zaproponowane przez Makoto Nagao w 1984 r. Zwrócił on uwagę, że jest ono szczególnie przydatne do tłumaczenia między dwoma zupełnie różnymi językami, takimi jak angielski i japoński.

W tym przypadku jedno zdanie można przetłumaczyć na kilka poprawnych zdań w innym języku, dlatego nie ma potrzeby przeprowadzania dogłębnej analizy językowej, charakterystycznej dla tłumaczenia maszynowego opartego na regułach. 👇

Metoda oparta na regułach (ang. RBMT)

Jest to starsza technologia (zwana klasyczną metodą tłumaczenia automatycznego), która bazuje na połączeniu reguł gramatycznych, językowych i słownikach.

Mając do dyspozycji zdania wejściowe (w języku źródłowym), system RBMT generuje je do postaci zdań wyjściowych (w języku docelowym) na podstawie analizy morfologicznej, składniowej i semantycznej zarówno języka źródłowego, jak i docelowego.

 

Systemy oparte na regułach można również określić jako systemy przeciwstawne do systemów opartych na przykładach (Example Based Machine Translation), natomiast hybrydowe systemy tłumaczenia maszynowego wykorzystują wiele zasad zaczerpniętych z RBMT.

Typy metody RBMT:

Wyróżnia się trzy podstawowe typy RBMT:

  1. Systemy bezpośrednie, oparte na słownikach (DBMT)
  2. Systemy oparte na transferze semantycznym (TBMT)
  3. Systemy interlingwalne (IMT)

Wszystkie trzy metody opiszę poniżej. Ale najpierw dalsza część metody opartej na regułach RBMT:

Podstawy metody opartej na regułach:

Systemy RBMT opierają się na łączeniu struktury danego zdania wejściowego ze strukturą żądanego zdania wyjściowego, przy czym konieczne jest zachowanie ich unikalnego znaczenia.

“A girl eats an apple.” To zdanie poprosimy na język niemiecki.

Aby uzyskać niemieckie tłumaczenie tego angielskiego zdania, system RBMT potrzebuje co najmniej:

  • Słownika ang-niem.
  • Reguł struktur zdań angielskich.
  • Reguł struktur zdań niemieckich.
  • Zasad, według których można te dwie struktury ze sobą powiązać.

Schemat działania RMBT:

a = przedimek nieokreślony;
girl = rzeczownik;
eats = czasownik;
an = przedimek nieokreślony;
apple = rzeczownik

Eat – Present Simple, 3. osoba liczby pojedynczej, strona czynna

Parsowanie to inaczej dokonywanie analizy składniowej ciągu znaków w celu ustalenia jej struktury.

an apple = obiekt działania czasownika (eat)

 

Często tylko częściowe parsowanie jest wystarczające, aby dotrzeć do struktury składniowej zdania źródłowego i odwzorować ją na strukturę zdania docelowego.

a (przedimek nieokreślony) => ein (przedimek nieokreślony)
girl (rzeczownik) => Mädchen (rzeczownik)
eat (czasownik) => essen (czasownik)
an (przedimek nieokreślony) => ein (przedimek nieokreślony)
jabłko (rzeczownik) => Apfel (rzeczownik)

Tylko w najnowszych wersjach programów:

 

A girl eats an apple. => Ein Mädchen isst einen Apfel.

Elementy systemu RBMT:

JŹ – język źródłowy
JD – język docelowy

Analizuje słowo w języku źródłowym i dostarcza informacji morfologicznych.

Jest analizatorem składni, który analizuje zdania w języku źródłowym.

Służy do tłumaczenia słowa z języka źródłowego na język docelowy.

Działa jako generator odpowiednich słów języka docelowego dla podanej informacji gramatycznej.

Działa jako kompozytor odpowiednich zdań języka docelowego.

  1. słownik JŹ – potrzebny parserowi języka źródłowego do analizy morfologicznej,
  2. słownik dwujęzyczny – używany przez tłumacza do przekładu słów z języka źródłowego na słowa z języka docelowego,
  3. słownik JD- potrzebny parserowi do generowania słów języka docelowego.

System RBMT wykorzystuje następujące elementy:

Buduje konstrukcje składniowe ze zdań wejściowych;

Zawiera całe dopuszczalne słownictwo w danej dziedzinie;

Wskazują, w jaki sposób składnia i gramatyka zostaną zapisane przez komputer.

Schemat pojęciowy co odpowiada czemu.

Wskazują, w jaki sposób pojęcia i semantyka są mapowane na elementy składniowe i funkcje gramatyczne w języku docelowym;

Zawiera odpowiednie leksemy docelowe dla każdego pojęcia z danej dziedziny;

Realizuje docelowe konstrukcje składniowe jako zdania wyjściowe.

Zalety tłumaczenia opartego na regułach:

  • Nie są potrzebne teksty paralelne. Umożliwia to tworzenie systemów tłumaczeniowych dla języków, które nie mają wspólnych tekstów, a nawet nie mają żadnych danych cyfrowych.
  • Niezależność od dziedziny. Reguły są zazwyczaj pisane w sposób niezależny od dziedziny. 
  • Teoretycznie mogą być idealne (kiedyś). Każdy błąd można skorygować za pomocą odpowiedniej reguły, nawet jeśli dany przypadek jest niezwykle rzadki. Jest to przeciwieństwo systemów statystycznych, w których rzadko występujące formy będą domyślnie usuwane.
  • Pełna kontrola. Ponieważ wszystkie reguły są pisane ręcznie, system oparty na regułach można łatwo debugować, aby dokładnie sprawdzić, gdzie dany błąd został wprowadzony do systemu i dlaczego.
  • Możliwość ponownego użycia. Ponieważ systemy RBMT są zazwyczaj zbudowane z solidnej analizy języka źródłowego, części analizy języka źródłowego i generatora języka docelowego mogą być współdzielone przez wiele systemów tłumaczeniowych. 

Wymagają one wtedy jedynie wyspecjalizowania etapu transferu. Ponadto analiza języka źródłowego dla jednego języka może być ponownie wykorzystana do uruchomienia analizy języka pokrewnego.

Wady tłumaczenia opartego na regułach:

  • Niewystarczająca liczba naprawdę dobrych słowników. Tworzenie nowych słowników jest kosztowne.
  • Reguły nadal muszą być ustalane ręcznie.
  • Trudno jest poradzić sobie z interakcjami reguł w dużych systemach, wieloznacznością i wyrażeniami idiomatycznymi.
  • Brak możliwości adaptacji do nowych dziedzin. Chociaż systemy RBMT zazwyczaj zapewniają mechanizm tworzenia nowych reguł oraz rozszerzania i adaptacji leksykonu, zmiany są zazwyczaj bardzo kosztowne, a ich rezultaty często nie są opłacalne.

Pamiętasz poszczególne typy metody opartej na regułach?

  1. Systemy bezpośrednie, oparte na słownikach (DBMT)
  2. Systemy oparte na transferze semantycznym (TBMT)
  3. Systemy interlingwialne (IMT)

 

Poniżej opiszę każdy z nich z osobna:

System oparty na słowniku DBMT:

Tłumaczenie maszynowe może wykorzystywać metodę opartą na hasłach słownikowych, co oznacza, że słowa będą tłumaczone tak, jak w słowniku – słowo po słowie. Zazwyczaj bez większej korelacji znaczeniowej między nimi.

Wyszukiwanie słownikowe może być wykonywane z analizą morfologiczną lub lematyzacją albo bez nich.

Lematyzacja – w językoznawstwie jest to proces grupowania form fleksyjnych wyrazu w taki sposób, aby można je było analizować jako pojedynczy element, identyfikowany przez lemat wyrazu lub jego formę słownikową

Pierwszy program DBMT:

LMT, wprowadzony ok. 1990 r., to oparty na języku Prolog system tłumaczenia maszynowego, który oparto na specjalnie przygotowanych słownikach dwujęzycznych, takich jak Collins English-German.

Metoda ta wykorzystuje strukturyzowaną bazę danych leksykalnych w celu poprawnej identyfikacji kategorii słów z języka źródłowego.

Pozwala to skonstruowanie spójnego zdania w języku docelowym, na podstawie podstawowej analizy morfologicznej.

System ten wykorzystuje „Frames” do określenia pozycji, jaką dane słowo powinno zajmować w zdaniu z punktu widzenia składni.

Zastosowania metody opartej na słownikach:

Jednym z możliwych zastosowań tłumaczenia maszynowego opartego na słownikach jest ułatwienie nauczania języków obcych (FLT).

Można to osiągnąć, wykorzystując technologię tłumaczenia maszynowego oraz językoznawstwo, semantykę i morfologię do tworzenia wielkoskalowych słowników praktycznie w każdym języku.

Dokładnie to do tworzenia LCS – leksykalnej struktury pojęciowej. To reprezentacja, która jest niezależna od języka. Jest ona najczęściej wykorzystywana w nauczaniu języków obcych, zwłaszcza w elemencie FLT związanym z przetwarzaniem języka naturalnego.

Drugim zastosowaniem tłumaczenia opartego na słownikach jest przekład języków pokrewnych. W przypadku bardzo bliskich języków prostsze metody tłumaczenia są bardziej wydajne, szybkie i niezawodne.

Może ona służyć do wstępnego przekładu z nieznanego języka. Tak podobno postąpiono w przypadku tłumaczenia Inferno Dantego oraz kilku rosyjskich powieści.

Innym zastosowaniem metody bezpośredniej jest przekład poezja->proza. Zachowujemy wtedy jedynie sens utwory, kompletnie pomijając jego aspekt poetyczny.

Tłumaczenie bezpośrednie było przyczyną krytyki pierwszych tłumaczeń maszynowych (patrz: Historia tłumaczenia maszynowego). Mówimy tu o eksperymencie uniwersytetu w Georgetown i firmy IBM z 1953 roku czy programie A.D Booth z 1955 roku.

Inaczej nazywana też tłumaczeniem dosłownym lub metafrazą, ta metoda jest bardzo przydatna w tłumaczeniu tekstów specjalistycznych. Tam terminologia ma zazwyczaj jasno opisane odpowiedniki, a użycie innych sformułowań byłoby błędem.

Metafraza to przeciwieństwo parafrazy. Metafraza to tłumaczenie słowo po słowie, wiersz po wierszu… nieuwzględniająca walorów artystycznych tekstu. Przeciwieństwo parafrazy, gdzie wyrażamy tekst innymi słowami, zachowując jego ogólny sens.

Pidżynizm:

Nie jest to literówka. Takie zjawisko społeczno-językowe zachodzi gdy osoba nieznająca języka posługuje się metafrazą, tłumaczeniem dosłownym.

W rezultacie otrzymujemy specyficzne połączenie obu języków, pełne również kalek językowych. Idealnym tego przykładem jest zakorzeniony już na stałe w dowcipach “ponglish”, połączenie jęz. polskiego i angielskiego.

– Rano lepiej jechać sabłejem, niż brać basa, bo w city jest okropny trafik

Źródło: ABC TŁUMACZENIA

Połączenie tłumaczenia opartego na słowniku i na przykładach:

To połączenie wykorzystuje inny schemat niż systemy takie jak LMT wspomniany wyżej.

Połączenie tych dwóch silników translatorskich pozwoliłoby na stworzenie bardzo wydajnego narzędzia tłumaczeniowego. Oprócz dokładności byłoby w stanie zwiększać swoją funkcjonalność dzięki ciągłemu feedbackowi.

Systemem, który łączy oba schematy, jest silnik tłumaczenia maszynowego Pangloss Example-Based Machine Translation (PanEBMT).

Metoda oparta na transferze semantycznym (TBMT):

Takie systemy opracowano, aby brały pod uwagę składnię i znaczenie tekstu źródłowego. Często rezultatem takiej analizy jest drzewo struktury syntaktycznej i dodatkowe informacje np. atrybuty znaczeniowe.

Przykładem takiego programu jest TRANSLATICA.

Podstawy systemu TBMT:

W przeciwieństwie do prostszej metody bezpośredniej system oparty na transferze dzieli tłumaczenie na trzy etapy:

  1. Analiza tekstu,
  2. Przeniesienie powstałej struktury do struktury odpowiedniej do wygenerowania tekstu w języku docelowym
  3. Wygenerowanie tego tekstu.

Systemy MT oparte na transferze są zatem w stanie wykorzystać wiedzę o języku źródłowym i docelowym.

Pierwszy etap polega na analizie tekstu wejściowego pod kątem morfologii i składni (a czasem także semantyki) w celu utworzenia jego wewnętrznej reprezentacji.

Reprezentacja ta może być następnie dopracowana do bardziej abstrakcyjnego poziomu, kładąc nacisk na części istotne dla tłumaczenia i ignorując inne rodzaje informacji.

W procesie transferu ta ostateczna reprezentacja (nadal w języku oryginalnym) jest przekształcana na reprezentację o tym samym poziomie abstrakcji w języku docelowym.

 Na podstawie tej reprezentacji generowane jest tłumaczenie z wykorzystaniem słowników dwujęzycznych i reguł gramatycznych.

Rodzaje analizy i transferu w systemie TBMT:

Rodzaje analizy zależą głównie od projektu systemu, ale zazwyczaj zawierają co najmniej 3 z poniższych:

Części mowy, liczba, rodzaj, czas itp.

Polega na analizie kontekstu danego słowa w celu określenia jego właściwego znaczenia w kontekście danych wejściowych.

Jest to zasadniczo tłumaczenie słownikowe.

Ten etap dotyczy większych elementów składowych, na przykład fraz i fragmentów. Typowe cechy tego etapu to zgodność płci i liczby oraz zmiana kolejności słów lub fraz.

Na podstawie danych wyjściowych z etapu transferu strukturalnego generowane są formy języka docelowego.

Jedną z głównych cech systemów tłumaczenia maszynowego opartych na transferze jest faza, która „przenosi” pośrednią reprezentację tekstu w języku oryginału na pośrednią reprezentację tekstu w języku docelowym. 

Może się to odbywać na jednym z dwóch poziomów analizy językowej lub gdzieś pomiędzy nimi. Poziomy te to:

Ten poziom charakteryzuje się przenoszeniem „struktur syntaktycznych” między językiem źródłowym i docelowym.

 

Jest on odpowiedni dla języków z tej samej rodziny lub tego samego typu, np. w językach romańskich między hiszpańskim, katalońskim, francuskim, włoskim itd.

Na tym poziomie konstruuje się reprezentację semantyczną, która jest zależna od języka źródłowego. Reprezentacja ta może składać się z serii struktur, które reprezentują znaczenie.

 

Ten poziom jest używany do tłumaczenia między językami bardziej odległymi (np. hiszpańsko-angielski, hiszpańsko-baskijski itp.).

Systemy interlingwalne (IMT):

Interlingwa lub Interlingua to sztuczny międzynarodowy język stworzony w 1951 roku. Łączy słownictwo języków romańskich (głównie hiszpański, włoski i rumuński) z uproszczoną gramatyką. Według szacunków na naukę interlingwy wystarcza 15 dni. Podobna do esperanto.

Podstawy systemu interlingwalnego (IMT):

W tym podejściu język źródłowy jest przekształcany w interlingua. Język docelowy jest następnie generowany na jego podstawie.

Tutaj interlingwa to opis analizy tekstu napisanego w języku źródłowym, umożliwiający przekształcenie jego cech morfologicznych, składniowych, semantycznych (a nawet pragmatycznych), czyli „znaczenia”, na język docelowy.

Taka interlingwa jest teoretycznie w stanie opisać wszystkie cechy wszystkich tłumaczonych języków, a nie tylko tłumaczyć z jednego języka na drugi.

Czasami używa się nawet dwóch interlingw. Tłumaczenie polega wtedy na dwustopniowej konwersji.

Język źródłowy -> Interlingwa 1 -> Interlingwa 2 -> Język docelowy

Google Translate używa języka angielskiego jako języka pośredniego dla niektórych par języków, takich jak chiński i japoński.

Wymagania metody IMT:

  • Specyficzne dla dziedziny słowniki do analizy i generowania
  • Leksykon pojęciowy danej dziedziny
  • Zestaw reguł danej dziedziny i języka
  • Gramatyki do analizy i generowania języków.

Zalety metody IMT:

  • Metoda ta wymaga mniejszej liczby komponentów do powiązania każdego języka źródłowego z każdym językiem docelowym
  • Potrzeba mniej komponentów do dodania nowego języka,
  • Metoda obsługuje języki, które bardzo się od siebie różnią np. angielski i arabski.

Wady metody IMT:

  • Definiowanie interlingwy jest trudne, a może nawet niemożliwe dla szerszej dziedziny.
  • Idealnym kontekstem dla tej metody jest zatem wielojęzyczne tłumaczenie maszynowe w bardzo specyficznej dziedzinie.

NMT, czyli jak działa Google Tłumacz:

Google Tłumacz, tak jak większość nowoczesnych tłumaczy automatycznych działa na podstawie kilku metod.

W latach 2006-2016 Google Tłumacz wykorzystywał metodę statystyczną do tłumaczenia tekstów.

Od 2016 roku wykorzystuje NMT (Neural machine translation). Ta metoda oparta jest na sztucznej sieci neuronowej do przewidywania prawdopodobieństwa sekwencji słów, zwykle modelującej całe zdania w jednym zintegrowanym modelu.

Metoda NMT wykorzystuje mały procent zasobów, jakich wymaga metoda statystyczna.

NMT nie stanowi jednak drastycznego kroku naprzód w stosunku metody statystycznej. Główną różnicą jest struktura modeli. Jest ona prostsza niż modeli opartych na frazach. Systemy NMT wykorzystują deep learning i representation learning.

Spis treści:

Słowem wstępu:

Tłumaczenie automatyczne/maszynowe to tłumaczenie tekstu bez ingerencji człowieka. Jedynie przez komputer. 

 

Tłumaczenie automatyczne jest szybsze i mniej kosztowne, ale mniej dokładne. Nie jest uznawane do końca za wiarygodne źródło wiedzy. Mówi się, że jest w stanie oddać jedynie sens przetworzonego tekstu.

Tłumaczenia automatyczne wymagają wiedzy człowieka. Z tego powodu tłumaczenie automatyczne traktuje się jako wchodzące w obszar działania sztucznej inteligencji.

Historia tłumaczenia maszynowego miała i ma znaczny wpływ na to jak dzisiaj wygląda ta technologia. Zaczęło się od prostych reguł gramatycznych. Dzisiaj dysponujemy narzędziami tworzącymi w kilka sekund ogromne ilości danych, opartymi na sieciach neuronowych.

 

Poniższy tekst jest rozwinięciem tematu opisanego w 13 mailu Akademii Tłumacza. Jeśli chcesz wiedzieć więcej o niezależnym tłumaczeniu, technologi i karierze tłumacza, zapisz się poniżej.

POCZĄTKI 📃

Bez wątpienia łamanie barier językowych leży w naturze człowieka. Szczególnie widoczne jest to w komunikacji handlowej. Pomysły na temat tłumaczeń tekstów przez maszyny pochodzą już z XVII w. Maszyny tłumaczące pojawiły się już w 1933 roku. 😮
Jednak pierwsze systemy tłumaczenia maszynowego, wymagały rozpowszechnienia się komputerów. Powstały w latach 50. XX wieku. Trwająca wtedy zimna wojna spowodowała wiele inwestycji w kryptografię, kodujące i dekodujące maszyny wojenne i również w systemy tłumaczące przekaz.

Kod enigmy złamali po raz pierwszy polscy kryptolodzy w 1932 roku.

Za początek tłumaczenia automatycznego uznaje się memorandum matematyka Warrena Weavera. W 1949 w publikacji pt. Translation opisał teoretyczną możliwość tłumaczenia tekstów przez komputer.

Uznaje się dlatego, że trudno ustalić dokładną datę pierwszych pomysłów. Najwcześniejsze znane mi naukowe źródło podaje lata 1930 i 1940. Wtedy powstały prace Petra Petrovicha Troyanskii’ego.

Weaver jako pierwszy wpadł na pomysł metody statystycznej tłumaczenia (więcej o metodach tłumaczenia w TYM poście). Wykorzystał do tego teorię informacji Claude’a Shannona.

Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.

Wracając do memorandum, Warren Weaver miał oczywiście rację, co potwierdzili naukowcy z uniwersytetu w Georgetown i firmy IBM w 1953 roku. Jednak eksperyment potwierdził jego tezy w dość ograniczony sposób.

Podający komendy po rosyjsku, nie znając języka rosyjskiego, otrzymał tłumaczenia w języku angielskim. Jednak zakres słownictwa był niewielki – 250 wyrazów, liczba zdań wynosiła tylko 60. Same zdania zostały specjalnie wybrane i zweryfikowane.

To był eksperyment z pogranicza sztucznej inteligencji i kryptografii. Pokazał, że idea stojąca za tłumaczeniem maszynowym jest możliwa do zastosowania.

Sam eksperyment nie był źle zaplanowany. Ówczesne maszyny, oparte na prostych regułach miały wielkość sporego samochodu. Daleko im było do urządzeń, z których korzystamy dzisiaj. Do tych urządzeń trzeba było wprowadzić słownictwo i gramatykę, żeby uzyskać efekty. Dość „kanciaste” efekty, pozbawione dobrej składni czy poprawności gramatycznej.

Następne lata przyniosły rozwój następnych projektów:

1955 – A. D. Booth

Program do tworzenia słownika tłumaczeniowego na elektronicznej maszynie obliczeniowej. Oparty na rozbudowanym leksykonie dwujęzycznym

1955 - A. D. Booth
Źródło: https://www.historyofinformation.com/ (03.01.22)
Kathleen Britten [później Booth], Xenia Sweeting i Andrew Booth pracujący nad ARC w grudniu 1946 roku
11 listopada 1955 roku Booth’s Electronic Computer Project w Birkbeck College, University of London przeprowadził publiczną demonstrację tłumaczenia maszynowego.

1960 – G. W. King (1960)

Teoretycznie wykazno wtedy statystyczną metodę tłumaczenia. Stworzoną 30 lat później 😮

Zdecydowanie był to postęp. Jednak postęp daleki od rozbudzonych nadziei na uniwersytecie IBM w Georgetown.

ALPAC

Zostając dalej w USA, w 1964 roku powstał komitet ALPAC (Automatic Language Processing Advisory Commitee). Powstał w celu zweryfikowania czy tłumaczenie automatyczne ma sens.

Po dwóch latach, z jego raportu wynika, że kompletnie nie ma. Raport mówił, że jakość takiego tłumaczenia jest niska, koszt za wysoki, terminy realizacji zbyt długie. Raport spowodował wstrzymanie rządowego finansowania w tę technologię.

SYSTRAN I METEOR 🌠

Wstrzymanie finansowanie spowodowało powstanie podmiotów prywatnych, które zajęły się tematem. W 1968 powstała firma Systran (istniejąca do dzisiaj). 

Najpierw świadczyła ona usługi tłumaczenia na potrzeby Ministerstwa Obrony USA, a potem Komisji Europejskiej. Rozwiązania firmy Systran stanowiły podwaliny dzisiejszego Google Translate. Tłumaczenia oparte na regułach zaczęły przechodzić do świata cywilnego

Lata 90 🎵

Drugim godnym uwagi jest tłumacz automatyczny Meteor. Opracowano go w 1975 roku i używano aż do 2001 roku. Stworzono go w celu tłumaczenia komunikatów prognoz pogody w Kanadzie, angielski/francuski.

Był swoistego rodzaju cudem technologicznym, ponieważ ważył niecałe 1,5 mgb i mieścił się na jednej dyskietce 💾 Tłumaczył 30 milionów wyrazów rocznie, 20 stron na sekundę. Jego jakość szacowano na 97%, co nawet dzisiaj jest nieosiągalne.

Jednak było to możliwe dzięki powtarzalności, ograniczeniu składni i słownictwa komunikatów pogodowych.

W latach 90. XX wieku nastąpił przełom technologiczny. Udoskonalono tłumaczenia maszynowe oparte na statystyce. Wzrosła potrzeba komunikacji międzynarodowej, szczególnie handlowej, a osoby prywatne zaczęły używać sieci Internet.

Firmy stojące za tłumaczeniami automatycznymi zaczęły odchodzić od reguł gramatycznych i stosować podejście statystyczne. Dlatego tłumaczenie automatyczne tego samego tekstu, w różnych odstępach czasu da różne efekty.

W 1992 roku pojawił się pierwszy program do przekładu forum internetowego, z angielskiego na niemiecki. Niedługo później stworzono BabelFish Altavista. Darmowy program, który dotarł do masowego odbiorcy. Niestety przełożone zdania były pozbawione logiki i zawodne.

Odpowiedzią na to stała się technologia machine learning – uczenie maszynowe. Już w 1949 r. Alan Turing, brytyjski informatyk słusznie stwierdził, że komputer nie może myśleć jak maszyna. Jego tok myślenia musi naśladować człowieka i pracować na podstawie prób i błędów (stąd uczenie się). Turing brał również udział w łamaniu szyfrów Enigmy.

TŁUMACZENIA AUTOMATYCZNE W POLSCE

Pierwszy produkt komercyjny w parze językowej polski – angielski. Oparto go na dwujęzycznym leksykonie i tylko kilku regułach gramatycznych. Jak można się domyślić, nie był dużym sukcesem.

Dużo bardziej rozbudowany, na bazie ogromnych słowników (kilka milionów haseł każdy). Dzięki niemu można było uzyskać przekład z polskiego na niemiecki, włoski, hiszpański, francuski, angielski i rosyjski.

Stworzony przez informatyków z Uniwersytetu im. Adama Mickiewicza w Poznaniu. Prace rozpoczęły się już w 1996 roku. Powstał dzięki chęci dostosowania systemu komunikacji banku AIB (Allied Irish Bank) – kiedyś udziałowca WBK. Bank AIB dołączył do projektu w 2001 roku.

Firma stojąca za poprzednim projektem (również nazwana POLENG) stworzyła jeszcze jeden program. W 2004 roku powstał system tłumaczenia Translatica oparty na głębokiej analizie składniowej.

System Translatica tworzy drzewo składniowe języka wyjściowego, przekształca na drzewo języka docelowego 🌳. Z tego powstaje dopiero przetłumaczone zdanie.

Wartym uwagi jest jeszcze projekt dwóch badaczy z UAM. Stworzyli oni projekt open-source, pozwalający na tworzenie neuronowego systemu tłumaczenia automatycznego. Co ważne oparty jest on o prywatne zasoby językowe. Projekt nazywa się Marian-NMT i jest dostępny TUTAJ

Obecnie projektem zajmuje się Microsoft. System jest silnikiem kolejnego rozwiązania tłumaczenia maszynowego – Microsoft Translator Neural Machine Translator. Dodatkowo silnik został napisany tylko w C++ 😮

Sam Microsoft Translator zapewnia średnią jakość tłumaczeń. Wartym uwagi jest jego funkcja rozmów wielojęzykowych. Osoba pisze na czacie w jednym języku, a jego rozmówcy widzą wiadomość w swoim ojczystym języku.

GOOGLE TRANSLATE – GT

W 2006 r. dwa lata po powstaniu Translatica powstał Google Translate (GT). Rok później oferujący już język polski. Oczywiście jakość tego tłumaczenia była niska. Jednak cały system dostępny był za darmo, co stopniowo wypierało komercyjne rozwiązania

Dodatkowym czynnikiem jego popularyzacji był dostęp do ogromnych i wciąż rosnących zasobów tekstowych. Wynika to z firmy stojącej za GT. Z drugiej strony, mało która firma mogła wtedy pozwolić sobie na stworzenie takiego produktu. Do dzisiaj baza danych GT to największy zasób tekstowy na świecie 📚

HISTORIA NAJNOWSZA

W 2014 roku firma Google i niezależnie od niej Uniwersytet w Montrealu opracowały podstawy i zaproponowały tłumaczenia automatyczne oparte na sieciach neuronowych 🧠

Sieci neuronowe to systemy przetwarzania informacji oparte, na działaniu biologicznego systemu nerwowego. Ich struktura, oraz schematy sztucznych neuronów są oparte na naszym układzie nerwowym. Wykazują one zdolność uczenia się na podstawie przykładów i generalizacji (uogólniania) zdobytej wiedzy. Dobrym przykładem zastosowania sieci neuronowych są programy OCR – optyczne rozpoznawanie pisma. Nie osiągnęły one jeszcze pułapu swoich możliwości i w najbliższych latach możemy spodziewać się dużego postępu w tej dziedzinie.

Wartym uwagi tłumaczem automatycznym jest DeepL. Obecnie jeden z najlepszych tłumaczy. Wspierany sztuczną inteligencją. 🤖 Oczywiście nadal nieidealny. 

Na naszych oczach dzieje się rewolucja. Dzięki algorytmom i sieciom neuronowym. Nie dość, że te systemy różnią się od swoich poprzedników z poprzedniego wieku, ale także codziennie się uczą. Systemy tłumaczeń maszynowych pracują już podobnie do ludzkiego mózgu. Trudno więc przewidzieć kierunek, w jakim się rozwiną.

Pamiętaj, przyszłość zaczyna się dziś

Źródła:

  1. Claude E. Shannon. Pobrane z: https://pl.wikipedia.org/wiki/Claude_E._Shannon
  2. Hutchins, J., & Lovtskii, E. (2000). Petr Petrovich Troyanskii (1894-1950): A Forgotten Pioneer of Mechanical Translation. Machine Translation, 15(3), 187–221. http://www.jstor.org/stable/40009018
  3. Jaseem, K. (2020) Historia tłumaczenia automatycznego w pigułce. Pobrane z: https://ai.pwn.pl/blog/historia-tlumaczenia-automatycznego-w-pigulce
  4. Krótka historia tłumaczenia maszynowego. Kiedy się zaczęła?. Pobrane z: https://summalinguae.com/pl/technologie-jezykowe/krotka-historia-tlumaczenia-maszynowego-kiedy-sie-zaczela/
  5. Krótka historia tłumaczenia maszynowego. Pobrane z: http://mlingua.pl/pol/czytelnia/technologie_tlumaczeniowe1,,krotka_historia_tlumaczenia_maszynowego_john_hutchins_tlum_agnieszka_slemp_,a,521,p,0.html
  6. Teoria Informacji. Pobrane z: https://pl.wikipedia.org/wiki/Teoria_informacji
  7. Tłumaczenie automatyczne.: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_automatyczne
  8. Tłumaczenie statystyczne. Pobrane z: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_statystyczne

Spis treści

Czym są programy CAT?

Programy CAT (Computer Assisted Translation) nie mają tak naprawdę nic wspólnego z kotami, niestety 😔

Znane też jako computer-aided translation, są one koniecznymi narzędziami profesjonalnych tłumaczy i biur tłumaczeń, ponieważ poprawiają jakość, spójność terminologiczną i przyśpieszają projekty.

Narzędzia CAT pozwalają tłumaczom przyspieszyć proces przekształcania języka źródłowego w docelowy. Ten rodzaj technologii wspomagającej jest podobny do procesorów tekstu, takich jak Google Docs, które sugerują alternatywną pisownię lub sygnalizują błędy gramatyczne, lub do LinkedIn, automatycznie dodającego możliwe odpowiedzi do ekranu odpowiedzi.

Tłumacząc pliki HTML, strony internetowe czy interfejsy aplikacji, ale także, praktycznie każdy dłuższy tekst opłaca się używać programów CAT. Często są one mylone z MT (machine translation), czyli automatycznym komputerowym tłumaczeniem – Google Tłumacz, DeepL i inne. Nie jest to jednak to samo oprogramowanie.

CAT

Photo by Isabella and Zsa Fischer on Unsplash

Krótko mówiąc programy CAT to taki pamiętliwy Word na sterydach 💪, automatycznie sprawdzający poprawność tekstu. Dlatego, że działają one na podstawie schematu:

  1. Zbieranie danych z pliku wejściowego
  2. Dzielenie tekstu na segmenty (zdania, wiersze, komórki)
  3. Automatyczne tłumaczenie segmentów zawierających proste, replikowalne dane (liczby, znaki itp.) 
  4. Automatyczne tłumaczenie segmentów zapisanych wcześniej w pamięci tłumaczeniowej (opcjonalna funkcja – powtórzenia)
  5. CAT może przygotować komputerowe tłumaczenie, które wymaga później akceptacji tłumacza
Przykład segmentacji

Przykład segmentacji i propozycji tłumaczenia maszynowego w programie Smartcat

Schemat ten otwiera szerokie pole do usprawnienia i przyśpieszenia procesu tłumaczeniowego, szczególnie przy plikach z dziedziny, w której się specjalizujemy, lub plików z dużą ilością powtarzającego się tekstu 😎

Na przykład polityki prywatności, regulaminy, ustawy, tłumaczenia medyczne, prawnicze – często zawierają te same formuły i frazy. Powtarzają się też one wielokrotnie.

Dzięki programom CAT wystarczy przetłumaczyć je tylko raz. Jeśli mamy je już zapisane w pamięci tłumaczeniowej, może się okazać, że połowa naszego tekstu zostanie wstępnie przetłumaczona, na podstawie wcześniejszych tłumaczeń, a nam zostanie sama weryfikacja i ew. korekta.

Najważniejsze funkcje programów CAT

🗄️ Pamięć tłumaczeniowa

Inaczej TM – translation memory. TM zapisuje i przechowuje wcześniej wygenerowane tłumaczenia w bazie danych i przywołuje je w momencie tłumaczenia pasującego segmentu. Jest to w zasadzie baza danych, Twoja lub również innych tłumaczy, z którymi współpracujesz. Na przykład biura tłumaczeń dysponują wielkimi bazami danych dotyczącymi tekstów prawniczych czy medycznych. Pozwala to tłumaczom w łatwy sposób wybierać frazy, które zostały już przetłumaczone, w ramach różnych projektów.

Tłumacz musi ocenić, czy przywołane zdania z pamięci tłumaczeniowej pasują do kontekstu nowego tłumaczenia 🤔 Co ważne, pamięć tłumaczeniowa działa również cross-file, czyli tłumaczenie danego segmentu, pojawi się we wszystkich plikach, w danym projekcie.

Powtórzenia i fuzzy matches

Takie same segmenty jak ten, który pojawił się wcześniej w tekście, to powtórzenia. Segmenty w dużym stopniu do niego podobne to fuzzy matches.

Programy CAT posiadają opcję automatycznego wypełniania danego segmentu. Właśnie wtedy gdy trafią, na powtórzenia.

Przykład:

Tłumaczymy katalog, gdzie nazwy produktów nie różnią się za wiele. Numer i jakieś oznaczenia. W przypadku gdy mamy ich kilkadziesiąt lub kilkaset, pisanie ich ręcznie może przyprawić o ból głowy. Dzięki programom CAT ograniczymy się do pierwszego wystąpienia danej frazy. Wszystkie kolejne zostaną w okamgnieniu dopasowane do tego co wprowadziliśmy. Dzięki innym funkcjom możemy być pewni, że tłumaczenie będzie spójne i zachowamy oryginalny wygląd nazw produktów.

Powtórzenia w programie CAT
Powtórzenia (tylko) w programie CAT. 3x szybsza praca.

🗒️ Glosariusz/baza terminologiczna

To lista terminologii branżowej i/lub specyficznej dla danej firmy. Odnosi się do listy terminów i definicji w konkretnym projekcie, którą można wyodrębnić z tekstu głównego. Wyjaśnia ona, co oznaczają dane terminy, jak je tłumaczyć i czy w ogóle je tłumaczyć, np. nazwy marek, produktów, skróty i terminologia branżowa.

Jeśli dysponujemy już taką listą, składającą się z terminów i ich tłumaczenia, wystarczy wgrać ją do programu. Przy następnym wystąpieniu danego terminu, wyświetli nam się przypomnienie, że dany termin należy tłumaczyć w zapisany wcześniej sposób.

Bazy terminologiczne zapewniają, że nawet jeśli te tłumaczenia są wykonywane przez różne osoby, otrzymamy spójne tłumaczenie. Co ciekawe, różne pamięci tłumaczeniowe i glosariusze można zakupić i to za niemałe pieniądze 💸

Całe pamięci tłumaczeniowe i glosariusze, możemy zapisać sobie w prywatnej bazie danych i z biegiem czasu naprawdę ułatwimy sobie tłumaczenia.

☑️ Sprawdzanie jakości

Błędy zdarzają się najlepszym z nas. Narzędzia kontroli jakości (QA) automatycznie sprawdzają, czy w tekście nie ma powtórzeń, dodatkowych spacji między słowami lub innych literówek, które mogą pojawić się w trakcie procesu tłumaczenia. 

Moduły QA wykrywają:

  • niespójności, 
  • zmianę liczby lub treści adresów e-mail, lub adresów URL, 
  • różne nawiasy lub liczby, 
  • niespójny HTML
  • identyczny tekst 
  • różne tłumaczenia dla podobnych segmentów
  • kropki, wykrzykniki itd.

Do tego warto dodać sobie wtyczki sprawdzające pisownie jak Language Tool czy Grammarly i nic już nam nie umknie.

🏆 Korzyści z zastosowania narzędzi CAT

Spójność

Jeśli tłumaczymy, kilkanaście plików w jednym projekcie, musimy się upewnić, że terminy będą tak samo przetłumaczone. Tutaj załatwiamy wszystkie za jednym razem, jeśli segmenty są w 100% takie same. Mamy również podpowiedzi, gdy korzystamy z funckcji zarządzania terminologią.

Szybkość: 

Jesteśmy w stanie dużo szybciej przetłumaczyć dany plik, co przekłada się na wyższe zarobki i więcej czasu wolnego. win-win 🌴

Jakość: 

Im więcej kontekstu mamy, tym wyższej jakości tłumaczenia możemy dostarczyć. Pamięć tłumaczeniowa, glosariusz dostarczają kontekstu opisowego. Czasami można jeszcze spotkać się ze zrzutami ekranu jako kontekst wizualny, w przypadku gdy klient zleca nam pracę w jego narzędziu/portalu CAT.

Zachowanie formatowania pliku wejściowego

Można sobie wyobrazić tłumaczenie pliku w Wordzie, nie daj boże skonwertowanego z PDF, gdzie jedno przesunięcie pliku, psuje nam cały układ. 

mem Word

Redditor: Breaking UE Laws on Reddit

Dzięki programom CAT zachowujemy oryginalny wygląd i formatowanie pliku, wliczając w to pogrubienia, kursywy, hiperłącza, tytułu i podtytuły.

Po przygotowanym tłumaczeniu następuje eksport tłumaczenia. Program CAT podmienia tekst źródłowy na tekst docelowy, zachowując formatowanie.

Programy CAT w skrócie

  • krótszy czas przygotowania tłumaczenia
  • niższa cena tłumaczenia
  • spójność
  • dokładność tłumaczenia
  • podpowiedzi, odnośnie kolejnych fragmentów tekstu
  • jednolita terminologia
  • zachowanie formatowania pliku wejściowego

Najpopularniejsze Caty

Najpopularniejszy, najdroższy i trudny w nauce. Plusem jest zapisywanie wszystkiego na naszym komputerze, dobre dla tłumaczy przysięgłych. Minusem koszt i wymagany czas na naukę (nie obejdzie się tutaj bez filmów na YT czy kursów). Na rynku od 25 lat. Ma swoje formaty plików.

Plusy

Minusy

Najbardziej popularny – ułatwiona wymiana informacji

Wysoka cena

Stosowane przez biura tłumaczeń

Stroma krzywa uczenia się z powodu skomplikowanego interfejsu

trados
Źródło: LSP Software

Jeden z najbardziej znanych programów, oferuje podobne funkcje co SDL, średnio lubiany wśród tłumaczy, bardzo lubiany wśród zagranicznych biur tłumaczy.

Plusy

Minusy

Możliwość podejrzenia tłumaczeń na żywo, w dokumencie

Działa tylko na Windows

Wzory tłumaczeń dokumentów

Wymaga podłączenia do serwisu MemoQ

 

Wysoka cena w stosunku do jakości

memoQ
Źródło: Redokun

Plusy

Minusy

Praktycznie zerowa wiedz potrzebna do obsługi programu

Stary wygląd

Organizacja plików jak na dysku Google

Wyświetlanie segmentów na kilku różnych stronach, przez co często trzeba wracać do poprzednich

Opcja wstępnego tłumaczenia plików na podstawie różnych baz danych

 

Możliwość wgrania obrazów jako 

 
Źródło: Redokun

Plusy

Minusy

prosty interfejs i można się go nauczyć w 10 minut

Nie wszystkie opcje są dostępne

zintegrowana platforma do znajdowania klientów, płatności itd. (mały digital marketplace)

Przy większej ilości plików trudne zarządzanie TM

darmowy (rozpoznawanie tekstu ze zdjęć i lepsze tłumaczenia maszynowe płatne)

 
Smartcat
Źródło: Redokun

Transifex

Plusy

Minusy

Stworzony z myślą o tłumaczeniu aplikacji. Super zintegrowany z GitHub

Mniejsze zastosowanie przy innych rodzajach pliku niż software

Niska cena

Nie wszystkie opcje są dostęne

Możliwość urządzenia głosowania – gdzie tłumacze decydują wspólnie nad poprawnym tłumaczeniem

Na początku stworzony tylko w celach lokalizacji oprogramowania

Transifex
Źródło: Redokun

Plusy

Minusy

Darmowy, ale Twoje tłumaczenia są przekazywane do bazy danych pamięci tłumaczeń Crowdin

Stworzony głównie do lokalizacji oprogramowania

Oparty o przechowywanie plików w chmurze

Darmowy, ale Twoje tłumaczenia są przekazywane do bazy danych pamięci tłumaczeń Crowdin

Integracja z GitHub, Play Store, Azure itp.

 
Crowdin
Źródło: Redokun

Plusy

Minusy

Darmowy

Archaiczny wygląd

Obsługuje ponad 30 formatów plików

Brakuje dużej ilości funkcji

Program open-source

 

Możliwość modyfikacji narzędzia, na podstawie potrzeb tłumacza

 
Omega T
Źródło: Redokun

Plusy

Minusy

Nakładka do Worda

Archaiczny wygląd

Niska cena, opcja darmowego oprogramowania Wordfast Free

Skomplikowana instalacja

Nieograniczona liczba pamięci tłumaczeniowych i glosariuszy

Producent twierdzi, że jest kompatybilny z formatami SDL Trados – tłumaczom zdarzają się z tym często problemy

Wordfast
Źródło: Redokun

Plusy

Minusy

Bardzo łatwa obsługa, nie wymaga długiego szkolenia

Archaiczny wygląd

Aplikacja mobilna

Częste problemy z QA

Niska cena

 
Memsource
Źródło: Redokun

Obojętnie, który program CAT wybierzesz, musisz wiedzieć, że nie jesteś skazany na jedno narzędzie. Możesz korzystać z wielu. Dzięki takim programom zapewniamy pliki o stałej, wysokiej jakości. 

Wcześniej niemożliwe funkcje, dokładność i zapewnianie zgodności z wytycznymi klienta zapewniają programom CAT stałą pozycję w arsenale narzędzi tłumacza.

© 2021 Akademia Tłumacza