fbpx

Ocena tłumaczenia automatycznego

Sensowność tłumaczenia

Podczas oceny tłumaczenia automatycznego trzeba zacząć od pojęcia sensowności. Wyróżnia się trzy:

Najprościej mówiąc to słownikowe znaczenie słów. Nie zależy ona od kontekstu sytuacyjnego.

Tutaj objawiają się mankamenty technologii. Język logiki komunikowalny jest tylko poprzez język naturalny. 

Zdanie może być przetłumaczone poprawnie, w kwestii doboru słów, ale może brakować mu logicznego sensu.

Tutaj mówimy o konkretnych kontekstach sytuacyjnych.

Tłumaczenie może być dobre słownikowo, logiczne, ale niedostosowane do kodu językowego i kultury danego kraju.

Problematyka tłumaczenia automatycznego

Sens

Takie tłumaczenie musi brać pod uwagę wszystkie trzy zagadnienia sensu opisane powyżej. Oczywiście ostatni stwarza najwięcej problemów.
Popatrz na dzisiejsze reklamy produktów społecznych. Ile jest produktów lekkich albo light?
Bez określonego kodu kulturowego (i indoktrynacji przez marki) nie zrozumielibyśmy w ogóle takiego przekazu. W niektórych krajach takie reklamy nie mają sensu.

Znaczenia

Komputer oczywiście nie zna znaczenia. Gdyby twórcy programów znali każde znaczenie danego słowa byłoby prościej.

Sprzeciwia się to bowiem językowi logiki technologii. Zasada kompozycji znaczeniowej, mówi, że znaczenia wyrażenia całkowitego to suma wyrażeń składowych.

Metafory

Pojawiają się one tylko w języku naturalnym. Komputery nie są w stanie ich rozpoznać. Chyba że zostały wgrane do programu przez człowieka.
Przykład: Geografia jest moją piętą achillesową.
Bez odpowiednich statystyk lub reguł, tłumacz automatyczny nie mógłby przetłumaczyć tego zdania poprawnie.

Synonimia

W każdym języku znajdziemy słowa, których wszystkich znaczeń nie znamy. Już wtedy sprawiają nam problemy.

Tym bardziej sprawiają problemy komputerom. Tym bardziej że wyrazy mogą nie mieć odpowiednika w języku docelowym.

Homonimy

Wyrazy o dwóch znaczeniach to kolejny problem tłumaczenia automatycznego.

Zazwyczaj rozwiązują go na bazie metody statystycznej. Więcej o metodzie statystycznej i innych tutaj.

Im częściej występuje dane tłumaczenie w tekstach w Internecie, tym bardziej prawdopodobne jest, że będzie poprawne.

Składnia

Języki to żywe twory i różnią się miedzy sobą. 

Język angielski to język pozycyjny, gdzie pozycja wyrazów w zdaniu odgrywa ważną rolę. Tymczasem język polski zachowuje się zupełnie inaczej.

Dodatkowym problemem jest tutaj występowanie rodzajników, podmiotu domyślnego, różnych czasów, aspektu. Te części języka nie są obecne we wszystkich językach.

Ocena tłumaczenia automatycznego

Do dyspozycji mamy kilka środków. Najlepszym z nich jest wykorzystanie ludzkich osądów. Zajmuje dużo czasu, ale jest jedyną dotychczas opracowaną zapewniającą dobre rezultaty.
Automatyczne metody oceny to m.in. BLEU, NIST, WER i METEOR.

Rozwój metod oceny tłumaczenia maszynowego

Na rozwój metod ocen takiego tłumaczenia miały wpływ głównie dwa badania.

ALPAC (Automatic Language Processing Advisory Committee)

Pokazał on, że tłumaczenia automatyczne są kiepskiej jakości, a rząd USA obciął finansowania na tę dziedzinę technologii.

Raport ALPAC szerzej opisywałem w poście na temat historii tłumaczenia automatycznego.
Do artykułu

„Human Language Technologies Program” agencji ARPA

To tam stworzono metody oceny tłumaczenia automatycznego, z których korzystamy do dzisiaj.

Więcej o samych metodach tłumaczenia automatycznego możesz przeczytać w artykule poniżej.
Do artykułu

Metody oceny zależne od człowieka

Round-trip translation

Bardzo prosta, stosowana bardzo często. Niestety niedoskonała.
Polega na przetłumaczeniu danego tekstu na język docelowy, a potem z powrotem na język wyjściowy, tym samym narzędziem.
Minusem jest to, że testuje tak naprawdę dwa silniki tłumaczenia. Z języka A->B oraz B->A.
Możesz sprawdzić to sam, albo wyszukać memy z Google Tłumacza w Internecie. Najczęściej powstają w ten sposób.

Automatyczne metody oceny tłumaczenia automatycznego

Pominę tutaj zagadnienia czysto algorytmiczne i wzory obliczania precyzji.

Takie algorytmy ciężko zapamiętać i według mnie, nie ma to najmniejszego sensu.

BLEU

Jedna z pierwszych metod. Jej założenie mówi, że im bliższe jest tłumaczenie komputerowe tłumaczeniu ludzkiemu, tym wyższy wynik.
Obliczane są punkty za segmenty, najczęściej zdania i wyliczana jest średnia. Z badań wynika, że ta metoda jest bardzo podobna do ludzkiej oceny.
Metoda BLEU nie bierze jednak pod uwagę zrozumiałości i poprawności gramatycznej zdania. Zdanie może być nielogiczne i zupełnie niezrozumiałe i otrzymać wysokie noty.
Pomijając skomplikowane reguły i obliczanie precyzji, BLEU nie jest idealne.
BLEU uważano za podobny do ludzkiej oceny. Do dzisiaj pozostaje punktem odniesienia do wszystkich nowych metod oceny tłumaczenia automatycznego.
Takie czysto technologiczne zagadnienia są najlepszą sferą, gdzie sprawdza się ta metoda.
Zanotowano dwa przypadki, gdzie BLEU sobie poważnie nie poradził. Były to:

NIST

Wariacja metody BLEU. Poprzednia metoda przypisuje równe wartości n-gramom.

💡 N-gram to model stosowany w rozpoznawaniu języka. Opiera się na statystyce i służy do przewidywania następnego słowa lub jednostki w sekwencji.

NIST uwzględnia również, ile informacji niesie ze sobą konkretna jednostka.
Im rzadziej występuje dana jednostka, tym większą wagę otrzyma. NIST oblicza też inaczej “kary za zwięzłość” jeśli mała zmiana długości tekstu nie ma wpływu na całość.

WER

Inaczej współczynnik rozpoznawania błędów (ang. WER – Word Error Rate). Bazuje na odległości Levenshteina.
Odległość Levenshteina opisuje zmianę długości słowa. Np. dla wyrazów mama i matka wynosi 2.
Drugie m w „mama” zmienione na t oraz dołożone k; ma(~ tk)+a.
WER opisuje jednak odległość pomiędzy słowami, nie literami w obrębie jednego wyrazu.

Metoda ta porównuje ilość słów, która różni się gdy porównamy tekst do wzorcowego tłumaczenia przez człowieka.

💡 Podobną do WER jest metoda PER (ang. PER: position-independent word error rate). Opisuje ona dokładnie to samo, tylko niezależnie od pozycji.

METEOR

Metoda powstała, aby zminimalizować minusy BLEU.
Bazuje na ważonej średniej harmonicznej precyzji jak BLEU i odwołań.

Inne cechy METEOR nieobecne w innych metodach

Która z metod oceny tłumaczenia automatycznego jest najlepsza?

Pierwsze miejsce zajmuje ludzka ocena. Myślę, że nie zmieni się to w przeciągu kilkunastu lat.

Reszta metod ma swoje zastosowania. W niektórych sytuacjach jedne sprawdzają się lepiej, inne gorzej.
Za najlepszą niearbitralnie uznawany jest METEOR.

Według badań METEOR, w porównaniu do oceny człowieka, uzyskał wynik 0,964 na poziomie korpusu,

Wynik BLEU na tym samym zestawie danych to 0,817.
Najwyższa korelacja z oceną przez człowieka uzyskana na poziomie zdań to 0,403.
Jak widać, nie są to narzędzia doskonałe i nic nie jest w stanie jeszcze zastąpić ludzkiego osądu i “oka tłumacza”.