Metody tłumaczenia automatycznego

Strona Główna
Metody tłumaczenia automatycznego

Spis treści:

Wstęp
Metoda statystyczna
Metoda oparta na przykładach
Metoda oparta na regułach
Metoda oparta na słownikach
Połączenie metod opartych na przykładach i słownikach
Metoda oparta na transferze semantycznym
Systemy interlingwalne
NMT, czyli jak działa Google Tłumacz.

Wstęp:

Wyróżniamy kilka podstawowych metod tłumaczenia maszynowego:

statystyczna (SMT)
oparta na przykładach (EBMT)
oparta na regułach / składniowa (RBMT)
- oparta na słownikach, bezpośrednia (DBMT)
- oparta na transferze semantycznym (TBMT)
- oparta na interlingwie (IMT)

Oprócz tego istnieją metody hybrydowe oraz NMT.

Metoda statystyczna:

Metoda statystyczna, właściwie jej pierwsze koncepcje zostały opisane w 1949 roku przez Warrena Weavera (patrz. Historia tłumaczenia automatycznego).

Zaproponował on użycie do tego teorii informacji Claude’a Shannona.

Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.

Korzystając z tej metody, tłumaczenie tworzone jest na podstawie modeli statystycznych. Modele pozyskiwane są poprzez analizę korpusu równoległego danej pary językowej.

Korpus równoległy to duży zbiór tekstów równoległych. Czyli odpowiadających sobie tekstów w dwóch językach.

Odpowiadające sobie zdania, zapisane jedno pod drugim nazywamy dwutekstem (ang. bitext). Jest to podobne do pamięci tłumaczeniowej używanej dzisiaj przez tłumaczy w programach CAT.

Różnicą jest to, że w pamięci tłumaczeniowej zdania przechowywane są niezależnie i traci się ich kontekst. Pamięć tłumaczeniowa jest w tym wypadku tylko bazą danych.

Istnieją formaty jak np. TMX (ang. Translation Memory eXchange) gdzie zachowuje się oryginalny układ zdań. Dzięki takim formatom można stosować pamięci tłumaczeniowe w wielu różnych programach.

Podstawy tłumaczenia statystycznego:

Przy tłumaczeniu statystycznym określa się prawdopodobieństwo, że dany ciąg znaków w języku źródłowym odpowiada ciągowi znaków w języku docelowym.

Powoduje to kilka problemów.

Znalezienie najlepszego tłumaczenia polega na wybraniu najbardziej prawdopodobnego ciągu znaków. Który jest najbardziej prawdopodobny?

Odkładając skomplikowane wzory matematyczne na bok, implementacja tej metody mogłaby polegać na przeszukiwaniu wszystkich możliwych ciągów znaków w języku docelowym.

Nie do końca. Wydajne przeszukiwanie takiego zbioru należy do zadań dekodera tłumaczenia maszynowego. Korzysta on z wielu metod i algorytmów, żeby ustalić jak najlepsze tłumaczenie.

Tworzy on kompromis pomiędzy ograniczaniem ilości przeszukiwanych zasobów a przyzwoitą jakością tłumaczenia.

Oczywiście przeszukiwanie odpowiednika całego tekstu nie jest możliwe. Tekst tłumaczony jest zdanie po zdaniu.

Wyrazy vs. zdania w metodzie statystycznej:

Podstawową jednostką tłumaczenia za pomocą metody statystycznej są wyrazy. Oczywiście różni się ona w zależności od języka ze względu na morfologię, składnię, idiomy itd.

Teoretycznie gdyby każde słowo odpowiadało konkretnemu wyrazowi w języku docelowym, byłoby dużo prościej. Tymczasem jedno słowo może mieć wiele znaczeń.

Np. polski homonim (wyraz o kilku znaczeniach) można przełożyć na “castle” lub “lock” oraz kilka innych możliwości, zależnie od kontekstu. Które tłumaczenie jest lepsze? Bardziej prawdopodobne według dekodera tłumaczenia maszynowego.

Płodność to wskaźnik mówiący ile wyrazów można wyprodukować z jednego słowa z języka źródłowego.

Pierwsze systemy tłumaczenia statystycznego operowały na poziomie wyrazów. Obecnie korzysta się z systemów na większych strukturamch składniowych, jednak dopasowania wyrazów nadal są używane do stwierdzania różnych pojedynczych parametrów.

Tłumaczenie na podstawie wyrazów zostało zastąpione tłumaczeniami na podstawie fraz.

Frazy te, czyli inaczej bloki lub ciągi zdań nie są frazami w rozumieniu lingwistycznym, ale wyrazami z korpusu równoległego. Wyciągniętym z niego właśnie przy pomocy metod statystycznych.

Warto wspomnieć, że najnowsze technologie operują na ogromnej bazie danych. Przoduje tu Google Tłumacz i jego astronomiczna liczba tekstów równoległych.

Zalety metody statystycznej:

Lepsze i szybsze wykorzystanie zasobów – w obiegu jest duża ilość tekstów w postaci cyfrowej. Czeka ona tylko na obróbkę statystyczną.
Jest to lepsza metoda niż systemy oparte na regułach. Nie wymaga ręcznego opracowywania reguł językowych. Oszczędza to dużą ilość zasobów ludzkich i nie ogranicza działania programu do konkretnego języka.
Bardziej naturalne brzmiące tłumaczenie. Jeśli odpowiednik danego ciągu znaków pojawia się bardzo często, prawdopodobne jest, że będzie poprawny.
Takie systemy bazują też na stworzonych przez człowieka tekstach. Otrzymany przekład może być bardziej naturalny niż tłumaczenie na podstawie odgórnie napisanych reguł.

Wady tłumaczenia statystycznego:

Nie jest to metoda idealna. Do problemów metody statystycznej należą:

wyrazy złożone
homonimy (patrz wyżej)
idiomy
morfologia danego języka
szyk wyrazów w zdaniu
wyrazy niebędące w słowniku (zestawie treningowym systemu)

Metoda oparta na przykładach (ang. EBMT)

To metoda tłumaczenia maszynowego, która charakteryzuje się użyciem dwujęzycznych korpusów z tekstami równoległymi jako głównej bazy wiedzy.

Jest to zasadniczo tłumaczenie przez analogię i może być postrzegane jako implementacja podejścia do uczenia maszynowego opartego na wnioskowaniu na podstawie przypadków.

Tłumaczenia przez analogię w odniesieniu do tłumaczenia przez człowieka mówi, że ludzie nie dokonują przekładu, bazując na głębokiej analizie lingwistycznej.

Zamiast tego opiera się na przekonaniu, że ludzie:

tłumaczą, rozkładając zdanie na pewne frazy,
przekładają te frazy,
odpowiednio składają te fragmenty w jedno długie zdanie.

Zasada tłumaczenia przez analogię jest zakodowana w tłumaczeniu maszynowym opartym na przykładach poprzez tłumaczenia przykładowe, które są używane do trenowania takiego systemu.

Podstawy tłumaczenia opartego na przykładach:

Systemy tłumaczenia maszynowego oparte na przykładach są trenowane na podstawie dwujęzycznych korpusów równoległych zawierających pary zdań.

Pary zdań zawierają zdania w jednym języku wraz z ich tłumaczeniami na inny język. Na podstawie par minimalnych, zdań różniących się tylko jednym elementem, można łatwo nauczyć się tłumaczeń części zdania.

Komponowanie tych jednostek może być wykorzystane do tworzenia nowych tłumaczeń w przyszłości.

Pierwsze systemy tłumaczenia opartego na przykładach zostały wynalezione w latach 70. Przykładem takiego systemu jest Systran (patrz Historia tłumaczenia automatycznego).

Przykładem systemu korzystającego z metody opartej na przykładach jest Cunei.

Platforma typu open source, która powstała w wyniku badań nad EBMT, ale obejmuje również najnowsze osiągnięcia w dziedzinie metody statystycznej.

Tłumaczenie maszynowe oparte na przykładach zostało po raz pierwszy zaproponowane przez Makoto Nagao w 1984 r. Zwrócił on uwagę, że jest ono szczególnie przydatne do tłumaczenia między dwoma zupełnie różnymi językami, takimi jak angielski i japoński.

W tym przypadku jedno zdanie można przetłumaczyć na kilka poprawnych zdań w innym języku, dlatego nie ma potrzeby przeprowadzania dogłębnej analizy językowej, charakterystycznej dla tłumaczenia maszynowego opartego na regułach. 👇

Metoda oparta na regułach (ang. RBMT)

Jest to starsza technologia (zwana klasyczną metodą tłumaczenia automatycznego), która bazuje na połączeniu reguł gramatycznych, językowych i słownikach.

Mając do dyspozycji zdania wejściowe (w języku źródłowym), system RBMT generuje je do postaci zdań wyjściowych (w języku docelowym) na podstawie analizy morfologicznej, składniowej i semantycznej zarówno języka źródłowego, jak i docelowego.

Systemy oparte na regułach można również określić jako systemy przeciwstawne do systemów opartych na przykładach (Example Based Machine Translation), natomiast hybrydowe systemy tłumaczenia maszynowego wykorzystują wiele zasad zaczerpniętych z RBMT.

Typy metody RBMT:

Wyróżnia się trzy podstawowe typy RBMT:

Systemy bezpośrednie, oparte na słownikach (DBMT)
Systemy oparte na transferze semantycznym (TBMT)
Systemy interlingwalne (IMT)

Wszystkie trzy metody opiszę poniżej. Ale najpierw dalsza część metody opartej na regułach RBMT:

Podstawy metody opartej na regułach:

Systemy RBMT opierają się na łączeniu struktury danego zdania wejściowego ze strukturą żądanego zdania wyjściowego, przy czym konieczne jest zachowanie ich unikalnego znaczenia.

“A girl eats an apple.” To zdanie poprosimy na język niemiecki.

Aby uzyskać niemieckie tłumaczenie tego angielskiego zdania, system RBMT potrzebuje co najmniej:

Słownika ang-niem.
Reguł struktur zdań angielskich.
Reguł struktur zdań niemieckich.
Zasad, według których można te dwie struktury ze sobą powiązać.

Schemat działania RMBT:

Uzyskanie podstawowych informacji o części mowy każdego słowa źródłowego:

a = przedimek nieokreślony;
girl = rzeczownik;
eats = czasownik;
an = przedimek nieokreślony;
apple = rzeczownik

Uzyskanie informacji składniowej o czasowniku "eat":

Eat – Present Simple, 3. osoba liczby pojedynczej, strona czynna

Parsowanie zdania źródłowego:

Parsowanie to inaczej dokonywanie analizy składniowej ciągu znaków w celu ustalenia jej struktury.

an apple = obiekt działania czasownika (eat)

Często tylko częściowe parsowanie jest wystarczające, aby dotrzeć do struktury składniowej zdania źródłowego i odwzorować ją na strukturę zdania docelowego.

Tłumaczenie ang-niem

a (przedimek nieokreślony) => ein (przedimek nieokreślony)
girl (rzeczownik) => Mädchen (rzeczownik)
eat (czasownik) => essen (czasownik)
an (przedimek nieokreślony) => ein (przedimek nieokreślony)
jabłko (rzeczownik) => Apfel (rzeczownik)

Mapowanie haseł słownikowych na odpowiednie formy fleksyjne

Tylko w najnowszych wersjach programów:

A girl eats an apple. => Ein Mädchen isst einen Apfel.

Elementy systemu RBMT:

JŹ – język źródłowy
JD – język docelowy

Analizator morfologiczny JŹ

Analizuje słowo w języku źródłowym i dostarcza informacji morfologicznych.

Parser JŹ

Jest analizatorem składni, który analizuje zdania w języku źródłowym.

Translator

Służy do tłumaczenia słowa z języka źródłowego na język docelowy.

Generator morfologiczny JD

Działa jako generator odpowiednich słów języka docelowego dla podanej informacji gramatycznej.

Parser JD

Działa jako kompozytor odpowiednich zdań języka docelowego.

Minimum trzy słowniki

słownik JŹ – potrzebny parserowi języka źródłowego do analizy morfologicznej,
słownik dwujęzyczny – używany przez tłumacza do przekładu słów z języka źródłowego na słowa z języka docelowego,
słownik JD- potrzebny parserowi do generowania słów języka docelowego.

System RBMT wykorzystuje następujące elementy:

Gramatyka JŹ

Buduje konstrukcje składniowe ze zdań wejściowych;

Leksykon JŹ

Zawiera całe dopuszczalne słownictwo w danej dziedzinie;

Reguły mapowania JŹ

Wskazują, w jaki sposób składnia i gramatyka zostaną zapisane przez komputer.

Model ontologiczny

Schemat pojęciowy co odpowiada czemu.

Reguły mapowania JD

Wskazują, w jaki sposób pojęcia i semantyka są mapowane na elementy składniowe i funkcje gramatyczne w języku docelowym;

Leksykon JD

Zawiera odpowiednie leksemy docelowe dla każdego pojęcia z danej dziedziny;

Gramatyka JD

Realizuje docelowe konstrukcje składniowe jako zdania wyjściowe.

Zalety tłumaczenia opartego na regułach:

Nie są potrzebne teksty paralelne. Umożliwia to tworzenie systemów tłumaczeniowych dla języków, które nie mają wspólnych tekstów, a nawet nie mają żadnych danych cyfrowych.
Niezależność od dziedziny. Reguły są zazwyczaj pisane w sposób niezależny od dziedziny.
Teoretycznie mogą być idealne (kiedyś). Każdy błąd można skorygować za pomocą odpowiedniej reguły, nawet jeśli dany przypadek jest niezwykle rzadki. Jest to przeciwieństwo systemów statystycznych, w których rzadko występujące formy będą domyślnie usuwane.
Pełna kontrola. Ponieważ wszystkie reguły są pisane ręcznie, system oparty na regułach można łatwo debugować, aby dokładnie sprawdzić, gdzie dany błąd został wprowadzony do systemu i dlaczego.
Możliwość ponownego użycia. Ponieważ systemy RBMT są zazwyczaj zbudowane z solidnej analizy języka źródłowego, części analizy języka źródłowego i generatora języka docelowego mogą być współdzielone przez wiele systemów tłumaczeniowych.

Wymagają one wtedy jedynie wyspecjalizowania etapu transferu. Ponadto analiza języka źródłowego dla jednego języka może być ponownie wykorzystana do uruchomienia analizy języka pokrewnego.

Wady tłumaczenia opartego na regułach:

Niewystarczająca liczba naprawdę dobrych słowników. Tworzenie nowych słowników jest kosztowne.
Reguły nadal muszą być ustalane ręcznie.
Trudno jest poradzić sobie z interakcjami reguł w dużych systemach, wieloznacznością i wyrażeniami idiomatycznymi.
Brak możliwości adaptacji do nowych dziedzin. Chociaż systemy RBMT zazwyczaj zapewniają mechanizm tworzenia nowych reguł oraz rozszerzania i adaptacji leksykonu, zmiany są zazwyczaj bardzo kosztowne, a ich rezultaty często nie są opłacalne.

Pamiętasz poszczególne typy metody opartej na regułach?

Systemy bezpośrednie, oparte na słownikach (DBMT)
Systemy oparte na transferze semantycznym (TBMT)
Systemy interlingwialne (IMT)

Poniżej opiszę każdy z nich z osobna:

System oparty na słowniku DBMT:

Tłumaczenie maszynowe może wykorzystywać metodę opartą na hasłach słownikowych, co oznacza, że słowa będą tłumaczone tak, jak w słowniku – słowo po słowie. Zazwyczaj bez większej korelacji znaczeniowej między nimi.

Wyszukiwanie słownikowe może być wykonywane z analizą morfologiczną lub lematyzacją albo bez nich.

Lematyzacja – w językoznawstwie jest to proces grupowania form fleksyjnych wyrazu w taki sposób, aby można je było analizować jako pojedynczy element, identyfikowany przez lemat wyrazu lub jego formę słownikową

Pierwszy program DBMT:

LMT, wprowadzony ok. 1990 r., to oparty na języku Prolog system tłumaczenia maszynowego, który oparto na specjalnie przygotowanych słownikach dwujęzycznych, takich jak Collins English-German.

Metoda ta wykorzystuje strukturyzowaną bazę danych leksykalnych w celu poprawnej identyfikacji kategorii słów z języka źródłowego.

Pozwala to skonstruowanie spójnego zdania w języku docelowym, na podstawie podstawowej analizy morfologicznej.

System ten wykorzystuje „Frames” do określenia pozycji, jaką dane słowo powinno zajmować w zdaniu z punktu widzenia składni.

Zastosowania metody opartej na słownikach:

Jednym z możliwych zastosowań tłumaczenia maszynowego opartego na słownikach jest ułatwienie nauczania języków obcych (FLT).

Można to osiągnąć, wykorzystując technologię tłumaczenia maszynowego oraz językoznawstwo, semantykę i morfologię do tworzenia wielkoskalowych słowników praktycznie w każdym języku.

Dokładnie to do tworzenia LCS – leksykalnej struktury pojęciowej. To reprezentacja, która jest niezależna od języka. Jest ona najczęściej wykorzystywana w nauczaniu języków obcych, zwłaszcza w elemencie FLT związanym z przetwarzaniem języka naturalnego.

Drugim zastosowaniem tłumaczenia opartego na słownikach jest przekład języków pokrewnych. W przypadku bardzo bliskich języków prostsze metody tłumaczenia są bardziej wydajne, szybkie i niezawodne.

Może ona służyć do wstępnego przekładu z nieznanego języka. Tak podobno postąpiono w przypadku tłumaczenia Inferno Dantego oraz kilku rosyjskich powieści.

Innym zastosowaniem metody bezpośredniej jest przekład poezja->proza. Zachowujemy wtedy jedynie sens utwory, kompletnie pomijając jego aspekt poetyczny.

Tłumaczenie bezpośrednie było przyczyną krytyki pierwszych tłumaczeń maszynowych (patrz: Historia tłumaczenia maszynowego). Mówimy tu o eksperymencie uniwersytetu w Georgetown i firmy IBM z 1953 roku czy programie A.D Booth z 1955 roku.

Inaczej nazywana też tłumaczeniem dosłownym lub metafrazą, ta metoda jest bardzo przydatna w tłumaczeniu tekstów specjalistycznych. Tam terminologia ma zazwyczaj jasno opisane odpowiedniki, a użycie innych sformułowań byłoby błędem.

Metafraza to przeciwieństwo parafrazy. Metafraza to tłumaczenie słowo po słowie, wiersz po wierszu… nieuwzględniająca walorów artystycznych tekstu. Przeciwieństwo parafrazy, gdzie wyrażamy tekst innymi słowami, zachowując jego ogólny sens.

Pidżynizm:

Nie jest to literówka. Takie zjawisko społeczno-językowe zachodzi gdy osoba nieznająca języka posługuje się metafrazą, tłumaczeniem dosłownym.

W rezultacie otrzymujemy specyficzne połączenie obu języków, pełne również kalek językowych. Idealnym tego przykładem jest zakorzeniony już na stałe w dowcipach “ponglish”, połączenie jęz. polskiego i angielskiego.

– Rano lepiej jechać sabłejem, niż brać basa, bo w city jest okropny trafik

Źródło: ABC TŁUMACZENIA

Połączenie tłumaczenia opartego na słowniku i na przykładach:

To połączenie wykorzystuje inny schemat niż systemy takie jak LMT wspomniany wyżej.

Połączenie tych dwóch silników translatorskich pozwoliłoby na stworzenie bardzo wydajnego narzędzia tłumaczeniowego. Oprócz dokładności byłoby w stanie zwiększać swoją funkcjonalność dzięki ciągłemu feedbackowi.

Systemem, który łączy oba schematy, jest silnik tłumaczenia maszynowego Pangloss Example-Based Machine Translation (PanEBMT).

Metoda oparta na transferze semantycznym (TBMT):

Takie systemy opracowano, aby brały pod uwagę składnię i znaczenie tekstu źródłowego. Często rezultatem takiej analizy jest drzewo struktury syntaktycznej i dodatkowe informacje np. atrybuty znaczeniowe.

Przykładem takiego programu jest TRANSLATICA.

Podstawy systemu TBMT:

W przeciwieństwie do prostszej metody bezpośredniej system oparty na transferze dzieli tłumaczenie na trzy etapy:

Analiza tekstu,
Przeniesienie powstałej struktury do struktury odpowiedniej do wygenerowania tekstu w języku docelowym
Wygenerowanie tego tekstu.

Systemy MT oparte na transferze są zatem w stanie wykorzystać wiedzę o języku źródłowym i docelowym.

Pierwszy etap polega na analizie tekstu wejściowego pod kątem morfologii i składni (a czasem także semantyki) w celu utworzenia jego wewnętrznej reprezentacji.

Reprezentacja ta może być następnie dopracowana do bardziej abstrakcyjnego poziomu, kładąc nacisk na części istotne dla tłumaczenia i ignorując inne rodzaje informacji.

W procesie transferu ta ostateczna reprezentacja (nadal w języku oryginalnym) jest przekształcana na reprezentację o tym samym poziomie abstrakcji w języku docelowym.

Na podstawie tej reprezentacji generowane jest tłumaczenie z wykorzystaniem słowników dwujęzycznych i reguł gramatycznych.

Rodzaje analizy i transferu w systemie TBMT:

Rodzaje analizy zależą głównie od projektu systemu, ale zazwyczaj zawierają co najmniej 3 z poniższych:

Analiza morfologiczna

Części mowy, liczba, rodzaj, czas itp.

Kategoryzacja leksykalna

Polega na analizie kontekstu danego słowa w celu określenia jego właściwego znaczenia w kontekście danych wejściowych.

Transfer leksykalny

Jest to zasadniczo tłumaczenie słownikowe.

Transfer strukturalny

Ten etap dotyczy większych elementów składowych, na przykład fraz i fragmentów. Typowe cechy tego etapu to zgodność płci i liczby oraz zmiana kolejności słów lub fraz.

Generowanie morfologiczne

Na podstawie danych wyjściowych z etapu transferu strukturalnego generowane są formy języka docelowego.

Jedną z głównych cech systemów tłumaczenia maszynowego opartych na transferze jest faza, która „przenosi” pośrednią reprezentację tekstu w języku oryginału na pośrednią reprezentację tekstu w języku docelowym.

Może się to odbywać na jednym z dwóch poziomów analizy językowej lub gdzieś pomiędzy nimi. Poziomy te to:

Transfer powierzchniowy (syntaktyczny)

Ten poziom charakteryzuje się przenoszeniem „struktur syntaktycznych” między językiem źródłowym i docelowym.

Jest on odpowiedni dla języków z tej samej rodziny lub tego samego typu, np. w językach romańskich między hiszpańskim, katalońskim, francuskim, włoskim itd.

Transfer głęboki (semantyczny)

Na tym poziomie konstruuje się reprezentację semantyczną, która jest zależna od języka źródłowego. Reprezentacja ta może składać się z serii struktur, które reprezentują znaczenie.

Ten poziom jest używany do tłumaczenia między językami bardziej odległymi (np. hiszpańsko-angielski, hiszpańsko-baskijski itp.).

Systemy interlingwalne (IMT):

Interlingwa lub Interlingua to sztuczny międzynarodowy język stworzony w 1951 roku. Łączy słownictwo języków romańskich (głównie hiszpański, włoski i rumuński) z uproszczoną gramatyką. Według szacunków na naukę interlingwy wystarcza 15 dni. Podobna do esperanto.

Podstawy systemu interlingwalnego (IMT):

W tym podejściu język źródłowy jest przekształcany w interlingua. Język docelowy jest następnie generowany na jego podstawie.

Tutaj interlingwa to opis analizy tekstu napisanego w języku źródłowym, umożliwiający przekształcenie jego cech morfologicznych, składniowych, semantycznych (a nawet pragmatycznych), czyli „znaczenia”, na język docelowy.

Taka interlingwa jest teoretycznie w stanie opisać wszystkie cechy wszystkich tłumaczonych języków, a nie tylko tłumaczyć z jednego języka na drugi.

Czasami używa się nawet dwóch interlingw. Tłumaczenie polega wtedy na dwustopniowej konwersji.

Język źródłowy -> Interlingwa 1 -> Interlingwa 2 -> Język docelowy

Google Translate używa języka angielskiego jako języka pośredniego dla niektórych par języków, takich jak chiński i japoński.

Wymagania metody IMT:

Specyficzne dla dziedziny słowniki do analizy i generowania
Leksykon pojęciowy danej dziedziny
Zestaw reguł danej dziedziny i języka
Gramatyki do analizy i generowania języków.

Zalety metody IMT:

Metoda ta wymaga mniejszej liczby komponentów do powiązania każdego języka źródłowego z każdym językiem docelowym
Potrzeba mniej komponentów do dodania nowego języka,
Metoda obsługuje języki, które bardzo się od siebie różnią np. angielski i arabski.

Wady metody IMT:

Definiowanie interlingwy jest trudne, a może nawet niemożliwe dla szerszej dziedziny.
Idealnym kontekstem dla tej metody jest zatem wielojęzyczne tłumaczenie maszynowe w bardzo specyficznej dziedzinie.

NMT, czyli jak działa Google Tłumacz:

Google Tłumacz, tak jak większość nowoczesnych tłumaczy automatycznych działa na podstawie kilku metod.

W latach 2006-2016 Google Tłumacz wykorzystywał metodę statystyczną do tłumaczenia tekstów.

Od 2016 roku wykorzystuje NMT (Neural machine translation). Ta metoda oparta jest na sztucznej sieci neuronowej do przewidywania prawdopodobieństwa sekwencji słów, zwykle modelującej całe zdania w jednym zintegrowanym modelu.

Metoda NMT wykorzystuje mały procent zasobów, jakich wymaga metoda statystyczna.

NMT nie stanowi jednak drastycznego kroku naprzód w stosunku metody statystycznej. Główną różnicą jest struktura modeli. Jest ona prostsza niż modeli opartych na frazach. Systemy NMT wykorzystują deep learning i representation learning.

Pingback: Historia tłumaczenia automatycznego - Akademia Tłumacza
Pingback: Metody oceny tłumaczenia automatycznego - Akademia Tłumacza

Dodaj komentarz Anuluj pisanie odpowiedzi

Musisz się zalogować, aby móc dodać komentarz.