fbpx

Historia tłumaczenia automatycznego

1955 - A. D. Booth

Historia tłumaczenia automatycznego. Jak od Enigmy przeszliśmy do Google Tłumacza i sieci neuronowych. Historia od lat 40' do dzisiaj.

Spis treści:

Słowem wstępu:

Tłumaczenie automatyczne/maszynowe to tłumaczenie tekstu bez ingerencji człowieka. Jedynie przez komputer. 

 

Tłumaczenie automatyczne jest szybsze i mniej kosztowne, ale mniej dokładne. Nie jest uznawane do końca za wiarygodne źródło wiedzy. Mówi się, że jest w stanie oddać jedynie sens przetworzonego tekstu.

Tłumaczenia automatyczne wymagają wiedzy człowieka. Z tego powodu tłumaczenie automatyczne traktuje się jako wchodzące w obszar działania sztucznej inteligencji.

Historia tłumaczenia maszynowego miała i ma znaczny wpływ na to jak dzisiaj wygląda ta technologia. Zaczęło się od prostych reguł gramatycznych. Dzisiaj dysponujemy narzędziami tworzącymi w kilka sekund ogromne ilości danych, opartymi na sieciach neuronowych.

 

Poniższy tekst jest rozwinięciem tematu opisanego w 13 mailu Akademii Tłumacza. Jeśli chcesz wiedzieć więcej o niezależnym tłumaczeniu, technologi i karierze tłumacza, zapisz się poniżej.

Dołącz do newslettera, aby otrzymywać więcej takich informacji

POCZĄTKI 📃

Bez wątpienia łamanie barier językowych leży w naturze człowieka. Szczególnie widoczne jest to w komunikacji handlowej. Pomysły na temat tłumaczeń tekstów przez maszyny pochodzą już z XVII w. Maszyny tłumaczące pojawiły się już w 1933 roku. 😮
Jednak pierwsze systemy tłumaczenia maszynowego, wymagały rozpowszechnienia się komputerów. Powstały w latach 50. XX wieku. Trwająca wtedy zimna wojna spowodowała wiele inwestycji w kryptografię, kodujące i dekodujące maszyny wojenne i również w systemy tłumaczące przekaz.

Kod enigmy złamali po raz pierwszy polscy kryptolodzy w 1932 roku.

Za początek tłumaczenia automatycznego uznaje się memorandum matematyka Warrena Weavera. W 1949 w publikacji pt. Translation opisał teoretyczną możliwość tłumaczenia tekstów przez komputer.

Uznaje się dlatego, że trudno ustalić dokładną datę pierwszych pomysłów. Najwcześniejsze znane mi naukowe źródło podaje lata 1930 i 1940. Wtedy powstały prace Petra Petrovicha Troyanskii’ego.

Weaver jako pierwszy wpadł na pomysł metody statystycznej tłumaczenia (więcej o metodach tłumaczenia w TYM poście). Wykorzystał do tego teorię informacji Claude’a Shannona.

Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.

Wracając do memorandum, Warren Weaver miał oczywiście rację, co potwierdzili naukowcy z uniwersytetu w Georgetown i firmy IBM w 1953 roku. Jednak eksperyment potwierdził jego tezy w dość ograniczony sposób.

Podający komendy po rosyjsku, nie znając języka rosyjskiego, otrzymał tłumaczenia w języku angielskim. Jednak zakres słownictwa był niewielki – 250 wyrazów, liczba zdań wynosiła tylko 60. Same zdania zostały specjalnie wybrane i zweryfikowane.

To był eksperyment z pogranicza sztucznej inteligencji i kryptografii. Pokazał, że idea stojąca za tłumaczeniem maszynowym jest możliwa do zastosowania.

Sam eksperyment nie był źle zaplanowany. Ówczesne maszyny, oparte na prostych regułach miały wielkość sporego samochodu. Daleko im było do urządzeń, z których korzystamy dzisiaj. Do tych urządzeń trzeba było wprowadzić słownictwo i gramatykę, żeby uzyskać efekty. Dość „kanciaste” efekty, pozbawione dobrej składni czy poprawności gramatycznej.

Następne lata przyniosły rozwój następnych projektów:

1955 – A. D. Booth

Program do tworzenia słownika tłumaczeniowego na elektronicznej maszynie obliczeniowej. Oparty na rozbudowanym leksykonie dwujęzycznym

1955 - A. D. Booth
Źródło: https://www.historyofinformation.com/ (03.01.22)
Kathleen Britten [później Booth], Xenia Sweeting i Andrew Booth pracujący nad ARC w grudniu 1946 roku
11 listopada 1955 roku Booth’s Electronic Computer Project w Birkbeck College, University of London przeprowadził publiczną demonstrację tłumaczenia maszynowego.

1960 – G. W. King (1960)

Teoretycznie wykazno wtedy statystyczną metodę tłumaczenia. Stworzoną 30 lat później 😮

Zdecydowanie był to postęp. Jednak postęp daleki od rozbudzonych nadziei na uniwersytecie IBM w Georgetown.

ALPAC

Zostając dalej w USA, w 1964 roku powstał komitet ALPAC (Automatic Language Processing Advisory Commitee). Powstał w celu zweryfikowania czy tłumaczenie automatyczne ma sens.

Po dwóch latach, z jego raportu wynika, że kompletnie nie ma. Raport mówił, że jakość takiego tłumaczenia jest niska, koszt za wysoki, terminy realizacji zbyt długie. Raport spowodował wstrzymanie rządowego finansowania w tę technologię.

SYSTRAN I METEOR 🌠

Wstrzymanie finansowanie spowodowało powstanie podmiotów prywatnych, które zajęły się tematem. W 1968 powstała firma Systran (istniejąca do dzisiaj). 

Najpierw świadczyła ona usługi tłumaczenia na potrzeby Ministerstwa Obrony USA, a potem Komisji Europejskiej. Rozwiązania firmy Systran stanowiły podwaliny dzisiejszego Google Translate. Tłumaczenia oparte na regułach zaczęły przechodzić do świata cywilnego

Lata 90 🎵

Drugim godnym uwagi jest tłumacz automatyczny Meteor. Opracowano go w 1975 roku i używano aż do 2001 roku. Stworzono go w celu tłumaczenia komunikatów prognoz pogody w Kanadzie, angielski/francuski.

Był swoistego rodzaju cudem technologicznym, ponieważ ważył niecałe 1,5 mgb i mieścił się na jednej dyskietce 💾 Tłumaczył 30 milionów wyrazów rocznie, 20 stron na sekundę. Jego jakość szacowano na 97%, co nawet dzisiaj jest nieosiągalne.

Jednak było to możliwe dzięki powtarzalności, ograniczeniu składni i słownictwa komunikatów pogodowych.

W latach 90. XX wieku nastąpił przełom technologiczny. Udoskonalono tłumaczenia maszynowe oparte na statystyce. Wzrosła potrzeba komunikacji międzynarodowej, szczególnie handlowej, a osoby prywatne zaczęły używać sieci Internet.

Firmy stojące za tłumaczeniami automatycznymi zaczęły odchodzić od reguł gramatycznych i stosować podejście statystyczne. Dlatego tłumaczenie automatyczne tego samego tekstu, w różnych odstępach czasu da różne efekty.

W 1992 roku pojawił się pierwszy program do przekładu forum internetowego, z angielskiego na niemiecki. Niedługo później stworzono BabelFish Altavista. Darmowy program, który dotarł do masowego odbiorcy. Niestety przełożone zdania były pozbawione logiki i zawodne.

Odpowiedzią na to stała się technologia machine learning – uczenie maszynowe. Już w 1949 r. Alan Turing, brytyjski informatyk słusznie stwierdził, że komputer nie może myśleć jak maszyna. Jego tok myślenia musi naśladować człowieka i pracować na podstawie prób i błędów (stąd uczenie się). Turing brał również udział w łamaniu szyfrów Enigmy.

TŁUMACZENIA AUTOMATYCZNE W POLSCE

Pierwszy produkt komercyjny w parze językowej polski – angielski. Oparto go na dwujęzycznym leksykonie i tylko kilku regułach gramatycznych. Jak można się domyślić, nie był dużym sukcesem.

Dużo bardziej rozbudowany, na bazie ogromnych słowników (kilka milionów haseł każdy). Dzięki niemu można było uzyskać przekład z polskiego na niemiecki, włoski, hiszpański, francuski, angielski i rosyjski.

Stworzony przez informatyków z Uniwersytetu im. Adama Mickiewicza w Poznaniu. Prace rozpoczęły się już w 1996 roku. Powstał dzięki chęci dostosowania systemu komunikacji banku AIB (Allied Irish Bank) – kiedyś udziałowca WBK. Bank AIB dołączył do projektu w 2001 roku.

Firma stojąca za poprzednim projektem (również nazwana POLENG) stworzyła jeszcze jeden program. W 2004 roku powstał system tłumaczenia Translatica oparty na głębokiej analizie składniowej.

System Translatica tworzy drzewo składniowe języka wyjściowego, przekształca na drzewo języka docelowego 🌳. Z tego powstaje dopiero przetłumaczone zdanie.

Wartym uwagi jest jeszcze projekt dwóch badaczy z UAM. Stworzyli oni projekt open-source, pozwalający na tworzenie neuronowego systemu tłumaczenia automatycznego. Co ważne oparty jest on o prywatne zasoby językowe. Projekt nazywa się Marian-NMT i jest dostępny TUTAJ

Obecnie projektem zajmuje się Microsoft. System jest silnikiem kolejnego rozwiązania tłumaczenia maszynowego – Microsoft Translator Neural Machine Translator. Dodatkowo silnik został napisany tylko w C++ 😮

Sam Microsoft Translator zapewnia średnią jakość tłumaczeń. Wartym uwagi jest jego funkcja rozmów wielojęzykowych. Osoba pisze na czacie w jednym języku, a jego rozmówcy widzą wiadomość w swoim ojczystym języku.

GOOGLE TRANSLATE – GT

W 2006 r. dwa lata po powstaniu Translatica powstał Google Translate (GT). Rok później oferujący już język polski. Oczywiście jakość tego tłumaczenia była niska. Jednak cały system dostępny był za darmo, co stopniowo wypierało komercyjne rozwiązania

Dodatkowym czynnikiem jego popularyzacji był dostęp do ogromnych i wciąż rosnących zasobów tekstowych. Wynika to z firmy stojącej za GT. Z drugiej strony, mało która firma mogła wtedy pozwolić sobie na stworzenie takiego produktu. Do dzisiaj baza danych GT to największy zasób tekstowy na świecie 📚

HISTORIA NAJNOWSZA

W 2014 roku firma Google i niezależnie od niej Uniwersytet w Montrealu opracowały podstawy i zaproponowały tłumaczenia automatyczne oparte na sieciach neuronowych 🧠

Sieci neuronowe to systemy przetwarzania informacji oparte, na działaniu biologicznego systemu nerwowego. Ich struktura, oraz schematy sztucznych neuronów są oparte na naszym układzie nerwowym. Wykazują one zdolność uczenia się na podstawie przykładów i generalizacji (uogólniania) zdobytej wiedzy. Dobrym przykładem zastosowania sieci neuronowych są programy OCR – optyczne rozpoznawanie pisma. Nie osiągnęły one jeszcze pułapu swoich możliwości i w najbliższych latach możemy spodziewać się dużego postępu w tej dziedzinie.

Wartym uwagi tłumaczem automatycznym jest DeepL. Obecnie jeden z najlepszych tłumaczy. Wspierany sztuczną inteligencją. 🤖 Oczywiście nadal nieidealny. 

Na naszych oczach dzieje się rewolucja. Dzięki algorytmom i sieciom neuronowym. Nie dość, że te systemy różnią się od swoich poprzedników z poprzedniego wieku, ale także codziennie się uczą. Systemy tłumaczeń maszynowych pracują już podobnie do ludzkiego mózgu. Trudno więc przewidzieć kierunek, w jakim się rozwiną.

Pamiętaj, przyszłość zaczyna się dziś

Dołącz do newslettera, aby otrzymywać więcej takich informacji

Źródła:

  1. Claude E. Shannon. Pobrane z: https://pl.wikipedia.org/wiki/Claude_E._Shannon
  2. Hutchins, J., & Lovtskii, E. (2000). Petr Petrovich Troyanskii (1894-1950): A Forgotten Pioneer of Mechanical Translation. Machine Translation, 15(3), 187–221. http://www.jstor.org/stable/40009018
  3. Jaseem, K. (2020) Historia tłumaczenia automatycznego w pigułce. Pobrane z: https://ai.pwn.pl/blog/historia-tlumaczenia-automatycznego-w-pigulce
  4. Krótka historia tłumaczenia maszynowego. Kiedy się zaczęła?. Pobrane z: https://summalinguae.com/pl/technologie-jezykowe/krotka-historia-tlumaczenia-maszynowego-kiedy-sie-zaczela/
  5. Krótka historia tłumaczenia maszynowego. Pobrane z: http://mlingua.pl/pol/czytelnia/technologie_tlumaczeniowe1,,krotka_historia_tlumaczenia_maszynowego_john_hutchins_tlum_agnieszka_slemp_,a,521,p,0.html
  6. Teoria Informacji. Pobrane z: https://pl.wikipedia.org/wiki/Teoria_informacji
  7. Tłumaczenie automatyczne.: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_automatyczne
  8. Tłumaczenie statystyczne. Pobrane z: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_statystyczne
  • Komentarze

Dodaj komentarz

© 2021 Akademia Tłumacza