Ocena tłumaczenia automatycznego

Strona Główna
Ocena tłumaczenia automatycznego

Sensowność tłumaczenia

Podczas oceny tłumaczenia automatycznego trzeba zacząć od pojęcia sensowności. Wyróżnia się trzy:

Sensowność lokucyjna

Najprościej mówiąc to słownikowe znaczenie słów. Nie zależy ona od kontekstu sytuacyjnego.

Sensowność logiczna

Tutaj objawiają się mankamenty technologii. Język logiki komunikowalny jest tylko poprzez język naturalny.

Zdanie może być przetłumaczone poprawnie, w kwestii doboru słów, ale może brakować mu logicznego sensu.

Sensowność wolicjonalno-emotywna

Tutaj mówimy o konkretnych kontekstach sytuacyjnych.

Tłumaczenie może być dobre słownikowo, logiczne, ale niedostosowane do kodu językowego i kultury danego kraju.

Problematyka tłumaczenia automatycznego

Sens

Takie tłumaczenie musi brać pod uwagę wszystkie trzy zagadnienia sensu opisane powyżej. Oczywiście ostatni stwarza najwięcej problemów.

Popatrz na dzisiejsze reklamy produktów społecznych. Ile jest produktów lekkich albo light?

Bez określonego kodu kulturowego (i indoktrynacji przez marki) nie zrozumielibyśmy w ogóle takiego przekazu. W niektórych krajach takie reklamy nie mają sensu.

Znaczenia

Komputer oczywiście nie zna znaczenia. Gdyby twórcy programów znali każde znaczenie danego słowa byłoby prościej.

Sprzeciwia się to bowiem językowi logiki technologii. Zasada kompozycji znaczeniowej, mówi, że znaczenia wyrażenia całkowitego to suma wyrażeń składowych.

Metafory

Pojawiają się one tylko w języku naturalnym. Komputery nie są w stanie ich rozpoznać. Chyba że zostały wgrane do programu przez człowieka.

Przykład: Geografia jest moją piętą achillesową.

Bez odpowiednich statystyk lub reguł, tłumacz automatyczny nie mógłby przetłumaczyć tego zdania poprawnie.

Synonimia

W każdym języku znajdziemy słowa, których wszystkich znaczeń nie znamy. Już wtedy sprawiają nam problemy.

Tym bardziej sprawiają problemy komputerom. Tym bardziej że wyrazy mogą nie mieć odpowiednika w języku docelowym.

Homonimy

Wyrazy o dwóch znaczeniach to kolejny problem tłumaczenia automatycznego.

Zazwyczaj rozwiązują go na bazie metody statystycznej. Więcej o metodzie statystycznej i innych tutaj.

Im częściej występuje dane tłumaczenie w tekstach w Internecie, tym bardziej prawdopodobne jest, że będzie poprawne.

Składnia

Języki to żywe twory i różnią się miedzy sobą.

Język angielski to język pozycyjny, gdzie pozycja wyrazów w zdaniu odgrywa ważną rolę. Tymczasem język polski zachowuje się zupełnie inaczej.

Dodatkowym problemem jest tutaj występowanie rodzajników, podmiotu domyślnego, różnych czasów, aspektu. Te części języka nie są obecne we wszystkich językach.

Ocena tłumaczenia automatycznego

Do dyspozycji mamy kilka środków. Najlepszym z nich jest wykorzystanie ludzkich osądów. Zajmuje dużo czasu, ale jest jedyną dotychczas opracowaną zapewniającą dobre rezultaty.

Automatyczne metody oceny to m.in. BLEU, NIST, WER i METEOR.

Rozwój metod oceny tłumaczenia maszynowego

Na rozwój metod ocen takiego tłumaczenia miały wpływ głównie dwa badania.

ALPAC (Automatic Language Processing Advisory Committee)

Pokazał on, że tłumaczenia automatyczne są kiepskiej jakości, a rząd USA obciął finansowania na tę dziedzinę technologii.

Raport ALPAC szerzej opisywałem w poście na temat historii tłumaczenia automatycznego.

Do artykułu

„Human Language Technologies Program” agencji ARPA

To tam stworzono metody oceny tłumaczenia automatycznego, z których korzystamy do dzisiaj.

Więcej o samych metodach tłumaczenia automatycznego możesz przeczytać w artykule poniżej.

Do artykułu

Metody oceny zależne od człowieka

Round-trip translation

Bardzo prosta, stosowana bardzo często. Niestety niedoskonała.

Polega na przetłumaczeniu danego tekstu na język docelowy, a potem z powrotem na język wyjściowy, tym samym narzędziem.

Minusem jest to, że testuje tak naprawdę dwa silniki tłumaczenia. Z języka A->B oraz B->A.

Możesz sprawdzić to sam, albo wyszukać memy z Google Tłumacza w Internecie. Najczęściej powstają w ten sposób.

Automatyczne metody oceny tłumaczenia automatycznego

Pominę tutaj zagadnienia czysto algorytmiczne i wzory obliczania precyzji.

Takie algorytmy ciężko zapamiętać i według mnie, nie ma to najmniejszego sensu.

BLEU

Jedna z pierwszych metod. Jej założenie mówi, że im bliższe jest tłumaczenie komputerowe tłumaczeniu ludzkiemu, tym wyższy wynik.

Obliczane są punkty za segmenty, najczęściej zdania i wyliczana jest średnia. Z badań wynika, że ta metoda jest bardzo podobna do ludzkiej oceny.

Metoda BLEU nie bierze jednak pod uwagę zrozumiałości i poprawności gramatycznej zdania. Zdanie może być nielogiczne i zupełnie niezrozumiałe i otrzymać wysokie noty.

Pomijając skomplikowane reguły i obliczanie precyzji, BLEU nie jest idealne.

BLEU uważano za podobny do ludzkiej oceny. Do dzisiaj pozostaje punktem odniesienia do wszystkich nowych metod oceny tłumaczenia automatycznego.

Takie czysto technologiczne zagadnienia są najlepszą sferą, gdzie sprawdza się ta metoda.

Zanotowano dwa przypadki, gdzie BLEU sobie poważnie nie poradził. Były to:

Ewaluacje NIST z 2005 roku

Analiza silnika SYSTRAN

Ewaluacje NIST z 2005 roku

Analiza silnika SYSTRAN

NIST

Wariacja metody BLEU. Poprzednia metoda przypisuje równe wartości n-gramom.

💡 N-gram to model stosowany w rozpoznawaniu języka. Opiera się na statystyce i służy do przewidywania następnego słowa lub jednostki w sekwencji.

NIST uwzględnia również, ile informacji niesie ze sobą konkretna jednostka.

Im rzadziej występuje dana jednostka, tym większą wagę otrzyma. NIST oblicza też inaczej “kary za zwięzłość” jeśli mała zmiana długości tekstu nie ma wpływu na całość.

WER

Inaczej współczynnik rozpoznawania błędów (ang. WER – Word Error Rate). Bazuje na odległości Levenshteina.

Odległość Levenshteina opisuje zmianę długości słowa. Np. dla wyrazów mama i matka wynosi 2.

Drugie m w „mama” zmienione na t oraz dołożone k; ma(~ tk)+a.

WER opisuje jednak odległość pomiędzy słowami, nie literami w obrębie jednego wyrazu.

Metoda ta porównuje ilość słów, która różni się gdy porównamy tekst do wzorcowego tłumaczenia przez człowieka.

💡 Podobną do WER jest metoda PER (ang. PER: position-independent word error rate). Opisuje ona dokładnie to samo, tylko niezależnie od pozycji.

METEOR

Metoda powstała, aby zminimalizować minusy BLEU.

Bazuje na ważonej średniej harmonicznej precyzji jak BLEU i odwołań.

Inne cechy METEOR nieobecne w innych metodach

Dopasowanie synonimów

Odwołanie do form bazowych

Dopasowanie synonimów

Odwołanie do form bazowych

Która z metod oceny tłumaczenia automatycznego jest najlepsza?

Pierwsze miejsce zajmuje ludzka ocena. Myślę, że nie zmieni się to w przeciągu kilkunastu lat.

Reszta metod ma swoje zastosowania. W niektórych sytuacjach jedne sprawdzają się lepiej, inne gorzej.

Za najlepszą niearbitralnie uznawany jest METEOR.

Według badań METEOR, w porównaniu do oceny człowieka, uzyskał wynik 0,964 na poziomie korpusu,

Wynik BLEU na tym samym zestawie danych to 0,817.

Najwyższa korelacja z oceną przez człowieka uzyskana na poziomie zdań to 0,403.

Jak widać, nie są to narzędzia doskonałe i nic nie jest w stanie jeszcze zastąpić ludzkiego osądu i “oka tłumacza”.

W innych postach na blogu możesz przeczytać o historii tłumaczenia automatycznego od 1933 roku i dowiedzieć się jak działają programy CAT.

Pierwsze zachowane tłumaczenie było przekładem Biblii z języka hebrajskiego na grecki z 3 wieku p.n.e. W II wieku p.n.e. sumeryjski epos o Gilgameszu doczekał się tłumaczeń na kilka języków azjatyckich.

Historia tłumaczenia sięga jeszcze jednak dalej.

Aby to „ogarnąć” musimy cofnąć się do dawnych czasów. Do czasów prehistorycznych.

Według antropologów język powstał około 100 tys. lat temu. Nikt nie potrafi podać dokładniejszych danych na temat konkretniejszego okresu.🤔

Prymitywny człowiek nie wiedział wtedy jeszcze, że właśnie odkrył narzędzie przekazywania myśli, emocji, uczyć i informacji.

Żeby te prymitywne symbole i dźwięki zmieniły się w piękne powieści i poematy, musiało minąć wiele czasu.

Faktem jest, że ludzie przez setki lat porozumiewali się wyłącznie ustnie. Nawet plemienne języki były bez wątpienia zróżnicowane.

Z tego powodu pojawiła się potrzeba, “zawód” tłumacza. Pierwsi z nich byli najczęściej zwykłymi nomadami. Towarzyszyli kupcom i brali udział we wszystkich transakcjach handlowych.

Źródło: tvp.info

Nie znano wtedy jeszcze pisma, dlatego przekład odbywał się ustnie. Tłumacze wchłaniali wiedzę przez inercję – przebywając w obcojęzycznej społeczności. 💭

Powstały wtedy pierwsze siatki znaczeniowe. Czyli zapamiętane przez tłumaczy odpowiedniki wyrazów w języku obcym. Analogowy prekursor słowników.

Opłacało się to?

Zdecydowanie. Pozycja społeczna tłumaczy była bardzo wysoka. Gościli oni wszędzie od władców po kupców. Szerzyli postęp i upowszechniali idee i twierdzenia.

Bez nich Europejczycy nie poznaliby systemu dziesiętnego stworzonego przez Egipcjan albo sposobu budowy łuków.

Pierwsze pismo pojawiło się dopiero ok. 2000 lat p.n.e. w Babilonii i było to pismo klinowe. W podobnym okresie, w dolinie Indusu pojawiły się znaki, których do tej pory nie jesteśmy w stanie odszyfrować. Chociaż jesteśmy coraz bliżej.

Pismo klinowe. Źródło: topflop.pl

Tłumaczenie dosłowne

Gdy pismo na dobre upowszechniło się wśród niektórych społeczności pojawił się pierwszy sposób tłumaczenia tekstów – tłumaczenie dosłowne.

Jest to pierwsze znana i sklasyfikowana metoda tłumaczenia. Coś w stylu początków Google Tłumacza i tych sławnych memów z jego błędami.

Bodźcem do tego cały czas był handel 💰 i przenikanie się kultur, oraz szerzenie różnych idei.

Drugim bodźcem było tłumaczenie ksiąg religijnych. Ludzie tłumaczyli księgi wyznaniowe na zasadzie „słowo za słowo”, aby (w ich rozumieniu) uniknąć błędów w odczytaniu słowa bożego.

Ba, przywódcy duchowi zalecali jak najwierniejszy przekaz. Miało to zapobiec wypaczaniu sensu tekstu.

Nie brano pod uwagę gramatyki, fleksji, składni itd. Teksty były chaotyczne, niezrozumiałe i bez najmniejszego sensu.

Tłumaczenie znaczeniowe

Na przełomie starej i nowej ery pojawił się nowy sposób tłumaczenia – tłumaczenie znaczeniowe.

Sam Cyceron podobno zauważył, że takie tłumaczenie, krótko mówiąc, nie ma sensu. Namawiał do tłumaczenia w taki sposób, aby zachować ogólny sens utworu oraz normy językowe.

Cyceron demaskujący Katylinę, Cesare Maccari. Źródło: imperiumromanum

W tym okresie tłumacz nie tylko musiał przetłumaczyć tekst. Obowiązywała go również regułą ustawienia słów w określonym porządku dla języka docelowego. Tak, aby tekst miał sens i był zrozumiały dla odbiorcy.

Co nie oznacza, że odbiorcą mógł być każdy. Podstawowy proces edukacji w Rzymie, w tamtym okresie obejmował prawie wszystkich.

🖊️ Jednak styl zapisu był zupełnie odmienny od tego co znamy dzisiaj. Rzymianie pisali odręcznie, bez podziału na wielkie i małe litery. Nie stawiano przerw pomiędzy wyrazami i pisano bez znaków interpunkcyjnych.

Podobno Aulus Gelius, rzymski mówca z II wieku n.e. odmówił przeczytania publicznie tekstu, którego nie napisał.

Tłumaczenie znaczeniowe, też nie było wolne od wad.

Tak bardzo starano się zachować meritum tekstu oryginalnego, że często jego wartość historyczna i literacka zanikała.

Duży wpływ na rozwój tłumaczenia wywarło też powstanie Cesarstwa Rzymskiego w 27 r. p.n.e.

Wielkie dzieła jak Iliada, Odyseja czy Pismo Święte musiały zostać przetłumaczone na nowy wspólny język – łacinę – lingua franca. Później na języki używane w Europie i reszcie świata.

Czasami mówi się, że wielkie greckie dzieła zostały przejęte przez arabskich tłumaczy. Te właśnie arabskie wersje przetłumaczone, na łacinę stanowił podwaliny Renesansu.

Św. Hieronim (patron tłumaczy) również był tłumaczem. Jest to jeden z pierwszych wybitnych tłumaczy Biblii. Z greckiego oraz hebrajskiego przetłumaczył ją na łacinę. Przekład ten zwany Wulgatą jest oficjalnym tłumaczeniem kościoła rzymskokatolickiego.

Kontakty handlowe, czyli znowu pieniądze 💰, wymagały tłumaczeń na niespotykane dotąd języki. Tak narodziła się kolejna metoda tłumaczeń.

Translacja swobodna

We Francji na falach oświecenia w XVIII w. narodziła się szkoła tłumaczenia swobodnego. Jej założenia były wręcz idealne.

Pragnięto przybliżyć dziedzictwo epoki starożytności. Jednak praktyka okazała się inna. “Oświeceni” intelektualiści tamtych czasów tłumaczyli dzieła, bazując na ówczesnej stylistyce.

Ingerowano w treść i sens tekstu. Zmiękczano starożytne realia, aby przybliżyć czytelnikowi wartości oświecenia. U podstaw tej metody leżało przekonanie, że tłumacz może zrobić wszystko, aby przypodobać się czytelnikowi.

Popularne wtedy dzieła klasyków, tłumaczone były tak, aby ich odbiór był przyjemny i łatwy.

Czyli jak mówił Antoine de la Motte, jeden z tłumaczy tamtego okresu:

Bardzo chciałem uczynić swój przekład przyjemnym i ze względu na to, zmuszony byłem do zastąpienia idei, które podobały się w czasach Homera, ideami, które podobają się dzisiaj.

Florian, również z tamtego okresu: najprzyjemniejszy przekład będzie najwierniejszym.

Przekład adekwatny

Na szczęście „oświecone” tłumaczenie nie zagrzało długo miejsca na kartach historii.

Równolegle do metody swobodnej wykształcił się dużo lepszy sposób tłumaczenia tekstów – przekład adekwatny.

❗ Zachowywał on co ważne, historyczne realia tekstu, spójność treści i formy oraz był całkowicie funkcjonalny.

Nie nadawał się zbytnio do tłumaczeń poezji, ale znalazł swoje miejsce w tłumaczeniach tekstów technicznych.

Spora część takich tekstów, powstałych podczas rewolucji przemysłowej, została przełożona tą metodą.

Wpływ na rozwój tłumaczenia adekwatnego miała też radziecka szkoła przekładu – opowiadała się ona za funkcjonalnością tłumaczeń.

📷 Według tej szkoły osiągnięcie “fotograficznej dokładności” w przekładzie i tak nie będzie możliwe.

Wiek XX

Można powiedzieć, że jest to przełomowy wiek dla języka.

🏫 W 1953 roku, na Paryskiej Sorbonie powstała Międzynarodowa Federacja Tłumaczy – Fédération Internationale des Traducteurs

W Genewie utworzono Międzynarodowe Stowarzyszenie Tłumaczy Konferencyjnych AIIC – Association Internationale des Interprètes de Conférence.

Bazując na tych dwóch prekursorach, na całym świecie powstało jeszcze więcej organizacji, zrzeszających tłumaczy.

Po dziś dzień wiele z nich działa na rzecz ulepszania jakości tłumaczeń i poprawy statusu zawodu tłumacza. Stoją one także na straży standardów jakości i przestrzegania etyki zawodowej.

W Polsce takimi organizacjami są Stowarzyszenie Tłumaczy Polskich powstałe w 1981 roku oraz Polskie Towarzystwo Tłumaczy Ekonomicznych, Prawniczych i Sądowych „TEPIS” założone w 1990 roku.

💻 Wiek XX przyniósł także ogromne zmiany w branży tłumaczeniowej. Pierwsze narzędzia komputerowe wspomagające tłumaczenie wprowadziły tę dziedzinę w dwudzieste pierwsze stulecie.

Nie chodzi o samo pisanie na komputerze, lecz korzystanie z pomocy rozwiniętych programów. Bazy danych, które magazynują zastosowane zwroty oraz słownictwo specjalistyczne, a następnie pozwalają tłumaczowi bazować na własnym doświadczeniu, na zawsze zmieniły tę branżę.

🌎 W dzisiejszej dobie globalizacji zawód tłumacza ma się dobrze i wcale nie zmierza ku „wyginięciu”. Migracje ludności, transfer informacji i wiedzy wspomagają rozwój języków.

Spis treści:

Wstęp
Metoda statystyczna
Metoda oparta na przykładach
Metoda oparta na regułach
Metoda oparta na słownikach
Połączenie metod opartych na przykładach i słownikach
Metoda oparta na transferze semantycznym
Systemy interlingwalne
NMT, czyli jak działa Google Tłumacz.

Wstęp:

Wyróżniamy kilka podstawowych metod tłumaczenia maszynowego:

statystyczna (SMT)
oparta na przykładach (EBMT)
oparta na regułach / składniowa (RBMT)
- oparta na słownikach, bezpośrednia (DBMT)
- oparta na transferze semantycznym (TBMT)
- oparta na interlingwie (IMT)

Oprócz tego istnieją metody hybrydowe oraz NMT.

Metoda statystyczna:

Metoda statystyczna, właściwie jej pierwsze koncepcje zostały opisane w 1949 roku przez Warrena Weavera (patrz. Historia tłumaczenia automatycznego).

Zaproponował on użycie do tego teorii informacji Claude’a Shannona.

Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.

Korzystając z tej metody, tłumaczenie tworzone jest na podstawie modeli statystycznych. Modele pozyskiwane są poprzez analizę korpusu równoległego danej pary językowej.

Korpus równoległy to duży zbiór tekstów równoległych. Czyli odpowiadających sobie tekstów w dwóch językach.

Odpowiadające sobie zdania, zapisane jedno pod drugim nazywamy dwutekstem (ang. bitext). Jest to podobne do pamięci tłumaczeniowej używanej dzisiaj przez tłumaczy w programach CAT.

Różnicą jest to, że w pamięci tłumaczeniowej zdania przechowywane są niezależnie i traci się ich kontekst. Pamięć tłumaczeniowa jest w tym wypadku tylko bazą danych.

Istnieją formaty jak np. TMX (ang. Translation Memory eXchange) gdzie zachowuje się oryginalny układ zdań. Dzięki takim formatom można stosować pamięci tłumaczeniowe w wielu różnych programach.

Podstawy tłumaczenia statystycznego:

Przy tłumaczeniu statystycznym określa się prawdopodobieństwo, że dany ciąg znaków w języku źródłowym odpowiada ciągowi znaków w języku docelowym.

Powoduje to kilka problemów.

Znalezienie najlepszego tłumaczenia polega na wybraniu najbardziej prawdopodobnego ciągu znaków. Który jest najbardziej prawdopodobny?

Odkładając skomplikowane wzory matematyczne na bok, implementacja tej metody mogłaby polegać na przeszukiwaniu wszystkich możliwych ciągów znaków w języku docelowym.

Nie do końca. Wydajne przeszukiwanie takiego zbioru należy do zadań dekodera tłumaczenia maszynowego. Korzysta on z wielu metod i algorytmów, żeby ustalić jak najlepsze tłumaczenie.

Tworzy on kompromis pomiędzy ograniczaniem ilości przeszukiwanych zasobów a przyzwoitą jakością tłumaczenia.

Oczywiście przeszukiwanie odpowiednika całego tekstu nie jest możliwe. Tekst tłumaczony jest zdanie po zdaniu.

Wyrazy vs. zdania w metodzie statystycznej:

Podstawową jednostką tłumaczenia za pomocą metody statystycznej są wyrazy. Oczywiście różni się ona w zależności od języka ze względu na morfologię, składnię, idiomy itd.

Teoretycznie gdyby każde słowo odpowiadało konkretnemu wyrazowi w języku docelowym, byłoby dużo prościej. Tymczasem jedno słowo może mieć wiele znaczeń.

Np. polski homonim (wyraz o kilku znaczeniach) można przełożyć na “castle” lub “lock” oraz kilka innych możliwości, zależnie od kontekstu. Które tłumaczenie jest lepsze? Bardziej prawdopodobne według dekodera tłumaczenia maszynowego.

Płodność to wskaźnik mówiący ile wyrazów można wyprodukować z jednego słowa z języka źródłowego.

Pierwsze systemy tłumaczenia statystycznego operowały na poziomie wyrazów. Obecnie korzysta się z systemów na większych strukturamch składniowych, jednak dopasowania wyrazów nadal są używane do stwierdzania różnych pojedynczych parametrów.

Tłumaczenie na podstawie wyrazów zostało zastąpione tłumaczeniami na podstawie fraz.

Frazy te, czyli inaczej bloki lub ciągi zdań nie są frazami w rozumieniu lingwistycznym, ale wyrazami z korpusu równoległego. Wyciągniętym z niego właśnie przy pomocy metod statystycznych.

Warto wspomnieć, że najnowsze technologie operują na ogromnej bazie danych. Przoduje tu Google Tłumacz i jego astronomiczna liczba tekstów równoległych.

Zalety metody statystycznej:

Lepsze i szybsze wykorzystanie zasobów – w obiegu jest duża ilość tekstów w postaci cyfrowej. Czeka ona tylko na obróbkę statystyczną.
Jest to lepsza metoda niż systemy oparte na regułach. Nie wymaga ręcznego opracowywania reguł językowych. Oszczędza to dużą ilość zasobów ludzkich i nie ogranicza działania programu do konkretnego języka.
Bardziej naturalne brzmiące tłumaczenie. Jeśli odpowiednik danego ciągu znaków pojawia się bardzo często, prawdopodobne jest, że będzie poprawny.
Takie systemy bazują też na stworzonych przez człowieka tekstach. Otrzymany przekład może być bardziej naturalny niż tłumaczenie na podstawie odgórnie napisanych reguł.

Wady tłumaczenia statystycznego:

Nie jest to metoda idealna. Do problemów metody statystycznej należą:

wyrazy złożone
homonimy (patrz wyżej)
idiomy
morfologia danego języka
szyk wyrazów w zdaniu
wyrazy niebędące w słowniku (zestawie treningowym systemu)

Metoda oparta na przykładach (ang. EBMT)

To metoda tłumaczenia maszynowego, która charakteryzuje się użyciem dwujęzycznych korpusów z tekstami równoległymi jako głównej bazy wiedzy.

Jest to zasadniczo tłumaczenie przez analogię i może być postrzegane jako implementacja podejścia do uczenia maszynowego opartego na wnioskowaniu na podstawie przypadków.

Tłumaczenia przez analogię w odniesieniu do tłumaczenia przez człowieka mówi, że ludzie nie dokonują przekładu, bazując na głębokiej analizie lingwistycznej.

Zamiast tego opiera się na przekonaniu, że ludzie:

tłumaczą, rozkładając zdanie na pewne frazy,
przekładają te frazy,
odpowiednio składają te fragmenty w jedno długie zdanie.

Zasada tłumaczenia przez analogię jest zakodowana w tłumaczeniu maszynowym opartym na przykładach poprzez tłumaczenia przykładowe, które są używane do trenowania takiego systemu.

Podstawy tłumaczenia opartego na przykładach:

Systemy tłumaczenia maszynowego oparte na przykładach są trenowane na podstawie dwujęzycznych korpusów równoległych zawierających pary zdań.

Pary zdań zawierają zdania w jednym języku wraz z ich tłumaczeniami na inny język. Na podstawie par minimalnych, zdań różniących się tylko jednym elementem, można łatwo nauczyć się tłumaczeń części zdania.

Komponowanie tych jednostek może być wykorzystane do tworzenia nowych tłumaczeń w przyszłości.

Pierwsze systemy tłumaczenia opartego na przykładach zostały wynalezione w latach 70. Przykładem takiego systemu jest Systran (patrz Historia tłumaczenia automatycznego).

Przykładem systemu korzystającego z metody opartej na przykładach jest Cunei.

Platforma typu open source, która powstała w wyniku badań nad EBMT, ale obejmuje również najnowsze osiągnięcia w dziedzinie metody statystycznej.

Tłumaczenie maszynowe oparte na przykładach zostało po raz pierwszy zaproponowane przez Makoto Nagao w 1984 r. Zwrócił on uwagę, że jest ono szczególnie przydatne do tłumaczenia między dwoma zupełnie różnymi językami, takimi jak angielski i japoński.

W tym przypadku jedno zdanie można przetłumaczyć na kilka poprawnych zdań w innym języku, dlatego nie ma potrzeby przeprowadzania dogłębnej analizy językowej, charakterystycznej dla tłumaczenia maszynowego opartego na regułach. 👇

Metoda oparta na regułach (ang. RBMT)

Jest to starsza technologia (zwana klasyczną metodą tłumaczenia automatycznego), która bazuje na połączeniu reguł gramatycznych, językowych i słownikach.

Mając do dyspozycji zdania wejściowe (w języku źródłowym), system RBMT generuje je do postaci zdań wyjściowych (w języku docelowym) na podstawie analizy morfologicznej, składniowej i semantycznej zarówno języka źródłowego, jak i docelowego.

Systemy oparte na regułach można również określić jako systemy przeciwstawne do systemów opartych na przykładach (Example Based Machine Translation), natomiast hybrydowe systemy tłumaczenia maszynowego wykorzystują wiele zasad zaczerpniętych z RBMT.

Typy metody RBMT:

Wyróżnia się trzy podstawowe typy RBMT:

Systemy bezpośrednie, oparte na słownikach (DBMT)
Systemy oparte na transferze semantycznym (TBMT)
Systemy interlingwalne (IMT)

Wszystkie trzy metody opiszę poniżej. Ale najpierw dalsza część metody opartej na regułach RBMT:

Podstawy metody opartej na regułach:

Systemy RBMT opierają się na łączeniu struktury danego zdania wejściowego ze strukturą żądanego zdania wyjściowego, przy czym konieczne jest zachowanie ich unikalnego znaczenia.

“A girl eats an apple.” To zdanie poprosimy na język niemiecki.

Aby uzyskać niemieckie tłumaczenie tego angielskiego zdania, system RBMT potrzebuje co najmniej:

Słownika ang-niem.
Reguł struktur zdań angielskich.
Reguł struktur zdań niemieckich.
Zasad, według których można te dwie struktury ze sobą powiązać.

Schemat działania RMBT:

Uzyskanie podstawowych informacji o części mowy każdego słowa źródłowego:

a = przedimek nieokreślony;
girl = rzeczownik;
eats = czasownik;
an = przedimek nieokreślony;
apple = rzeczownik

Uzyskanie informacji składniowej o czasowniku "eat":

Eat – Present Simple, 3. osoba liczby pojedynczej, strona czynna

Parsowanie zdania źródłowego:

Parsowanie to inaczej dokonywanie analizy składniowej ciągu znaków w celu ustalenia jej struktury.

an apple = obiekt działania czasownika (eat)

Często tylko częściowe parsowanie jest wystarczające, aby dotrzeć do struktury składniowej zdania źródłowego i odwzorować ją na strukturę zdania docelowego.

Tłumaczenie ang-niem

a (przedimek nieokreślony) => ein (przedimek nieokreślony)
girl (rzeczownik) => Mädchen (rzeczownik)
eat (czasownik) => essen (czasownik)
an (przedimek nieokreślony) => ein (przedimek nieokreślony)
jabłko (rzeczownik) => Apfel (rzeczownik)

Mapowanie haseł słownikowych na odpowiednie formy fleksyjne

Tylko w najnowszych wersjach programów:

A girl eats an apple. => Ein Mädchen isst einen Apfel.

Elementy systemu RBMT:

JŹ – język źródłowy
JD – język docelowy

Analizator morfologiczny JŹ

Analizuje słowo w języku źródłowym i dostarcza informacji morfologicznych.

Parser JŹ

Jest analizatorem składni, który analizuje zdania w języku źródłowym.

Translator

Służy do tłumaczenia słowa z języka źródłowego na język docelowy.

Generator morfologiczny JD

Działa jako generator odpowiednich słów języka docelowego dla podanej informacji gramatycznej.

Parser JD

Działa jako kompozytor odpowiednich zdań języka docelowego.

Minimum trzy słowniki

słownik JŹ – potrzebny parserowi języka źródłowego do analizy morfologicznej,
słownik dwujęzyczny – używany przez tłumacza do przekładu słów z języka źródłowego na słowa z języka docelowego,
słownik JD- potrzebny parserowi do generowania słów języka docelowego.

System RBMT wykorzystuje następujące elementy:

Gramatyka JŹ

Buduje konstrukcje składniowe ze zdań wejściowych;

Leksykon JŹ

Zawiera całe dopuszczalne słownictwo w danej dziedzinie;

Reguły mapowania JŹ

Wskazują, w jaki sposób składnia i gramatyka zostaną zapisane przez komputer.

Model ontologiczny

Schemat pojęciowy co odpowiada czemu.

Reguły mapowania JD

Wskazują, w jaki sposób pojęcia i semantyka są mapowane na elementy składniowe i funkcje gramatyczne w języku docelowym;

Leksykon JD

Zawiera odpowiednie leksemy docelowe dla każdego pojęcia z danej dziedziny;

Gramatyka JD

Realizuje docelowe konstrukcje składniowe jako zdania wyjściowe.

Zalety tłumaczenia opartego na regułach:

Nie są potrzebne teksty paralelne. Umożliwia to tworzenie systemów tłumaczeniowych dla języków, które nie mają wspólnych tekstów, a nawet nie mają żadnych danych cyfrowych.
Niezależność od dziedziny. Reguły są zazwyczaj pisane w sposób niezależny od dziedziny.
Teoretycznie mogą być idealne (kiedyś). Każdy błąd można skorygować za pomocą odpowiedniej reguły, nawet jeśli dany przypadek jest niezwykle rzadki. Jest to przeciwieństwo systemów statystycznych, w których rzadko występujące formy będą domyślnie usuwane.
Pełna kontrola. Ponieważ wszystkie reguły są pisane ręcznie, system oparty na regułach można łatwo debugować, aby dokładnie sprawdzić, gdzie dany błąd został wprowadzony do systemu i dlaczego.
Możliwość ponownego użycia. Ponieważ systemy RBMT są zazwyczaj zbudowane z solidnej analizy języka źródłowego, części analizy języka źródłowego i generatora języka docelowego mogą być współdzielone przez wiele systemów tłumaczeniowych.

Wymagają one wtedy jedynie wyspecjalizowania etapu transferu. Ponadto analiza języka źródłowego dla jednego języka może być ponownie wykorzystana do uruchomienia analizy języka pokrewnego.

Wady tłumaczenia opartego na regułach:

Niewystarczająca liczba naprawdę dobrych słowników. Tworzenie nowych słowników jest kosztowne.
Reguły nadal muszą być ustalane ręcznie.
Trudno jest poradzić sobie z interakcjami reguł w dużych systemach, wieloznacznością i wyrażeniami idiomatycznymi.
Brak możliwości adaptacji do nowych dziedzin. Chociaż systemy RBMT zazwyczaj zapewniają mechanizm tworzenia nowych reguł oraz rozszerzania i adaptacji leksykonu, zmiany są zazwyczaj bardzo kosztowne, a ich rezultaty często nie są opłacalne.

Pamiętasz poszczególne typy metody opartej na regułach?

Systemy bezpośrednie, oparte na słownikach (DBMT)
Systemy oparte na transferze semantycznym (TBMT)
Systemy interlingwialne (IMT)

Poniżej opiszę każdy z nich z osobna:

System oparty na słowniku DBMT:

Tłumaczenie maszynowe może wykorzystywać metodę opartą na hasłach słownikowych, co oznacza, że słowa będą tłumaczone tak, jak w słowniku – słowo po słowie. Zazwyczaj bez większej korelacji znaczeniowej między nimi.

Wyszukiwanie słownikowe może być wykonywane z analizą morfologiczną lub lematyzacją albo bez nich.

Lematyzacja – w językoznawstwie jest to proces grupowania form fleksyjnych wyrazu w taki sposób, aby można je było analizować jako pojedynczy element, identyfikowany przez lemat wyrazu lub jego formę słownikową

Pierwszy program DBMT:

LMT, wprowadzony ok. 1990 r., to oparty na języku Prolog system tłumaczenia maszynowego, który oparto na specjalnie przygotowanych słownikach dwujęzycznych, takich jak Collins English-German.

Metoda ta wykorzystuje strukturyzowaną bazę danych leksykalnych w celu poprawnej identyfikacji kategorii słów z języka źródłowego.

Pozwala to skonstruowanie spójnego zdania w języku docelowym, na podstawie podstawowej analizy morfologicznej.

System ten wykorzystuje „Frames” do określenia pozycji, jaką dane słowo powinno zajmować w zdaniu z punktu widzenia składni.

Zastosowania metody opartej na słownikach:

Jednym z możliwych zastosowań tłumaczenia maszynowego opartego na słownikach jest ułatwienie nauczania języków obcych (FLT).

Można to osiągnąć, wykorzystując technologię tłumaczenia maszynowego oraz językoznawstwo, semantykę i morfologię do tworzenia wielkoskalowych słowników praktycznie w każdym języku.

Dokładnie to do tworzenia LCS – leksykalnej struktury pojęciowej. To reprezentacja, która jest niezależna od języka. Jest ona najczęściej wykorzystywana w nauczaniu języków obcych, zwłaszcza w elemencie FLT związanym z przetwarzaniem języka naturalnego.

Drugim zastosowaniem tłumaczenia opartego na słownikach jest przekład języków pokrewnych. W przypadku bardzo bliskich języków prostsze metody tłumaczenia są bardziej wydajne, szybkie i niezawodne.

Może ona służyć do wstępnego przekładu z nieznanego języka. Tak podobno postąpiono w przypadku tłumaczenia Inferno Dantego oraz kilku rosyjskich powieści.

Innym zastosowaniem metody bezpośredniej jest przekład poezja->proza. Zachowujemy wtedy jedynie sens utwory, kompletnie pomijając jego aspekt poetyczny.

Tłumaczenie bezpośrednie było przyczyną krytyki pierwszych tłumaczeń maszynowych (patrz: Historia tłumaczenia maszynowego). Mówimy tu o eksperymencie uniwersytetu w Georgetown i firmy IBM z 1953 roku czy programie A.D Booth z 1955 roku.

Inaczej nazywana też tłumaczeniem dosłownym lub metafrazą, ta metoda jest bardzo przydatna w tłumaczeniu tekstów specjalistycznych. Tam terminologia ma zazwyczaj jasno opisane odpowiedniki, a użycie innych sformułowań byłoby błędem.

Metafraza to przeciwieństwo parafrazy. Metafraza to tłumaczenie słowo po słowie, wiersz po wierszu… nieuwzględniająca walorów artystycznych tekstu. Przeciwieństwo parafrazy, gdzie wyrażamy tekst innymi słowami, zachowując jego ogólny sens.

Pidżynizm:

Nie jest to literówka. Takie zjawisko społeczno-językowe zachodzi gdy osoba nieznająca języka posługuje się metafrazą, tłumaczeniem dosłownym.

W rezultacie otrzymujemy specyficzne połączenie obu języków, pełne również kalek językowych. Idealnym tego przykładem jest zakorzeniony już na stałe w dowcipach “ponglish”, połączenie jęz. polskiego i angielskiego.

– Rano lepiej jechać sabłejem, niż brać basa, bo w city jest okropny trafik

Źródło: ABC TŁUMACZENIA

Połączenie tłumaczenia opartego na słowniku i na przykładach:

To połączenie wykorzystuje inny schemat niż systemy takie jak LMT wspomniany wyżej.

Połączenie tych dwóch silników translatorskich pozwoliłoby na stworzenie bardzo wydajnego narzędzia tłumaczeniowego. Oprócz dokładności byłoby w stanie zwiększać swoją funkcjonalność dzięki ciągłemu feedbackowi.

Systemem, który łączy oba schematy, jest silnik tłumaczenia maszynowego Pangloss Example-Based Machine Translation (PanEBMT).

Metoda oparta na transferze semantycznym (TBMT):

Takie systemy opracowano, aby brały pod uwagę składnię i znaczenie tekstu źródłowego. Często rezultatem takiej analizy jest drzewo struktury syntaktycznej i dodatkowe informacje np. atrybuty znaczeniowe.

Przykładem takiego programu jest TRANSLATICA.

Podstawy systemu TBMT:

W przeciwieństwie do prostszej metody bezpośredniej system oparty na transferze dzieli tłumaczenie na trzy etapy:

Analiza tekstu,
Przeniesienie powstałej struktury do struktury odpowiedniej do wygenerowania tekstu w języku docelowym
Wygenerowanie tego tekstu.

Systemy MT oparte na transferze są zatem w stanie wykorzystać wiedzę o języku źródłowym i docelowym.

Pierwszy etap polega na analizie tekstu wejściowego pod kątem morfologii i składni (a czasem także semantyki) w celu utworzenia jego wewnętrznej reprezentacji.

Reprezentacja ta może być następnie dopracowana do bardziej abstrakcyjnego poziomu, kładąc nacisk na części istotne dla tłumaczenia i ignorując inne rodzaje informacji.

W procesie transferu ta ostateczna reprezentacja (nadal w języku oryginalnym) jest przekształcana na reprezentację o tym samym poziomie abstrakcji w języku docelowym.

Na podstawie tej reprezentacji generowane jest tłumaczenie z wykorzystaniem słowników dwujęzycznych i reguł gramatycznych.

Rodzaje analizy i transferu w systemie TBMT:

Rodzaje analizy zależą głównie od projektu systemu, ale zazwyczaj zawierają co najmniej 3 z poniższych:

Analiza morfologiczna

Części mowy, liczba, rodzaj, czas itp.

Kategoryzacja leksykalna

Polega na analizie kontekstu danego słowa w celu określenia jego właściwego znaczenia w kontekście danych wejściowych.

Transfer leksykalny

Jest to zasadniczo tłumaczenie słownikowe.

Transfer strukturalny

Ten etap dotyczy większych elementów składowych, na przykład fraz i fragmentów. Typowe cechy tego etapu to zgodność płci i liczby oraz zmiana kolejności słów lub fraz.

Generowanie morfologiczne

Na podstawie danych wyjściowych z etapu transferu strukturalnego generowane są formy języka docelowego.

Jedną z głównych cech systemów tłumaczenia maszynowego opartych na transferze jest faza, która „przenosi” pośrednią reprezentację tekstu w języku oryginału na pośrednią reprezentację tekstu w języku docelowym.

Może się to odbywać na jednym z dwóch poziomów analizy językowej lub gdzieś pomiędzy nimi. Poziomy te to:

Transfer powierzchniowy (syntaktyczny)

Ten poziom charakteryzuje się przenoszeniem „struktur syntaktycznych” między językiem źródłowym i docelowym.

Jest on odpowiedni dla języków z tej samej rodziny lub tego samego typu, np. w językach romańskich między hiszpańskim, katalońskim, francuskim, włoskim itd.

Transfer głęboki (semantyczny)

Na tym poziomie konstruuje się reprezentację semantyczną, która jest zależna od języka źródłowego. Reprezentacja ta może składać się z serii struktur, które reprezentują znaczenie.

Ten poziom jest używany do tłumaczenia między językami bardziej odległymi (np. hiszpańsko-angielski, hiszpańsko-baskijski itp.).

Systemy interlingwalne (IMT):

Interlingwa lub Interlingua to sztuczny międzynarodowy język stworzony w 1951 roku. Łączy słownictwo języków romańskich (głównie hiszpański, włoski i rumuński) z uproszczoną gramatyką. Według szacunków na naukę interlingwy wystarcza 15 dni. Podobna do esperanto.

Podstawy systemu interlingwalnego (IMT):

W tym podejściu język źródłowy jest przekształcany w interlingua. Język docelowy jest następnie generowany na jego podstawie.

Tutaj interlingwa to opis analizy tekstu napisanego w języku źródłowym, umożliwiający przekształcenie jego cech morfologicznych, składniowych, semantycznych (a nawet pragmatycznych), czyli „znaczenia”, na język docelowy.

Taka interlingwa jest teoretycznie w stanie opisać wszystkie cechy wszystkich tłumaczonych języków, a nie tylko tłumaczyć z jednego języka na drugi.

Czasami używa się nawet dwóch interlingw. Tłumaczenie polega wtedy na dwustopniowej konwersji.

Język źródłowy -> Interlingwa 1 -> Interlingwa 2 -> Język docelowy

Google Translate używa języka angielskiego jako języka pośredniego dla niektórych par języków, takich jak chiński i japoński.

Wymagania metody IMT:

Specyficzne dla dziedziny słowniki do analizy i generowania
Leksykon pojęciowy danej dziedziny
Zestaw reguł danej dziedziny i języka
Gramatyki do analizy i generowania języków.

Zalety metody IMT:

Metoda ta wymaga mniejszej liczby komponentów do powiązania każdego języka źródłowego z każdym językiem docelowym
Potrzeba mniej komponentów do dodania nowego języka,
Metoda obsługuje języki, które bardzo się od siebie różnią np. angielski i arabski.

Wady metody IMT:

Definiowanie interlingwy jest trudne, a może nawet niemożliwe dla szerszej dziedziny.
Idealnym kontekstem dla tej metody jest zatem wielojęzyczne tłumaczenie maszynowe w bardzo specyficznej dziedzinie.

NMT, czyli jak działa Google Tłumacz:

Google Tłumacz, tak jak większość nowoczesnych tłumaczy automatycznych działa na podstawie kilku metod.

W latach 2006-2016 Google Tłumacz wykorzystywał metodę statystyczną do tłumaczenia tekstów.

Od 2016 roku wykorzystuje NMT (Neural machine translation). Ta metoda oparta jest na sztucznej sieci neuronowej do przewidywania prawdopodobieństwa sekwencji słów, zwykle modelującej całe zdania w jednym zintegrowanym modelu.

Metoda NMT wykorzystuje mały procent zasobów, jakich wymaga metoda statystyczna.

NMT nie stanowi jednak drastycznego kroku naprzód w stosunku metody statystycznej. Główną różnicą jest struktura modeli. Jest ona prostsza niż modeli opartych na frazach. Systemy NMT wykorzystują deep learning i representation learning.

Słowem wstępu:

Tłumaczenie automatyczne/maszynowe to tłumaczenie tekstu bez ingerencji człowieka. Jedynie przez komputer.

Tłumaczenie automatyczne jest szybsze i mniej kosztowne, ale mniej dokładne. Nie jest uznawane do końca za wiarygodne źródło wiedzy. Mówi się, że jest w stanie oddać jedynie sens przetworzonego tekstu.

Tłumaczenia automatyczne wymagają wiedzy człowieka. Z tego powodu tłumaczenie automatyczne traktuje się jako wchodzące w obszar działania sztucznej inteligencji.

Historia tłumaczenia maszynowego miała i ma znaczny wpływ na to jak dzisiaj wygląda ta technologia. Zaczęło się od prostych reguł gramatycznych. Dzisiaj dysponujemy narzędziami tworzącymi w kilka sekund ogromne ilości danych, opartymi na sieciach neuronowych.

Poniższy tekst jest rozwinięciem tematu opisanego w 13 mailu Akademii Tłumacza. Jeśli chcesz wiedzieć więcej o niezależnym tłumaczeniu, technologi i karierze tłumacza, zapisz się poniżej.

POCZĄTKI 📃

Bez wątpienia łamanie barier językowych leży w naturze człowieka. Szczególnie widoczne jest to w komunikacji handlowej. Pomysły na temat tłumaczeń tekstów przez maszyny pochodzą już z XVII w. Maszyny tłumaczące pojawiły się już w 1933 roku. 😮

Jednak pierwsze systemy tłumaczenia maszynowego, wymagały rozpowszechnienia się komputerów. Powstały w latach 50. XX wieku. Trwająca wtedy zimna wojna spowodowała wiele inwestycji w kryptografię, kodujące i dekodujące maszyny wojenne i również w systemy tłumaczące przekaz.

Kod enigmy złamali po raz pierwszy polscy kryptolodzy w 1932 roku.

Za początek tłumaczenia automatycznego uznaje się memorandum matematyka Warrena Weavera. W 1949 w publikacji pt. Translation opisał teoretyczną możliwość tłumaczenia tekstów przez komputer.

Uznaje się dlatego, że trudno ustalić dokładną datę pierwszych pomysłów. Najwcześniejsze znane mi naukowe źródło podaje lata 1930 i 1940. Wtedy powstały prace Petra Petrovicha Troyanskii’ego.

Weaver jako pierwszy wpadł na pomysł metody statystycznej tłumaczenia (więcej o metodach tłumaczenia w TYM poście). Wykorzystał do tego teorię informacji Claude’a Shannona.

Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.

Wracając do memorandum, Warren Weaver miał oczywiście rację, co potwierdzili naukowcy z uniwersytetu w Georgetown i firmy IBM w 1953 roku. Jednak eksperyment potwierdził jego tezy w dość ograniczony sposób.

Podający komendy po rosyjsku, nie znając języka rosyjskiego, otrzymał tłumaczenia w języku angielskim. Jednak zakres słownictwa był niewielki – 250 wyrazów, liczba zdań wynosiła tylko 60. Same zdania zostały specjalnie wybrane i zweryfikowane.

To był eksperyment z pogranicza sztucznej inteligencji i kryptografii. Pokazał, że idea stojąca za tłumaczeniem maszynowym jest możliwa do zastosowania.

Sam eksperyment nie był źle zaplanowany. Ówczesne maszyny, oparte na prostych regułach miały wielkość sporego samochodu. Daleko im było do urządzeń, z których korzystamy dzisiaj. Do tych urządzeń trzeba było wprowadzić słownictwo i gramatykę, żeby uzyskać efekty. Dość „kanciaste” efekty, pozbawione dobrej składni czy poprawności gramatycznej.

Następne lata przyniosły rozwój następnych projektów:

1955 – A. D. Booth

Program do tworzenia słownika tłumaczeniowego na elektronicznej maszynie obliczeniowej. Oparty na rozbudowanym leksykonie dwujęzycznym

Kathleen Britten [później Booth], Xenia Sweeting i Andrew Booth pracujący nad ARC w grudniu 1946 roku

11 listopada 1955 roku Booth’s Electronic Computer Project w Birkbeck College, University of London przeprowadził publiczną demonstrację tłumaczenia maszynowego.

1960 – G. W. King (1960)

Teoretycznie wykazno wtedy statystyczną metodę tłumaczenia. Stworzoną 30 lat później

Zdecydowanie był to postęp. Jednak postęp daleki od rozbudzonych nadziei na uniwersytecie IBM w Georgetown.

ALPAC

Zostając dalej w USA, w 1964 roku powstał komitet ALPAC (Automatic Language Processing Advisory Commitee). Powstał w celu zweryfikowania czy tłumaczenie automatyczne ma sens.

Po dwóch latach, z jego raportu wynika, że kompletnie nie ma. Raport mówił, że jakość takiego tłumaczenia jest niska, koszt za wysoki, terminy realizacji zbyt długie. Raport spowodował wstrzymanie rządowego finansowania w tę technologię.

SYSTRAN I METEOR 🌠

Wstrzymanie finansowanie spowodowało powstanie podmiotów prywatnych, które zajęły się tematem. W 1968 powstała firma Systran (istniejąca do dzisiaj).

Najpierw świadczyła ona usługi tłumaczenia na potrzeby Ministerstwa Obrony USA, a potem Komisji Europejskiej. Rozwiązania firmy Systran stanowiły podwaliny dzisiejszego Google Translate. Tłumaczenia oparte na regułach zaczęły przechodzić do świata cywilnego

Lata 90 🎵

Drugim godnym uwagi jest tłumacz automatyczny Meteor. Opracowano go w 1975 roku i używano aż do 2001 roku. Stworzono go w celu tłumaczenia komunikatów prognoz pogody w Kanadzie, angielski/francuski.

Był swoistego rodzaju cudem technologicznym, ponieważ ważył niecałe 1,5 mgb i mieścił się na jednej dyskietce Tłumaczył 30 milionów wyrazów rocznie, 20 stron na sekundę. Jego jakość szacowano na 97%, co nawet dzisiaj jest nieosiągalne.

Jednak było to możliwe dzięki powtarzalności, ograniczeniu składni i słownictwa komunikatów pogodowych.

W latach 90. XX wieku nastąpił przełom technologiczny. Udoskonalono tłumaczenia maszynowe oparte na statystyce. Wzrosła potrzeba komunikacji międzynarodowej, szczególnie handlowej, a osoby prywatne zaczęły używać sieci Internet.

Firmy stojące za tłumaczeniami automatycznymi zaczęły odchodzić od reguł gramatycznych i stosować podejście statystyczne. Dlatego tłumaczenie automatyczne tego samego tekstu, w różnych odstępach czasu da różne efekty.

W 1992 roku pojawił się pierwszy program do przekładu forum internetowego, z angielskiego na niemiecki. Niedługo później stworzono BabelFish Altavista. Darmowy program, który dotarł do masowego odbiorcy. Niestety przełożone zdania były pozbawione logiki i zawodne.

Odpowiedzią na to stała się technologia machine learning – uczenie maszynowe. Już w 1949 r. Alan Turing, brytyjski informatyk słusznie stwierdził, że komputer nie może myśleć jak maszyna. Jego tok myślenia musi naśladować człowieka i pracować na podstawie prób i błędów (stąd uczenie się). Turing brał również udział w łamaniu szyfrów Enigmy.

TŁUMACZENIA AUTOMATYCZNE W POLSCE

English Translator XT

Pierwszy produkt komercyjny w parze językowej polski – angielski. Oparto go na dwujęzycznym leksykonie i tylko kilku regułach gramatycznych. Jak można się domyślić, nie był dużym sukcesem.

Tłumacz i słownik firmy Kompas

Dużo bardziej rozbudowany, na bazie ogromnych słowników (kilka milionów haseł każdy). Dzięki niemu można było uzyskać przekład z polskiego na niemiecki, włoski, hiszpański, francuski, angielski i rosyjski.

POLENG

Stworzony przez informatyków z Uniwersytetu im. Adama Mickiewicza w Poznaniu. Prace rozpoczęły się już w 1996 roku. Powstał dzięki chęci dostosowania systemu komunikacji banku AIB (Allied Irish Bank) – kiedyś udziałowca WBK. Bank AIB dołączył do projektu w 2001 roku.

TRANSLATICA

Firma stojąca za poprzednim projektem (również nazwana POLENG) stworzyła jeszcze jeden program. W 2004 roku powstał system tłumaczenia Translatica oparty na głębokiej analizie składniowej.

System Translatica tworzy drzewo składniowe języka wyjściowego, przekształca na drzewo języka docelowego 🌳. Z tego powstaje dopiero przetłumaczone zdanie.

Wartym uwagi jest jeszcze projekt dwóch badaczy z UAM. Stworzyli oni projekt open-source, pozwalający na tworzenie neuronowego systemu tłumaczenia automatycznego. Co ważne oparty jest on o prywatne zasoby językowe. Projekt nazywa się Marian-NMT i jest dostępny TUTAJ

Obecnie projektem zajmuje się Microsoft. System jest silnikiem kolejnego rozwiązania tłumaczenia maszynowego – Microsoft Translator Neural Machine Translator. Dodatkowo silnik został napisany tylko w C++

Sam Microsoft Translator zapewnia średnią jakość tłumaczeń. Wartym uwagi jest jego funkcja rozmów wielojęzykowych. Osoba pisze na czacie w jednym języku, a jego rozmówcy widzą wiadomość w swoim ojczystym języku.

GOOGLE TRANSLATE – GT

W 2006 r. dwa lata po powstaniu Translatica powstał Google Translate (GT). Rok później oferujący już język polski. Oczywiście jakość tego tłumaczenia była niska. Jednak cały system dostępny był za darmo, co stopniowo wypierało komercyjne rozwiązania

Dodatkowym czynnikiem jego popularyzacji był dostęp do ogromnych i wciąż rosnących zasobów tekstowych. Wynika to z firmy stojącej za GT. Z drugiej strony, mało która firma mogła wtedy pozwolić sobie na stworzenie takiego produktu. Do dzisiaj baza danych GT to największy zasób tekstowy na świecie 📚

HISTORIA NAJNOWSZA

W 2014 roku firma Google i niezależnie od niej Uniwersytet w Montrealu opracowały podstawy i zaproponowały tłumaczenia automatyczne oparte na sieciach neuronowych 🧠

Sieci neuronowe to systemy przetwarzania informacji oparte, na działaniu biologicznego systemu nerwowego. Ich struktura, oraz schematy sztucznych neuronów są oparte na naszym układzie nerwowym. Wykazują one zdolność uczenia się na podstawie przykładów i generalizacji (uogólniania) zdobytej wiedzy. Dobrym przykładem zastosowania sieci neuronowych są programy OCR – optyczne rozpoznawanie pisma. Nie osiągnęły one jeszcze pułapu swoich możliwości i w najbliższych latach możemy spodziewać się dużego postępu w tej dziedzinie.

Wartym uwagi tłumaczem automatycznym jest DeepL. Obecnie jeden z najlepszych tłumaczy. Wspierany sztuczną inteligencją. Oczywiście nadal nieidealny.

Na naszych oczach dzieje się rewolucja. Dzięki algorytmom i sieciom neuronowym. Nie dość, że te systemy różnią się od swoich poprzedników z poprzedniego wieku, ale także codziennie się uczą. Systemy tłumaczeń maszynowych pracują już podobnie do ludzkiego mózgu. Trudno więc przewidzieć kierunek, w jakim się rozwiną.

Pamiętaj, przyszłość zaczyna się dziś

Źródła:

Claude E. Shannon. Pobrane z: https://pl.wikipedia.org/wiki/Claude_E._Shannon
Hutchins, J., & Lovtskii, E. (2000). Petr Petrovich Troyanskii (1894-1950): A Forgotten Pioneer of Mechanical Translation. Machine Translation, 15(3), 187–221. http://www.jstor.org/stable/40009018
Jaseem, K. (2020) Historia tłumaczenia automatycznego w pigułce. Pobrane z: https://ai.pwn.pl/blog/historia-tlumaczenia-automatycznego-w-pigulce
Krótka historia tłumaczenia maszynowego. Kiedy się zaczęła?. Pobrane z: https://summalinguae.com/pl/technologie-jezykowe/krotka-historia-tlumaczenia-maszynowego-kiedy-sie-zaczela/
Krótka historia tłumaczenia maszynowego. Pobrane z: http://mlingua.pl/pol/czytelnia/technologie_tlumaczeniowe1,,krotka_historia_tlumaczenia_maszynowego_john_hutchins_tlum_agnieszka_slemp_,a,521,p,0.html
Teoria Informacji. Pobrane z: https://pl.wikipedia.org/wiki/Teoria_informacji
Tłumaczenie automatyczne.: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_automatyczne
Tłumaczenie statystyczne. Pobrane z: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_statystyczne

Spis treści

Czym są programy CAT?
Najważniejsze funkcje programów CAT
Korzyści z zastosowania narzędzi CAT
Programy CAT w skrócie
Lista najpopularniejszych CATów

Czym są programy CAT?

Programy CAT (Computer Assisted Translation) nie mają tak naprawdę nic wspólnego z kotami, niestety 😔

Znane też jako computer-aided translation, są one koniecznymi narzędziami profesjonalnych tłumaczy i biur tłumaczeń, ponieważ poprawiają jakość, spójność terminologiczną i przyśpieszają projekty.

Narzędzia CAT pozwalają tłumaczom przyspieszyć proces przekształcania języka źródłowego w docelowy. Ten rodzaj technologii wspomagającej jest podobny do procesorów tekstu, takich jak Google Docs, które sugerują alternatywną pisownię lub sygnalizują błędy gramatyczne, lub do LinkedIn, automatycznie dodającego możliwe odpowiedzi do ekranu odpowiedzi.

Tłumacząc pliki HTML, strony internetowe czy interfejsy aplikacji, ale także, praktycznie każdy dłuższy tekst opłaca się używać programów CAT. Często są one mylone z MT (machine translation), czyli automatycznym komputerowym tłumaczeniem – Google Tłumacz, DeepL i inne. Nie jest to jednak to samo oprogramowanie.

Photo by Isabella and Zsa Fischer on Unsplash

Krótko mówiąc programy CAT to taki pamiętliwy Word na sterydach 💪, automatycznie sprawdzający poprawność tekstu. Dlatego, że działają one na podstawie schematu:

Zbieranie danych z pliku wejściowego
Dzielenie tekstu na segmenty (zdania, wiersze, komórki)
Automatyczne tłumaczenie segmentów zawierających proste, replikowalne dane (liczby, znaki itp.)
Automatyczne tłumaczenie segmentów zapisanych wcześniej w pamięci tłumaczeniowej (opcjonalna funkcja – powtórzenia)
CAT może przygotować komputerowe tłumaczenie, które wymaga później akceptacji tłumacza

Przykład segmentacji i propozycji tłumaczenia maszynowego w programie Smartcat

Schemat ten otwiera szerokie pole do usprawnienia i przyśpieszenia procesu tłumaczeniowego, szczególnie przy plikach z dziedziny, w której się specjalizujemy, lub plików z dużą ilością powtarzającego się tekstu 😎

Na przykład polityki prywatności, regulaminy, ustawy, tłumaczenia medyczne, prawnicze – często zawierają te same formuły i frazy. Powtarzają się też one wielokrotnie.

Dzięki programom CAT wystarczy przetłumaczyć je tylko raz. Jeśli mamy je już zapisane w pamięci tłumaczeniowej, może się okazać, że połowa naszego tekstu zostanie wstępnie przetłumaczona, na podstawie wcześniejszych tłumaczeń, a nam zostanie sama weryfikacja i ew. korekta.

Najważniejsze funkcje programów CAT

Pamięć tłumaczeniowa

Inaczej TM – translation memory. TM zapisuje i przechowuje wcześniej wygenerowane tłumaczenia w bazie danych i przywołuje je w momencie tłumaczenia pasującego segmentu. Jest to w zasadzie baza danych, Twoja lub również innych tłumaczy, z którymi współpracujesz. Na przykład biura tłumaczeń dysponują wielkimi bazami danych dotyczącymi tekstów prawniczych czy medycznych. Pozwala to tłumaczom w łatwy sposób wybierać frazy, które zostały już przetłumaczone, w ramach różnych projektów.

Tłumacz musi ocenić, czy przywołane zdania z pamięci tłumaczeniowej pasują do kontekstu nowego tłumaczenia Co ważne, pamięć tłumaczeniowa działa również cross-file, czyli tłumaczenie danego segmentu, pojawi się we wszystkich plikach, w danym projekcie.

Powtórzenia i fuzzy matches

Takie same segmenty jak ten, który pojawił się wcześniej w tekście, to powtórzenia. Segmenty w dużym stopniu do niego podobne to fuzzy matches.

Programy CAT posiadają opcję automatycznego wypełniania danego segmentu. Właśnie wtedy gdy trafią, na powtórzenia.

Przykład:

Tłumaczymy katalog, gdzie nazwy produktów nie różnią się za wiele. Numer i jakieś oznaczenia. W przypadku gdy mamy ich kilkadziesiąt lub kilkaset, pisanie ich ręcznie może przyprawić o ból głowy. Dzięki programom CAT ograniczymy się do pierwszego wystąpienia danej frazy. Wszystkie kolejne zostaną w okamgnieniu dopasowane do tego co wprowadziliśmy. Dzięki innym funkcjom możemy być pewni, że tłumaczenie będzie spójne i zachowamy oryginalny wygląd nazw produktów.

Glosariusz/baza terminologiczna

To lista terminologii branżowej i/lub specyficznej dla danej firmy. Odnosi się do listy terminów i definicji w konkretnym projekcie, którą można wyodrębnić z tekstu głównego. Wyjaśnia ona, co oznaczają dane terminy, jak je tłumaczyć i czy w ogóle je tłumaczyć, np. nazwy marek, produktów, skróty i terminologia branżowa.

Jeśli dysponujemy już taką listą, składającą się z terminów i ich tłumaczenia, wystarczy wgrać ją do programu. Przy następnym wystąpieniu danego terminu, wyświetli nam się przypomnienie, że dany termin należy tłumaczyć w zapisany wcześniej sposób.

Bazy terminologiczne zapewniają, że nawet jeśli te tłumaczenia są wykonywane przez różne osoby, otrzymamy spójne tłumaczenie. Co ciekawe, różne pamięci tłumaczeniowe i glosariusze można zakupić i to za niemałe pieniądze

Całe pamięci tłumaczeniowe i glosariusze, możemy zapisać sobie w prywatnej bazie danych i z biegiem czasu naprawdę ułatwimy sobie tłumaczenia.

Sprawdzanie jakości

Błędy zdarzają się najlepszym z nas. Narzędzia kontroli jakości (QA) automatycznie sprawdzają, czy w tekście nie ma powtórzeń, dodatkowych spacji między słowami lub innych literówek, które mogą pojawić się w trakcie procesu tłumaczenia.

Moduły QA wykrywają:

niespójności,
zmianę liczby lub treści adresów e-mail, lub adresów URL,
różne nawiasy lub liczby,
niespójny HTML
identyczny tekst
różne tłumaczenia dla podobnych segmentów
kropki, wykrzykniki itd.

Do tego warto dodać sobie wtyczki sprawdzające pisownie jak Language Tool czy Grammarly i nic już nam nie umknie.

🏆 Korzyści z zastosowania narzędzi CAT

Spójność:

Jeśli tłumaczymy, kilkanaście plików w jednym projekcie, musimy się upewnić, że terminy będą tak samo przetłumaczone. Tutaj załatwiamy wszystkie za jednym razem, jeśli segmenty są w 100% takie same. Mamy również podpowiedzi, gdy korzystamy z funckcji zarządzania terminologią.

Szybkość:

Jesteśmy w stanie dużo szybciej przetłumaczyć dany plik, co przekłada się na wyższe zarobki i więcej czasu wolnego. win-win 🌴

Jakość:

Im więcej kontekstu mamy, tym wyższej jakości tłumaczenia możemy dostarczyć. Pamięć tłumaczeniowa, glosariusz dostarczają kontekstu opisowego. Czasami można jeszcze spotkać się ze zrzutami ekranu jako kontekst wizualny, w przypadku gdy klient zleca nam pracę w jego narzędziu/portalu CAT.

Zachowanie formatowania pliku wejściowego

Można sobie wyobrazić tłumaczenie pliku w Wordzie, nie daj boże skonwertowanego z PDF, gdzie jedno przesunięcie pliku, psuje nam cały układ.

Redditor: Breaking UE Laws on Reddit

Dzięki programom CAT zachowujemy oryginalny wygląd i formatowanie pliku, wliczając w to pogrubienia, kursywy, hiperłącza, tytułu i podtytuły.

Po przygotowanym tłumaczeniu następuje eksport tłumaczenia. Program CAT podmienia tekst źródłowy na tekst docelowy, zachowując formatowanie.

Programy CAT w skrócie

krótszy czas przygotowania tłumaczenia
niższa cena tłumaczenia
spójność
dokładność tłumaczenia
podpowiedzi, odnośnie kolejnych fragmentów tekstu
jednolita terminologia
zachowanie formatowania pliku wejściowego

Najpopularniejsze Caty

SDL Trados

Najpopularniejszy, najdroższy i trudny w nauce. Plusem jest zapisywanie wszystkiego na naszym komputerze, dobre dla tłumaczy przysięgłych. Minusem koszt i wymagany czas na naukę (nie obejdzie się tutaj bez filmów na YT czy kursów). Na rynku od 25 lat. Ma swoje formaty plików.

Plusy	Minusy
Najbardziej popularny – ułatwiona wymiana informacji	Wysoka cena
Stosowane przez biura tłumaczeń	Stroma krzywa uczenia się z powodu skomplikowanego interfejsu

MemoQ

Jeden z najbardziej znanych programów, oferuje podobne funkcje co SDL, średnio lubiany wśród tłumaczy, bardzo lubiany wśród zagranicznych biur tłumaczy.

Plusy	Minusy
Możliwość podejrzenia tłumaczeń na żywo, w dokumencie	Działa tylko na Windows
Wzory tłumaczeń dokumentów	Wymaga podłączenia do serwisu MemoQ
	Wysoka cena w stosunku do jakości

Redokun

Plusy	Minusy
Praktycznie zerowa wiedz potrzebna do obsługi programu	Stary wygląd
Organizacja plików jak na dysku Google	Wyświetlanie segmentów na kilku różnych stronach, przez co często trzeba wracać do poprzednich
Opcja wstępnego tłumaczenia plików na podstawie różnych baz danych
Możliwość wgrania obrazów jako

Smartcat - mój ulubiony

Plusy	Minusy
prosty interfejs i można się go nauczyć w 10 minut	Nie wszystkie opcje są dostępne
zintegrowana platforma do znajdowania klientów, płatności itd. (mały digital marketplace)	Przy większej ilości plików trudne zarządzanie TM
darmowy (rozpoznawanie tekstu ze zdjęć i lepsze tłumaczenia maszynowe płatne)

Transifex

Plusy	Minusy
Stworzony z myślą o tłumaczeniu aplikacji. Super zintegrowany z GitHub	Mniejsze zastosowanie przy innych rodzajach pliku niż software
Niska cena	Nie wszystkie opcje są dostęne
Możliwość urządzenia głosowania – gdzie tłumacze decydują wspólnie nad poprawnym tłumaczeniem	Na początku stworzony tylko w celach lokalizacji oprogramowania

Crowdin

Plusy	Minusy
Darmowy, ale Twoje tłumaczenia są przekazywane do bazy danych pamięci tłumaczeń Crowdin	Stworzony głównie do lokalizacji oprogramowania
Oparty o przechowywanie plików w chmurze	Darmowy, ale Twoje tłumaczenia są przekazywane do bazy danych pamięci tłumaczeń Crowdin
Integracja z GitHub, Play Store, Azure itp.

OmegaT

Plusy	Minusy
Darmowy	Archaiczny wygląd
Obsługuje ponad 30 formatów plików	Brakuje dużej ilości funkcji
Program open-source
Możliwość modyfikacji narzędzia, na podstawie potrzeb tłumacza

Wordfast

Plusy	Minusy
Nakładka do Worda	Archaiczny wygląd
Niska cena, opcja darmowego oprogramowania Wordfast Free	Skomplikowana instalacja
Nieograniczona liczba pamięci tłumaczeniowych i glosariuszy	Producent twierdzi, że jest kompatybilny z formatami SDL Trados – tłumaczom zdarzają się z tym często problemy

Memsource

Plusy	Minusy
Bardzo łatwa obsługa, nie wymaga długiego szkolenia	Archaiczny wygląd
Aplikacja mobilna	Częste problemy z QA
Niska cena

Obojętnie, który program CAT wybierzesz, musisz wiedzieć, że nie jesteś skazany na jedno narzędzie. Możesz korzystać z wielu. Dzięki takim programom zapewniamy pliki o stałej, wysokiej jakości.

Wcześniej niemożliwe funkcje, dokładność i zapewnianie zgodności z wytycznymi klienta zapewniają programom CAT stałą pozycję w arsenale narzędzi tłumacza.

Spis treści

Digital marketplace
Czym są platformy freelancingowe?
Wady i zalety
Korzystanie z portali jako tłumacz – czego szukać?
Fiverr
Upwork
Freelancer
Moje sugestie
Podsumowanie

Digital Marketplace

Czym jest digital marketplace?

Jest to usługa cyfrowa, która umożliwia konsumentom zawieranie umowy na platformie handlowej, z przedsiębiorcą, który używa usług komputerowych świadczonych przez platformę handlową. Brzmi skomplikowanie? Posłużę się przykładem, który będziemy jeszcze nieraz wykorzystywać w tym poście.

Potraktujmy marketplace dosłownie i porównajmy je do… miejskiego targu. Tego, którego coraz ciężej spotkać, ze względu na napływ sklepów mających w nazwie zwierzęta. Kawałek placu, na którym możemy za opłatą skorzystać z przestrzeni i drewnianego stoiska. Zazwyczaj sprzedawało się tam warzywa lub starocie, ale w naszym porównaniu zaoferujemy tam nowoczesne usługi.

Wchodząc na targ, napotkamy stoisko ze specjalistami SEO, grafikami, copywriterami (jak na portalach freelancingowych), gdzieś obok będzie montowanie filmów kłócące się z właścicielem stoiska z przeróbkami Photoshop. I na samym końcu nasze małe stoisko, bo dopiero zaczynamy, z usługami tłumaczenia.

Porównanie jest na tyle dobre, że pokazuje ułatwienia, jakie oferuje nam ten swoisty „targ”. Mianowicie gdybyśmy siedzieli po cichu w domu, szansa, że znalazłby nas klient znacznie by zmalała. W dzisiejszym świecie, dobie Internetu wygląda to tak:

Każdy, kto interesuje się marketingiem i sprzedażą produktów, nawet tych fizycznych powinien wiedzieć, że długa i trudna droga do zakupu to jeden z tragiczniejszych błędów sprzedaży. Dlatego widzimy popularność rozwiązań pozwalających kupować jednym kliknięciem.

Czy jest to uproszczony marketplace jak Allegro, Ebay czy Amazon, czy możliwość kupowania bezpośrednio z aplikacji Instagram. Główną zasadą jest uproszczenie klientowi procesu zakupu tak jak to możliwe.

Tylko co, jeśli klient musi nas najpierw znaleźć? Powracając do naszego porównania z targiem – „marketplace” każdy wie, że trzeba iść na targ, żeby kupić np. ziemniaki. Dlatego, że nawet jeśli sprzedajemy ziemniaki siła przebicia i marketingu targu jest dużo lepsza. Ma on „większy zasięg”.

Jeżeli nie potrafisz czegoś prosto wyjaśnić – to znaczy, że niewystarczająco to rozumiesz.

– Albert Einstein

Tutaj właśnie rozwinęły się portale digital marketplace i portale freelancingowe:

Sama idea digital (online) marketplace nie jest nowa, pojawiała się już jakiś czas temu, w swoich pierwszych pierwotnych wersjach np. pierwsze wersje Craigslist. Później pojawiały się pierwsze portale freelancingowe, a ostatnio znacząco się rozwinęły, powodując boom na korzystanie z usług freelancerów.

Częściowo miały na to wpływ pandemia i globalna redukcja kosztów, praca hybrydowa, zdalna itp. Platformy digital marketplace mogą być skierowane do wszystkich oferujących usługi, lub być bardzo specyficzne jak Redbubble gdzie osoby obdarzone talentem artystycznym mogą oferować swoje wzory np. na kubkach czy koszulkach.

Czym są platformy freelancingowe

Takie platformy to właśnie specyficzne platformy digital marketplace – rynek dla wszystkich pracujących zdalnie, gdzie mogą oferować swoje usługi.

Na platformach freelancingowych, po założeniu własnego profilu i podaniu koniecznych danych, możemy zacząć „wykładać swoje towary”. Jeśli platforma pozwala na tylko jeden rodzaj usług, musimy wyłożyć tylko daną usługę. Jeśli więcej, możemy oferować usługi mniej lub bardziej powiązane ze sobą. Takie ”wyłożenie” metaforycznych towarów, czyli naszych usług wiąże się ze stworzeniem albo odpowiedniego (rodzaju) profilu (Upwork) lub giga (Fiverr), czy usługi (Freelancer).

Oprócz tego platformy freelancingowe zapewniają bezpieczne miejsce do kontaktu z klientami, uproszczone i pewne płatności, brak konieczności fakturowania każdego klienta z osobna. Dzięki nim można nas znaleźć, klient, często międzynarodowy, może zapisać nasze usługi na później oraz nie wymaga to milionów e-maili.

Podsumowując, są to mniej lub bardziej specyficzne „targi”, na których możemy oferować swoje usługi. Niestety nic nie ma w życiu za darmo, a platformy pobierają opłaty za pośrednictwo, najczęściej w wysokości 20% naszych zarobków. Lepiej mieć 80% niż nie mieć nic, moim skromnym zdaniem.

Wady i zalety

Bo to jakoś mało profesjonalne

Platforma freelancingowa nie ma wpływu na poziom profesjonalizmu danego tłumacza. Prawdą jest to, że na takich platformach można spotkać osoby oferujące usługi za niską stawkę i adekwatną jakość. Wynika, to z dostępności Internetu i takich portali.

Jest to zjawisko powszechnie znane, w momencie gdy podaż jest bardzo duża, część usług będzie bardzo niskiej jakości Na szczęście, w ostatnich latach takich usług jest coraz mniej. Nie roztrząsając czy są to tłumaczenia ręczne, czy automatyczne, rynek bardzo szybko weryfikuje takie osoby.

Portale freelancingowe również się rozwinęły, zapewniając coraz więcej funkcji, lepsze algorytmy i dużo większe bezpieczeństwo.

To samo zjawisko można zauważyć np.: w telewizji, czy mediach społecznościowych. W momencie gdy wiadomości stały się całodobowe, ich jakość spadła, ten sam temat jest powtarzany przez cały dzień, a w telewizji ogólnopolskiej pojawiają się wiadomości o wypadkach gdzieś w małej wsi, zupełnie nieprzydatne dla 99% obywateli.

Tak samo spójrz na media społecznościowe, gdzie 90% z treści jest nieprzydatna, w najlepszym razie trochę śmieszna. Wartościowe treści są coraz trudniejsze w odszukaniu.

Zabierają mi 20%!

Tak. Czasami więcej, czasami mniej, to wszystko zależy od portalu freelancingowego i wszystkich usług, z których korzystamy. Tak samo, żebyś dostał/a powiadomienie o tym poście, wysłałem ci maila. Musiałem go również gdzieś opublikować. Gdy prosisz mnie o fakturę, dostajesz ją bardzo szybko. Za wszystkie te rzeczy muszę płacić.

Korzystając z platform freelancingowych otrzymujemy miejsce do kontaktu z klientem, nie musimy wysyłać dużej ilości faktur, utrzymywać firmowego maila itd. W momencie niekorzystania z takowych portali koszt czasu, jak również pieniędzy byłby pewnie porównywalny.

Lekko abstrahując, nigdy nie usłyszałem takiego argumentu od kogoś już obecnego na podobnych portalach. Tylko od osób, które mają obiekcje, powstrzymujące je przed dołączeniem. Logicznie rzecz biorąc, takie osoby same ograniczają swoje zarobki (nakład czasu, koszt założenia i utrzymania takiego profilu, pomijam, gdyż jest znikomy).

Skomplikowane na początku

Niestety mogą się takie wydawać. Nie jesteśmy pokoleniem, które wyrosło z telefonami przyklejonymi do ręki, przez cały dzień. Poznawanie nowych technologii również przychodzi niektórym szybciej, innym trochę wolniej. Jeszcze kilkanaście lat temu firma mogła swobodnie funkcjonować bez żadnej widoczności online.

Dzisiaj, bez obecności w mediach społecznościowych, znacząco ogranicza swoje zyski. Tak samo jest z portalami freelancingowymi. Jeśli zrozumiemy zasadę, jaka stoi za nimi, cała reszta wiąże się tylko z szatą graficzną i metodą otrzymywania / starania się o pojedyncze zlecenia.

Niskie stawki!

Zaczynasz od niskich, oczywiście. Jak w każdym biznesie. Chyba że pracujesz już jako tłumacz, masz doświadczenie i „co wpisać” w swoim opisie profilu. Nie od razu Rzym zbudowano, tak samo prezencji w Internecie, na jakimkolwiek portalu. Są osoby, które były aktywne na przykład na YouTube i założyły konto na Instagramie i zyskały bardzo dużo obserwujących od razu.

Analogia jest taka sama. Musisz poświęcić trochę czasu, żeby zyskać pozytywne opinie i dalej samo już idzie. Z doświadczenia wiem, że mimo początkowo niskich stawek, można je podnieść już po kilku miesiącach i nie powinno się kurczowo trzymać jednych stawek. Ja bałem się podnieść stawki w pewnym momencie mojej kariery, przez co przez ponad rok zaliczyłem okres stagnacji.

Skomplikowane finanse i wypłaty

Prawdą jest, że siedziby większości platform freelancingowych nie znajdują się w Polsce. Może to odstraszać niektórych ludzi, ze względu na bezpieczeństwo i konieczność podawania danych, aby otrzymać zarobione pieniądze.

Ilość danych, jakie podajemy na portalu freelancingowym, nie będzie większa niż w przypadku gdy dokonujemy zakupów online, przeglądamy media społecznościowe i robimy przelewy online. Z mojego doświadczenia jest to e-mail, imię i nazwisko, dane potwierdzające kraj zamieszkania oraz opcjonalnie numer karty, adres firmy (w przypadku JDG jest to najczęściej nasz adres domowy) numer konta bankowego, lub adres e-mail powiązany z kontem Paypal.

Dokładnie te same dane są wymagane, żeby założyć konto w kasynie online, żeby uwierzytelnić zakupy w Internecie czy podczas korzystania z innych stron internetowych. Płatności są bezpieczne, praktycznie natychmiastowe oraz odbywają się na zasadzie Escrow (na portalu). Po złożeniu wniosku o wypłatę jest to tylko uznanie wirtualnych środków i najczęściej czas oczekiwania jest zależny od naszego operatora bankowego.

Czym jest Escrow?

Jest to model zarządzania finansami, spotykany w wielu miejscach w Internecie. Np. Allegro czy inne portale handlowe, portale freelancingowe, YouTube (automatycznie), czy przy handlu nieruchomościami. Polega na skorzystaniu z usług powiernika, przechowującego pieniądze. Powiernik, w naszym przypadku portal freelancingowy informuje sprzedawcę o zabezpieczeniu środków na rachunku.

Wtedy dopiero rozpoczynamy pracę. Pieniądze są wypłacane albo etapami, albo w całości, gdy klient potwierdzi odbiór naszej usługi i jej zgodność z zamówieniem. W przypadku niedotrzymania przez nas usług umowy, pieniądze wrócą na konto klienta. Pojawia się w tym miejscu obawa o nieuczciwe wykorzystanie modelu Escrow, gdy klient otrzyma od nas usługę, i nie zaakceptuje jej pomimo braku wad (np. w tłumaczeniu).

Wtedy oczywiście musimy skontaktować się z obsługą sprzedawcy, która w 95% procentach jest po stronie sprzedawcy, w szczególności gdy usługa rzeczywiście nie zawiera błędów i spełnia warunki umowy. Przez ponad 5 lat pracy jako zdalny tłumacz zdarzyła mi się tylko jedna taka sytuacja.

Podsumowując

Plusy	Minusy
Jeden portal, by wszystkimi rządzić	Duży poziom skomplikowania na początku
Oszczędza nam czas	Opłaty za pośrednictwo
Zapewnia miejsce do kontaktu, promocji, widoczność,	Niesłusznie zła opinia o takich portalach
Bezpieczne płatności	Konieczność podawania danych
Czas pracy zależny od nas	Niskie stawki na początku
Klient może nas łatwiej znaleźć – metafora Targu
Wysokie zarobki przy małej ilości godzin pracy

Według mnie KAŻDY tłumacz niezależnie od wieku powinien dzisiaj być widoczny na przynajmniej jednym portalu freelancingowym. Plusy zdecydowanie przeważają nad minusami. Większość minusów jest ważna dla nas tylko na początku / gdy jeszcze nie spróbujemy pracy jako freelancer. Z czystego biznesowego punktu widzenia jest to wolna opcja biznesowa do wykorzystania. Więc dlaczego wielu nadal ma obiekcje?

Korzystanie z portali freelancingowych – czego szukać?

Tutaj odpowiedź jest zdecydowanie prosta. Wszystkich plusów i dużej ilości zleceń tłumaczeniowych. W tym celu przyjrzymy się bliżej, trzem najbardziej popularnym portalom, gdzie można znaleźć usługi językowe. Trzeba sobie najpierw powiedzieć, że na początku NA PEWNO będzie trudno i trochę skomplikowanie. Rozpoczynanie nowej kariery, nie jest sprintem a maratonem. Jednak już po 3-6 miesięcy możemy spodziewać się pierwszych sukcesów.

Fiverr

Jeden z najbardziej popularnych portali freelancingowych. Dostępny od 2010 roku. W ostatnich latach bardzo został ulepszony, jeśli chodzi o bezpieczeństwo, wygodę dla sprzedawców, czy możliwość oferowania różnych usług. Bez problemu możemy oferować tu wszystkie usługi związane z językiem w tym tłumaczenia, na dowolny język.

Minusem Fiverra jest błędne przekonanie, że trzeba zacząć od pracy za orzeszki, czyli dużych wolumenów plików za 5$, co jest oczywiście nieprawdą. Stawki są na początku niższe, ale nie muszą odpowiadać nierealnej ilości pracy. Natomiast jest dużo plusów między innymi zerowy koszt rozpoczęcia działalności. Fiverr żeby zacząć jest w 100% darmowy, a proponowana promocja własnych ofert kosztuje mniej niż 50zł miesięcznie.

Do tego dochodzi bardzo duża ilość zleceń tłumaczeniowych, większa niż na jakiekolwiek innej platformie. Oczywiście wszystkie wyżej wymienione plusy i minusy z głównej tabeli, mają tutaj również zastosowanie.

Plusy	Minusy
Brak kosztów początkowych (bardzo niskie)	Niskie stawki na początku
Bardzo intuicyjny start	Duża konkurencja
Duża ilość zleceń językowych	Stałe opłaty za pośrednictwo 20%
Bardzo proste i intuicyjne UI*	Ewentualne opłaty za promocję usług
Możliwość oferowanie zleceń zwykłych lub Milestones*
Brak abonamentu

UI – Interfejs użytkownika (sprzedawcy)
Zlecenie np. z 3 etapami i płatnością po każdym z nich

Upwork

Uważany za najbardziej profesjonalny portal freelancingowy. Rzeczywiście, jego funkcje i udoskonalenia oferują wiele opcji, ale pozostawiają też wiele do życzenia. Przede wszystkim kosztuje więcej. Mamy ograniczoną ilość możliwości kontaktu z potencjalnymi klientami. Tzw. Connects.

Są to pewnego rodzaju tokeny, których używamy, aby kontaktować się z klientami. Okazuje się, że bez zainwestowania pieniędzy jest dużo trudniej zacząć i zajmie to więcej czasu niż na innych portalach. Otrzymasz kilka Connects jako bonus podczas tworzenia profilu – i możesz również uzyskać kilka darmowych Connects każdego miesiąca – ale na pewno będziesz musiał kupić więcej, jeśli myślisz poważnie o Upwork.

Początkujący powinni być przygotowani na wysłanie 20-30 Connects w celu uzyskania małego zlecenia, co może kosztować dziesiątki (setki) Connects. W tej chwili Connects kosztują 0,15$ za sztukę i są sprzedawane w pakietach po 10, 20, 40, 60 i 80$. Jeśli masz subskrypcję Freelancer Plus (14.99$/mies.) dostaniesz 80 darmowych połączeń miesięcznie (warte 12$). Kolejnym minusem jest faworyzowanie sprzedawców z USA. Oczywiście wszystkie wyżej wymienione plusy i minusy z głównej tabeli, mają tutaj również zastosowanie.

Plusy	Minusy
Po pewnym czasie bardzo proste	Wysoki koszt początkowy
Uproszczone finanse	Duża konkurencja
Niektóre branże bardzo wysoko płatne, niektóre mniej	Bardzo skomplikowane na początku
Stopniowa skala opłat za pośrednictwo 20-5%	Skomplikowany proces rejestracji
Dostępny w jęz. polskim	Bardzo specjalistyczne (specjalizacja jest w cenie)
Możliwość pracy za godzinę	Niektóre branże bardzo wysoko płatne, niektóre mniej
	Skomplikowane UI
	Płatny abonament 15$/mies. + dodatkowe koszty
	Faworyzowanie sprzedawców z USA
	Skomplikowana aplikacja mobilna

Freelancer

Moja rada, po 5 latach kariery jako freelancer – nie korzystaj z tej platformy jako początkujący. Strona jest bardzo zapchana dziesiątkami milionów freelancerów, czyniąc wybicie się jako początkujący, bardzo trudnym. Dużo ludzi narzeka na forach, że na platformie Freelancer można spotkać wielu oszustów, chociaż nie natknąłem się na żadnego.

Jednak tym, którzy dołączyli do platformy dawno temu, kiedy była jeszcze nowa, udało się zarobić całkiem duże kwoty i zdobyli wiele dobrych opinii stąd, są na pozycji, by zbierać dobre oferty.

Dodatkowo strona jest naprawdę skomplikowana i toporna. Interfejs użytkownika jest skomplikowany i nie korzysta się z niej w żaden sposób intuicyjnie. Poza tym opłaty są trochę wyższe niż w przypadku innych platform, a wykupienie abonamentu jest praktycznie konieczne.

Plusy	Minusy
Dostępny w jęz. polskim	Wysoki koszt początkowy
Możliwość pracy za godzinę	Bardzo duża konkurencja
	Skomplikowana obsługa platformy
	Niektóre branże bardzo wysoko płatne, niektóre mniej
	Skomplikowane, toporne UI
	Niedopracowana aplikacja mobilna

Oczywiście zdaję sobie sprawę, że każda platforma może mieć przeciwników i zwolenników. Jednym przypadnie do gustu jedna, innym druga. Wymienione plusy i minusy, to nie jest w 100% zamknięta lista. Zapraszam do komentowania, dyskusji. Również z czasem będę dopisywał odpowiednie sekcje. To samo tyczy się innych platform freelancingowych.

Moje sugestie

Jak już powiedziałem, uważam, że każdy tłumacz powinien być widoczny i pracować na co najmniej jednej platformie freelancingowej. Chciałbym dać Ci również radę, co ty powinieneś zrobić. Rozważmy więc kilka przykładów.

Co ja szczerze polecam:

Opcja 1: Gdy mamy pracę, zerowe lub małe środki finansowe, uczymy się i nie mamy możliwości poświęcania dużej ilości godzin, ani energii mentalnej na wiele platform naraz (80% ludzi)

Zacznij od Fiverr
Poczekaj 4-6 miesięcy, rozkręć biznes, zyskaj klientów i pewną poduszkę pieniędzy
Rozwijaj dalej aktywnie Fiverr
Zacznij czytać o Upwork i później załóż konto
Po około 6-8 miesiącach staraj się skupiać w 80% na Fiverze i 20% na Upwork (Fiverr ma być bazą do zarabiania i kariery – UpWork celowo ma iść wolno, ale do przodu)
Dostosowuj swój nakład czasowy na obydwu platformach według potrzeb (Osobiście uważam, że poza kilkoma wyjątkami, skupienie się bardziej na Fiverr przez pierwsze 2 lata będzie bardziej opłacalne)
Nie korzystaj z Freelancer
Cały czas rozwijaj się zawodowo i prywatnie

Opcja 2: Gdy posiadamy większe środki, które możemy zainwestować, więcej czasu oraz nakłady energii fizycznej i mentalnej

Załóż konto na Fiverr
Naucz się, jak działa platforma, przez około miesiąc. (Obsługa Fiverra jest prostsza, ale podobna do UpWork)
Załóż konto na Upwork i staraj się wysyłać jak najczęściej Connect, żeby otrzymać zlecenia ( po pewnym czasie będziesz musiał je zakupić)
Dodatkowo aktywnie skupiaj się na rozwoju osobistym i zawodowym
Poświęcaj czas mniej więcej po równo na obie platformy

Oczywiście są to niepełne plany, nie uwzględniają zmian stawek, okresów wakacyjnych (pandemicznych) itd. Każda kariera językowa również jest inna. Jeśli jedna platforma, z jakiegoś powodu nam się nie podoba, nie musimy oczywiście się zmuszać do jej używania.

Podsumowanie

Zbliżamy się już do końca tego artykułu. Mam nadzieję, że dowiedziałeś się z niego i zrozumiałeś, na czym polega idea digital marketplace oraz dlaczego tak szybko się rozwija. Cieszę się również, że mogłem przybliżyć ci zalety i wady platform freelancingowych oraz wytłumaczyć, na czym polegają.

Pamiętaj, że plusy i minusy każdej z platform, nie muszą jej jeszcze całkowicie przekreślać, a ty musisz znaleźć swoją własną drogę. Osobiście uważam, że musisz być widoczny na co najmniej jednym z portali freelancingowych, np.: Fiverr. W najlepszym razie rozpoczniesz nową karierę, a w najgorszym zdobędziesz doświadczenie, którego prawie nikt nie ma!

Ocena tłumaczenia automatycznego

Sensowność tłumaczenia

Problematyka tłumaczenia automatycznego

Sens

Znaczenia

Metafory

Synonimia

Homonimy

Składnia

Ocena tłumaczenia automatycznego

Rozwój metod oceny tłumaczenia maszynowego

ALPAC (Automatic Language Processing Advisory Committee)

Pokazał on, że tłumaczenia automatyczne są kiepskiej jakości, a rząd USA obciął finansowania na tę dziedzinę technologii.

„Human Language Technologies Program” agencji ARPA

To tam stworzono metody oceny tłumaczenia automatycznego, z których korzystamy do dzisiaj.

Metody oceny zależne od człowieka

Round-trip translation

Automatyczne metody oceny tłumaczenia automatycznego

BLEU

NIST

WER

METEOR

Inne cechy METEOR nieobecne w innych metodach

Która z metod oceny tłumaczenia automatycznego jest najlepsza?

Dołącz do newslettera po więcej takich informacji

Już prawie...

Historia tłumaczenia sięga jeszcze jednak dalej.

Opłacało się to?

Tłumaczenie dosłowne

Tłumaczenie znaczeniowe

Translacja swobodna

Przekład adekwatny

Wiek XX

Dołącz do newslettera po więcej takich informacji

Już prawie...

Spis treści:

Wstęp:

Metoda statystyczna:

Podstawy tłumaczenia statystycznego:

Wyrazy vs. zdania w metodzie statystycznej:

Zalety metody statystycznej:

Wady tłumaczenia statystycznego:

Metoda oparta na przykładach (ang. EBMT)

Podstawy tłumaczenia opartego na przykładach:

Metoda oparta na regułach (ang. RBMT)

Typy metody RBMT:

Podstawy metody opartej na regułach:

Schemat działania RMBT:

Elementy systemu RBMT:

System RBMT wykorzystuje następujące elementy:

Zalety tłumaczenia opartego na regułach:

Wady tłumaczenia opartego na regułach:

Pamiętasz poszczególne typy metody opartej na regułach?

System oparty na słowniku DBMT:

Pierwszy program DBMT:

Zastosowania metody opartej na słownikach:

Pidżynizm:

Połączenie tłumaczenia opartego na słowniku i na przykładach:

Metoda oparta na transferze semantycznym (TBMT):

Podstawy systemu TBMT:

Rodzaje analizy i transferu w systemie TBMT:

Systemy interlingwalne (IMT):

Podstawy systemu interlingwalnego (IMT):

Wymagania metody IMT:

Zalety metody IMT:

Wady metody IMT:

NMT, czyli jak działa Google Tłumacz:

Dołącz do newslettera po więcej takich informacji

Już prawie...

Spis treści:

Słowem wstępu:

POCZĄTKI 📃

ALPAC

SYSTRAN I METEOR 🌠

Lata 90 🎵

TŁUMACZENIA AUTOMATYCZNE W POLSCE

GOOGLE TRANSLATE – GT

HISTORIA NAJNOWSZA

Pamiętaj, przyszłość zaczyna się dziś

Dołącz do newslettera po więcej takich informacji