Ocena tłumaczenia automatycznego
- Strona Główna
- Ocena tłumaczenia automatycznego
Sensowność tłumaczenia
Najprościej mówiąc to słownikowe znaczenie słów. Nie zależy ona od kontekstu sytuacyjnego.
Zdanie może być przetłumaczone poprawnie, w kwestii doboru słów, ale może brakować mu logicznego sensu.
Tutaj mówimy o konkretnych kontekstach sytuacyjnych.
Tłumaczenie może być dobre słownikowo, logiczne, ale niedostosowane do kodu językowego i kultury danego kraju.
Problematyka tłumaczenia automatycznego
Sens
Znaczenia
Komputer oczywiście nie zna znaczenia. Gdyby twórcy programów znali każde znaczenie danego słowa byłoby prościej.
Metafory
Synonimia
Tym bardziej sprawiają problemy komputerom. Tym bardziej że wyrazy mogą nie mieć odpowiednika w języku docelowym.
Homonimy
Wyrazy o dwóch znaczeniach to kolejny problem tłumaczenia automatycznego.
Zazwyczaj rozwiązują go na bazie metody statystycznej. Więcej o metodzie statystycznej i innych tutaj.
Składnia
Języki to żywe twory i różnią się miedzy sobą.
Język angielski to język pozycyjny, gdzie pozycja wyrazów w zdaniu odgrywa ważną rolę. Tymczasem język polski zachowuje się zupełnie inaczej.
Dodatkowym problemem jest tutaj występowanie rodzajników, podmiotu domyślnego, różnych czasów, aspektu. Te części języka nie są obecne we wszystkich językach.
Ocena tłumaczenia automatycznego
Rozwój metod oceny tłumaczenia maszynowego
Na rozwój metod ocen takiego tłumaczenia miały wpływ głównie dwa badania.
ALPAC (Automatic Language Processing Advisory Committee)
Pokazał on, że tłumaczenia automatyczne są kiepskiej jakości, a rząd USA obciął finansowania na tę dziedzinę technologii.
„Human Language Technologies Program” agencji ARPA
To tam stworzono metody oceny tłumaczenia automatycznego, z których korzystamy do dzisiaj.
Metody oceny zależne od człowieka
Round-trip translation
Automatyczne metody oceny tłumaczenia automatycznego
Takie algorytmy ciężko zapamiętać i według mnie, nie ma to najmniejszego sensu.
BLEU
Test kilku systemów tłumaczeń.
BLEU poległ na całej linii. Systemy ocenione jako najlepsze przez ludzi, ta metoda oceniła dopiero na szóstym miejscu.
Analiza silnika SYSTRAN przeciw dwóm silnikom korzystającym ze statystycznego tłumaczenia automatycznego.
Wynik BLEU dla SYSTRANu był znacząco gorszy niż wynik przyznany przez ludzi.
Z tego powodu uznano, że BLEU najbardziej sprawdza się do porównywania dwóch takich samych systemów.
💡 Systran to system tłumaczenia oparty na przykładach. Patrz historia tłumaczenia automatycznego.
NIST
💡 N-gram to model stosowany w rozpoznawaniu języka. Opiera się na statystyce i służy do przewidywania następnego słowa lub jednostki w sekwencji.
WER
Metoda ta porównuje ilość słów, która różni się gdy porównamy tekst do wzorcowego tłumaczenia przez człowieka.
METEOR
Inne cechy METEOR nieobecne w innych metodach
Jeśli w tłumaczeniu referencyjnym wystąpi słowo “interesujący”, a w automatycznym tłumaczeniu “ciekawy” system uzna to za dobre dopasowanie.
Która z metod oceny tłumaczenia automatycznego jest najlepsza?
Pierwsze miejsce zajmuje ludzka ocena. Myślę, że nie zmieni się to w przeciągu kilkunastu lat.
Według badań METEOR, w porównaniu do oceny człowieka, uzyskał wynik 0,964 na poziomie korpusu,
Dołącz do newslettera po więcej takich informacji
Już prawie...
Za chwilę otrzymasz e-mail z prośbą o potwierdzenie podanego adresu. Upewnij się, że wiadomość nie wylądowała w folderze spam!
W innych postach na blogu możesz przeczytać o historii tłumaczenia automatycznego od 1933 roku i dowiedzieć się jak działają programy CAT.
Historia tłumaczenia sięga jeszcze jednak dalej.

Źródło: tvp.info
Nie znano wtedy jeszcze pisma, dlatego przekład odbywał się ustnie. Tłumacze wchłaniali wiedzę przez inercję – przebywając w obcojęzycznej społeczności. 💭
Opłacało się to?

Pismo klinowe. Źródło: topflop.pl
Tłumaczenie dosłowne
Tłumaczenie znaczeniowe

Cyceron demaskujący Katylinę, Cesare Maccari. Źródło: imperiumromanum
🖊️ Jednak styl zapisu był zupełnie odmienny od tego co znamy dzisiaj. Rzymianie pisali odręcznie, bez podziału na wielkie i małe litery. Nie stawiano przerw pomiędzy wyrazami i pisano bez znaków interpunkcyjnych.
Podobno Aulus Gelius, rzymski mówca z II wieku n.e. odmówił przeczytania publicznie tekstu, którego nie napisał.
Tłumaczenie znaczeniowe, też nie było wolne od wad.
Kontakty handlowe, czyli znowu pieniądze 💰, wymagały tłumaczeń na niespotykane dotąd języki. Tak narodziła się kolejna metoda tłumaczeń.
Translacja swobodna
We Francji na falach oświecenia w XVIII w. narodziła się szkoła tłumaczenia swobodnego. Jej założenia były wręcz idealne.
Ingerowano w treść i sens tekstu. Zmiękczano starożytne realia, aby przybliżyć czytelnikowi wartości oświecenia. U podstaw tej metody leżało przekonanie, że tłumacz może zrobić wszystko, aby przypodobać się czytelnikowi.

Czyli jak mówił Antoine de la Motte, jeden z tłumaczy tamtego okresu:
Bardzo chciałem uczynić swój przekład przyjemnym i ze względu na to, zmuszony byłem do zastąpienia idei, które podobały się w czasach Homera, ideami, które podobają się dzisiaj.
Florian, również z tamtego okresu: najprzyjemniejszy przekład będzie najwierniejszym.
Przekład adekwatny
Równolegle do metody swobodnej wykształcił się dużo lepszy sposób tłumaczenia tekstów – przekład adekwatny.
❗ Zachowywał on co ważne, historyczne realia tekstu, spójność treści i formy oraz był całkowicie funkcjonalny.
Nie nadawał się zbytnio do tłumaczeń poezji, ale znalazł swoje miejsce w tłumaczeniach tekstów technicznych.
Spora część takich tekstów, powstałych podczas rewolucji przemysłowej, została przełożona tą metodą.
Wpływ na rozwój tłumaczenia adekwatnego miała też radziecka szkoła przekładu – opowiadała się ona za funkcjonalnością tłumaczeń.
📷 Według tej szkoły osiągnięcie “fotograficznej dokładności” w przekładzie i tak nie będzie możliwe.
Wiek XX
🏫 W 1953 roku, na Paryskiej Sorbonie powstała Międzynarodowa Federacja Tłumaczy – Fédération Internationale des Traducteurs
💻 Wiek XX przyniósł także ogromne zmiany w branży tłumaczeniowej. Pierwsze narzędzia komputerowe wspomagające tłumaczenie wprowadziły tę dziedzinę w dwudzieste pierwsze stulecie.
🌎 W dzisiejszej dobie globalizacji zawód tłumacza ma się dobrze i wcale nie zmierza ku „wyginięciu”. Migracje ludności, transfer informacji i wiedzy wspomagają rozwój języków.
Dołącz do newslettera po więcej takich informacji
Już prawie...
Za chwilę otrzymasz e-mail z prośbą o potwierdzenie podanego adresu. Upewnij się, że wiadomość nie wylądowała w folderze spam!
Spis treści:
Wstęp:
Wyróżniamy kilka podstawowych metod tłumaczenia maszynowego:
- statystyczna (SMT)
- oparta na przykładach (EBMT)
- oparta na regułach / składniowa (RBMT)
- oparta na słownikach, bezpośrednia (DBMT)
- oparta na transferze semantycznym (TBMT)
- oparta na interlingwie (IMT)
Oprócz tego istnieją metody hybrydowe oraz NMT.
Metoda statystyczna:
Metoda statystyczna, właściwie jej pierwsze koncepcje zostały opisane w 1949 roku przez Warrena Weavera (patrz. Historia tłumaczenia automatycznego).
Zaproponował on użycie do tego teorii informacji Claude’a Shannona.
Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.
Korzystając z tej metody, tłumaczenie tworzone jest na podstawie modeli statystycznych. Modele pozyskiwane są poprzez analizę korpusu równoległego danej pary językowej.
Podstawy tłumaczenia statystycznego:
Przy tłumaczeniu statystycznym określa się prawdopodobieństwo, że dany ciąg znaków w języku źródłowym odpowiada ciągowi znaków w języku docelowym.
Powoduje to kilka problemów.
Znalezienie najlepszego tłumaczenia polega na wybraniu najbardziej prawdopodobnego ciągu znaków. Który jest najbardziej prawdopodobny?
Odkładając skomplikowane wzory matematyczne na bok, implementacja tej metody mogłaby polegać na przeszukiwaniu wszystkich możliwych ciągów znaków w języku docelowym.
Nie do końca. Wydajne przeszukiwanie takiego zbioru należy do zadań dekodera tłumaczenia maszynowego. Korzysta on z wielu metod i algorytmów, żeby ustalić jak najlepsze tłumaczenie.
Wyrazy vs. zdania w metodzie statystycznej:
Płodność to wskaźnik mówiący ile wyrazów można wyprodukować z jednego słowa z języka źródłowego.
Tłumaczenie na podstawie wyrazów zostało zastąpione tłumaczeniami na podstawie fraz.
Frazy te, czyli inaczej bloki lub ciągi zdań nie są frazami w rozumieniu lingwistycznym, ale wyrazami z korpusu równoległego. Wyciągniętym z niego właśnie przy pomocy metod statystycznych.
Warto wspomnieć, że najnowsze technologie operują na ogromnej bazie danych. Przoduje tu Google Tłumacz i jego astronomiczna liczba tekstów równoległych.
Zalety metody statystycznej:
- Lepsze i szybsze wykorzystanie zasobów – w obiegu jest duża ilość tekstów w postaci cyfrowej. Czeka ona tylko na obróbkę statystyczną.
- Jest to lepsza metoda niż systemy oparte na regułach. Nie wymaga ręcznego opracowywania reguł językowych. Oszczędza to dużą ilość zasobów ludzkich i nie ogranicza działania programu do konkretnego języka.
- Bardziej naturalne brzmiące tłumaczenie. Jeśli odpowiednik danego ciągu znaków pojawia się bardzo często, prawdopodobne jest, że będzie poprawny.
- Takie systemy bazują też na stworzonych przez człowieka tekstach. Otrzymany przekład może być bardziej naturalny niż tłumaczenie na podstawie odgórnie napisanych reguł.
Wady tłumaczenia statystycznego:
Nie jest to metoda idealna. Do problemów metody statystycznej należą:
- wyrazy złożone
- homonimy (patrz wyżej)
- idiomy
- morfologia danego języka
- szyk wyrazów w zdaniu
- wyrazy niebędące w słowniku (zestawie treningowym systemu)
Metoda oparta na przykładach (ang. EBMT)
To metoda tłumaczenia maszynowego, która charakteryzuje się użyciem dwujęzycznych korpusów z tekstami równoległymi jako głównej bazy wiedzy.
Jest to zasadniczo tłumaczenie przez analogię i może być postrzegane jako implementacja podejścia do uczenia maszynowego opartego na wnioskowaniu na podstawie przypadków.
Tłumaczenia przez analogię w odniesieniu do tłumaczenia przez człowieka mówi, że ludzie nie dokonują przekładu, bazując na głębokiej analizie lingwistycznej.
Zamiast tego opiera się na przekonaniu, że ludzie:
- tłumaczą, rozkładając zdanie na pewne frazy,
- przekładają te frazy,
- odpowiednio składają te fragmenty w jedno długie zdanie.
Zasada tłumaczenia przez analogię jest zakodowana w tłumaczeniu maszynowym opartym na przykładach poprzez tłumaczenia przykładowe, które są używane do trenowania takiego systemu.
Podstawy tłumaczenia opartego na przykładach:
Systemy tłumaczenia maszynowego oparte na przykładach są trenowane na podstawie dwujęzycznych korpusów równoległych zawierających pary zdań.
Pary zdań zawierają zdania w jednym języku wraz z ich tłumaczeniami na inny język. Na podstawie par minimalnych, zdań różniących się tylko jednym elementem, można łatwo nauczyć się tłumaczeń części zdania.
Komponowanie tych jednostek może być wykorzystane do tworzenia nowych tłumaczeń w przyszłości.
Pierwsze systemy tłumaczenia opartego na przykładach zostały wynalezione w latach 70. Przykładem takiego systemu jest Systran (patrz Historia tłumaczenia automatycznego).
Przykładem systemu korzystającego z metody opartej na przykładach jest Cunei.
Platforma typu open source, która powstała w wyniku badań nad EBMT, ale obejmuje również najnowsze osiągnięcia w dziedzinie metody statystycznej.
Tłumaczenie maszynowe oparte na przykładach zostało po raz pierwszy zaproponowane przez Makoto Nagao w 1984 r. Zwrócił on uwagę, że jest ono szczególnie przydatne do tłumaczenia między dwoma zupełnie różnymi językami, takimi jak angielski i japoński.
W tym przypadku jedno zdanie można przetłumaczyć na kilka poprawnych zdań w innym języku, dlatego nie ma potrzeby przeprowadzania dogłębnej analizy językowej, charakterystycznej dla tłumaczenia maszynowego opartego na regułach. 👇
Metoda oparta na regułach (ang. RBMT)
Jest to starsza technologia (zwana klasyczną metodą tłumaczenia automatycznego), która bazuje na połączeniu reguł gramatycznych, językowych i słownikach.
Mając do dyspozycji zdania wejściowe (w języku źródłowym), system RBMT generuje je do postaci zdań wyjściowych (w języku docelowym) na podstawie analizy morfologicznej, składniowej i semantycznej zarówno języka źródłowego, jak i docelowego.
Systemy oparte na regułach można również określić jako systemy przeciwstawne do systemów opartych na przykładach (Example Based Machine Translation), natomiast hybrydowe systemy tłumaczenia maszynowego wykorzystują wiele zasad zaczerpniętych z RBMT.
Typy metody RBMT:
Wyróżnia się trzy podstawowe typy RBMT:
- Systemy bezpośrednie, oparte na słownikach (DBMT)
- Systemy oparte na transferze semantycznym (TBMT)
- Systemy interlingwalne (IMT)
Wszystkie trzy metody opiszę poniżej. Ale najpierw dalsza część metody opartej na regułach RBMT:
Podstawy metody opartej na regułach:
Systemy RBMT opierają się na łączeniu struktury danego zdania wejściowego ze strukturą żądanego zdania wyjściowego, przy czym konieczne jest zachowanie ich unikalnego znaczenia.
“A girl eats an apple.” To zdanie poprosimy na język niemiecki.
Aby uzyskać niemieckie tłumaczenie tego angielskiego zdania, system RBMT potrzebuje co najmniej:
- Słownika ang-niem.
- Reguł struktur zdań angielskich.
- Reguł struktur zdań niemieckich.
- Zasad, według których można te dwie struktury ze sobą powiązać.
Schemat działania RMBT:
a = przedimek nieokreślony;
girl = rzeczownik;
eats = czasownik;
an = przedimek nieokreślony;
apple = rzeczownik
Eat – Present Simple, 3. osoba liczby pojedynczej, strona czynna
Parsowanie to inaczej dokonywanie analizy składniowej ciągu znaków w celu ustalenia jej struktury.
an apple = obiekt działania czasownika (eat)
Często tylko częściowe parsowanie jest wystarczające, aby dotrzeć do struktury składniowej zdania źródłowego i odwzorować ją na strukturę zdania docelowego.
a (przedimek nieokreślony) => ein (przedimek nieokreślony)
girl (rzeczownik) => Mädchen (rzeczownik)
eat (czasownik) => essen (czasownik)
an (przedimek nieokreślony) => ein (przedimek nieokreślony)
jabłko (rzeczownik) => Apfel (rzeczownik)
Tylko w najnowszych wersjach programów:
A girl eats an apple. => Ein Mädchen isst einen Apfel.
Elementy systemu RBMT:
JŹ – język źródłowy
JD – język docelowy
Analizuje słowo w języku źródłowym i dostarcza informacji morfologicznych.
Jest analizatorem składni, który analizuje zdania w języku źródłowym.
Służy do tłumaczenia słowa z języka źródłowego na język docelowy.
Działa jako generator odpowiednich słów języka docelowego dla podanej informacji gramatycznej.
Działa jako kompozytor odpowiednich zdań języka docelowego.
- słownik JŹ – potrzebny parserowi języka źródłowego do analizy morfologicznej,
- słownik dwujęzyczny – używany przez tłumacza do przekładu słów z języka źródłowego na słowa z języka docelowego,
- słownik JD- potrzebny parserowi do generowania słów języka docelowego.
System RBMT wykorzystuje następujące elementy:
Buduje konstrukcje składniowe ze zdań wejściowych;
Zawiera całe dopuszczalne słownictwo w danej dziedzinie;
Wskazują, w jaki sposób składnia i gramatyka zostaną zapisane przez komputer.
Schemat pojęciowy co odpowiada czemu.
Wskazują, w jaki sposób pojęcia i semantyka są mapowane na elementy składniowe i funkcje gramatyczne w języku docelowym;
Zawiera odpowiednie leksemy docelowe dla każdego pojęcia z danej dziedziny;
Realizuje docelowe konstrukcje składniowe jako zdania wyjściowe.
Zalety tłumaczenia opartego na regułach:
- Nie są potrzebne teksty paralelne. Umożliwia to tworzenie systemów tłumaczeniowych dla języków, które nie mają wspólnych tekstów, a nawet nie mają żadnych danych cyfrowych.
- Niezależność od dziedziny. Reguły są zazwyczaj pisane w sposób niezależny od dziedziny.
- Teoretycznie mogą być idealne (kiedyś). Każdy błąd można skorygować za pomocą odpowiedniej reguły, nawet jeśli dany przypadek jest niezwykle rzadki. Jest to przeciwieństwo systemów statystycznych, w których rzadko występujące formy będą domyślnie usuwane.
- Pełna kontrola. Ponieważ wszystkie reguły są pisane ręcznie, system oparty na regułach można łatwo debugować, aby dokładnie sprawdzić, gdzie dany błąd został wprowadzony do systemu i dlaczego.
- Możliwość ponownego użycia. Ponieważ systemy RBMT są zazwyczaj zbudowane z solidnej analizy języka źródłowego, części analizy języka źródłowego i generatora języka docelowego mogą być współdzielone przez wiele systemów tłumaczeniowych.
Wymagają one wtedy jedynie wyspecjalizowania etapu transferu. Ponadto analiza języka źródłowego dla jednego języka może być ponownie wykorzystana do uruchomienia analizy języka pokrewnego.
Wady tłumaczenia opartego na regułach:
- Niewystarczająca liczba naprawdę dobrych słowników. Tworzenie nowych słowników jest kosztowne.
- Reguły nadal muszą być ustalane ręcznie.
- Trudno jest poradzić sobie z interakcjami reguł w dużych systemach, wieloznacznością i wyrażeniami idiomatycznymi.
- Brak możliwości adaptacji do nowych dziedzin. Chociaż systemy RBMT zazwyczaj zapewniają mechanizm tworzenia nowych reguł oraz rozszerzania i adaptacji leksykonu, zmiany są zazwyczaj bardzo kosztowne, a ich rezultaty często nie są opłacalne.
Pamiętasz poszczególne typy metody opartej na regułach?
- Systemy bezpośrednie, oparte na słownikach (DBMT)
- Systemy oparte na transferze semantycznym (TBMT)
- Systemy interlingwialne (IMT)
Poniżej opiszę każdy z nich z osobna:
System oparty na słowniku DBMT:
Tłumaczenie maszynowe może wykorzystywać metodę opartą na hasłach słownikowych, co oznacza, że słowa będą tłumaczone tak, jak w słowniku – słowo po słowie. Zazwyczaj bez większej korelacji znaczeniowej między nimi.
Wyszukiwanie słownikowe może być wykonywane z analizą morfologiczną lub lematyzacją albo bez nich.
Lematyzacja – w językoznawstwie jest to proces grupowania form fleksyjnych wyrazu w taki sposób, aby można je było analizować jako pojedynczy element, identyfikowany przez lemat wyrazu lub jego formę słownikową
Pierwszy program DBMT:
LMT, wprowadzony ok. 1990 r., to oparty na języku Prolog system tłumaczenia maszynowego, który oparto na specjalnie przygotowanych słownikach dwujęzycznych, takich jak Collins English-German.
Metoda ta wykorzystuje strukturyzowaną bazę danych leksykalnych w celu poprawnej identyfikacji kategorii słów z języka źródłowego.
Pozwala to skonstruowanie spójnego zdania w języku docelowym, na podstawie podstawowej analizy morfologicznej.
System ten wykorzystuje „Frames” do określenia pozycji, jaką dane słowo powinno zajmować w zdaniu z punktu widzenia składni.
Zastosowania metody opartej na słownikach:
Jednym z możliwych zastosowań tłumaczenia maszynowego opartego na słownikach jest ułatwienie nauczania języków obcych (FLT).
Można to osiągnąć, wykorzystując technologię tłumaczenia maszynowego oraz językoznawstwo, semantykę i morfologię do tworzenia wielkoskalowych słowników praktycznie w każdym języku.
Dokładnie to do tworzenia LCS – leksykalnej struktury pojęciowej. To reprezentacja, która jest niezależna od języka. Jest ona najczęściej wykorzystywana w nauczaniu języków obcych, zwłaszcza w elemencie FLT związanym z przetwarzaniem języka naturalnego.
Drugim zastosowaniem tłumaczenia opartego na słownikach jest przekład języków pokrewnych. W przypadku bardzo bliskich języków prostsze metody tłumaczenia są bardziej wydajne, szybkie i niezawodne.
Może ona służyć do wstępnego przekładu z nieznanego języka. Tak podobno postąpiono w przypadku tłumaczenia Inferno Dantego oraz kilku rosyjskich powieści.
Innym zastosowaniem metody bezpośredniej jest przekład poezja->proza. Zachowujemy wtedy jedynie sens utwory, kompletnie pomijając jego aspekt poetyczny.
Tłumaczenie bezpośrednie było przyczyną krytyki pierwszych tłumaczeń maszynowych (patrz: Historia tłumaczenia maszynowego). Mówimy tu o eksperymencie uniwersytetu w Georgetown i firmy IBM z 1953 roku czy programie A.D Booth z 1955 roku.
Inaczej nazywana też tłumaczeniem dosłownym lub metafrazą, ta metoda jest bardzo przydatna w tłumaczeniu tekstów specjalistycznych. Tam terminologia ma zazwyczaj jasno opisane odpowiedniki, a użycie innych sformułowań byłoby błędem.
Metafraza to przeciwieństwo parafrazy. Metafraza to tłumaczenie słowo po słowie, wiersz po wierszu… nieuwzględniająca walorów artystycznych tekstu. Przeciwieństwo parafrazy, gdzie wyrażamy tekst innymi słowami, zachowując jego ogólny sens.
Pidżynizm:
Nie jest to literówka. Takie zjawisko społeczno-językowe zachodzi gdy osoba nieznająca języka posługuje się metafrazą, tłumaczeniem dosłownym.
W rezultacie otrzymujemy specyficzne połączenie obu języków, pełne również kalek językowych. Idealnym tego przykładem jest zakorzeniony już na stałe w dowcipach “ponglish”, połączenie jęz. polskiego i angielskiego.
– Rano lepiej jechać sabłejem, niż brać basa, bo w city jest okropny trafik
Źródło: ABC TŁUMACZENIA
Połączenie tłumaczenia opartego na słowniku i na przykładach:
To połączenie wykorzystuje inny schemat niż systemy takie jak LMT wspomniany wyżej.
Połączenie tych dwóch silników translatorskich pozwoliłoby na stworzenie bardzo wydajnego narzędzia tłumaczeniowego. Oprócz dokładności byłoby w stanie zwiększać swoją funkcjonalność dzięki ciągłemu feedbackowi.
Systemem, który łączy oba schematy, jest silnik tłumaczenia maszynowego Pangloss Example-Based Machine Translation (PanEBMT).
Metoda oparta na transferze semantycznym (TBMT):
Takie systemy opracowano, aby brały pod uwagę składnię i znaczenie tekstu źródłowego. Często rezultatem takiej analizy jest drzewo struktury syntaktycznej i dodatkowe informacje np. atrybuty znaczeniowe.
Przykładem takiego programu jest TRANSLATICA.
Podstawy systemu TBMT:
W przeciwieństwie do prostszej metody bezpośredniej system oparty na transferze dzieli tłumaczenie na trzy etapy:
- Analiza tekstu,
- Przeniesienie powstałej struktury do struktury odpowiedniej do wygenerowania tekstu w języku docelowym
- Wygenerowanie tego tekstu.
Systemy MT oparte na transferze są zatem w stanie wykorzystać wiedzę o języku źródłowym i docelowym.
Pierwszy etap polega na analizie tekstu wejściowego pod kątem morfologii i składni (a czasem także semantyki) w celu utworzenia jego wewnętrznej reprezentacji.
Reprezentacja ta może być następnie dopracowana do bardziej abstrakcyjnego poziomu, kładąc nacisk na części istotne dla tłumaczenia i ignorując inne rodzaje informacji.
W procesie transferu ta ostateczna reprezentacja (nadal w języku oryginalnym) jest przekształcana na reprezentację o tym samym poziomie abstrakcji w języku docelowym.
Na podstawie tej reprezentacji generowane jest tłumaczenie z wykorzystaniem słowników dwujęzycznych i reguł gramatycznych.
Rodzaje analizy i transferu w systemie TBMT:
Rodzaje analizy zależą głównie od projektu systemu, ale zazwyczaj zawierają co najmniej 3 z poniższych:
Części mowy, liczba, rodzaj, czas itp.
Polega na analizie kontekstu danego słowa w celu określenia jego właściwego znaczenia w kontekście danych wejściowych.
Jest to zasadniczo tłumaczenie słownikowe.
Ten etap dotyczy większych elementów składowych, na przykład fraz i fragmentów. Typowe cechy tego etapu to zgodność płci i liczby oraz zmiana kolejności słów lub fraz.
Na podstawie danych wyjściowych z etapu transferu strukturalnego generowane są formy języka docelowego.
Jedną z głównych cech systemów tłumaczenia maszynowego opartych na transferze jest faza, która „przenosi” pośrednią reprezentację tekstu w języku oryginału na pośrednią reprezentację tekstu w języku docelowym.
Może się to odbywać na jednym z dwóch poziomów analizy językowej lub gdzieś pomiędzy nimi. Poziomy te to:
Ten poziom charakteryzuje się przenoszeniem „struktur syntaktycznych” między językiem źródłowym i docelowym.
Jest on odpowiedni dla języków z tej samej rodziny lub tego samego typu, np. w językach romańskich między hiszpańskim, katalońskim, francuskim, włoskim itd.
Na tym poziomie konstruuje się reprezentację semantyczną, która jest zależna od języka źródłowego. Reprezentacja ta może składać się z serii struktur, które reprezentują znaczenie.
Ten poziom jest używany do tłumaczenia między językami bardziej odległymi (np. hiszpańsko-angielski, hiszpańsko-baskijski itp.).
Systemy interlingwalne (IMT):
Interlingwa lub Interlingua to sztuczny międzynarodowy język stworzony w 1951 roku. Łączy słownictwo języków romańskich (głównie hiszpański, włoski i rumuński) z uproszczoną gramatyką. Według szacunków na naukę interlingwy wystarcza 15 dni. Podobna do esperanto.
Podstawy systemu interlingwalnego (IMT):
W tym podejściu język źródłowy jest przekształcany w interlingua. Język docelowy jest następnie generowany na jego podstawie.
Tutaj interlingwa to opis analizy tekstu napisanego w języku źródłowym, umożliwiający przekształcenie jego cech morfologicznych, składniowych, semantycznych (a nawet pragmatycznych), czyli „znaczenia”, na język docelowy.
Taka interlingwa jest teoretycznie w stanie opisać wszystkie cechy wszystkich tłumaczonych języków, a nie tylko tłumaczyć z jednego języka na drugi.
Czasami używa się nawet dwóch interlingw. Tłumaczenie polega wtedy na dwustopniowej konwersji.
Język źródłowy -> Interlingwa 1 -> Interlingwa 2 -> Język docelowy
Google Translate używa języka angielskiego jako języka pośredniego dla niektórych par języków, takich jak chiński i japoński.
Wymagania metody IMT:
- Specyficzne dla dziedziny słowniki do analizy i generowania
- Leksykon pojęciowy danej dziedziny
- Zestaw reguł danej dziedziny i języka
- Gramatyki do analizy i generowania języków.
Zalety metody IMT:
- Metoda ta wymaga mniejszej liczby komponentów do powiązania każdego języka źródłowego z każdym językiem docelowym
- Potrzeba mniej komponentów do dodania nowego języka,
- Metoda obsługuje języki, które bardzo się od siebie różnią np. angielski i arabski.
Wady metody IMT:
- Definiowanie interlingwy jest trudne, a może nawet niemożliwe dla szerszej dziedziny.
- Idealnym kontekstem dla tej metody jest zatem wielojęzyczne tłumaczenie maszynowe w bardzo specyficznej dziedzinie.
NMT, czyli jak działa Google Tłumacz:
Google Tłumacz, tak jak większość nowoczesnych tłumaczy automatycznych działa na podstawie kilku metod.
W latach 2006-2016 Google Tłumacz wykorzystywał metodę statystyczną do tłumaczenia tekstów.
Od 2016 roku wykorzystuje NMT (Neural machine translation). Ta metoda oparta jest na sztucznej sieci neuronowej do przewidywania prawdopodobieństwa sekwencji słów, zwykle modelującej całe zdania w jednym zintegrowanym modelu.
Metoda NMT wykorzystuje mały procent zasobów, jakich wymaga metoda statystyczna.
NMT nie stanowi jednak drastycznego kroku naprzód w stosunku metody statystycznej. Główną różnicą jest struktura modeli. Jest ona prostsza niż modeli opartych na frazach. Systemy NMT wykorzystują deep learning i representation learning.
Dołącz do newslettera po więcej takich informacji
Już prawie...
Za chwilę otrzymasz e-mail z prośbą o potwierdzenie podanego adresu. Upewnij się, że wiadomość nie wylądowała w folderze spam!
Spis treści:
Słowem wstępu:
Tłumaczenie automatyczne/maszynowe to tłumaczenie tekstu bez ingerencji człowieka. Jedynie przez komputer.
Tłumaczenie automatyczne jest szybsze i mniej kosztowne, ale mniej dokładne. Nie jest uznawane do końca za wiarygodne źródło wiedzy. Mówi się, że jest w stanie oddać jedynie sens przetworzonego tekstu.
Tłumaczenia automatyczne wymagają wiedzy człowieka. Z tego powodu tłumaczenie automatyczne traktuje się jako wchodzące w obszar działania sztucznej inteligencji.
Historia tłumaczenia maszynowego miała i ma znaczny wpływ na to jak dzisiaj wygląda ta technologia. Zaczęło się od prostych reguł gramatycznych. Dzisiaj dysponujemy narzędziami tworzącymi w kilka sekund ogromne ilości danych, opartymi na sieciach neuronowych.
Poniższy tekst jest rozwinięciem tematu opisanego w 13 mailu Akademii Tłumacza. Jeśli chcesz wiedzieć więcej o niezależnym tłumaczeniu, technologi i karierze tłumacza, zapisz się poniżej.
POCZĄTKI 📃
Kod enigmy złamali po raz pierwszy polscy kryptolodzy w 1932 roku.
Za początek tłumaczenia automatycznego uznaje się memorandum matematyka Warrena Weavera. W 1949 w publikacji pt. Translation opisał teoretyczną możliwość tłumaczenia tekstów przez komputer.
Uznaje się dlatego, że trudno ustalić dokładną datę pierwszych pomysłów. Najwcześniejsze znane mi naukowe źródło podaje lata 1930 i 1940. Wtedy powstały prace Petra Petrovicha Troyanskii’ego.
Weaver jako pierwszy wpadł na pomysł metody statystycznej tłumaczenia (więcej o metodach tłumaczenia w TYM poście). Wykorzystał do tego teorię informacji Claude’a Shannona.
Teoria informacji zajmuje się problematyką przetwarzania informacji, m.in. w celu jej kompresji czy przesłania. Jej twórca Claude Shannon już w latach młodości twierdził, że za pomocą kodu binarnego, ciągu jedynek i zer można opisać, tekst, dźwięk, a nawet obraz.
Wracając do memorandum, Warren Weaver miał oczywiście rację, co potwierdzili naukowcy z uniwersytetu w Georgetown i firmy IBM w 1953 roku. Jednak eksperyment potwierdził jego tezy w dość ograniczony sposób.
Podający komendy po rosyjsku, nie znając języka rosyjskiego, otrzymał tłumaczenia w języku angielskim. Jednak zakres słownictwa był niewielki – 250 wyrazów, liczba zdań wynosiła tylko 60. Same zdania zostały specjalnie wybrane i zweryfikowane.
To był eksperyment z pogranicza sztucznej inteligencji i kryptografii. Pokazał, że idea stojąca za tłumaczeniem maszynowym jest możliwa do zastosowania.
Sam eksperyment nie był źle zaplanowany. Ówczesne maszyny, oparte na prostych regułach miały wielkość sporego samochodu. Daleko im było do urządzeń, z których korzystamy dzisiaj. Do tych urządzeń trzeba było wprowadzić słownictwo i gramatykę, żeby uzyskać efekty. Dość „kanciaste” efekty, pozbawione dobrej składni czy poprawności gramatycznej.
Następne lata przyniosły rozwój następnych projektów:
1955 – A. D. Booth
Program do tworzenia słownika tłumaczeniowego na elektronicznej maszynie obliczeniowej. Oparty na rozbudowanym leksykonie dwujęzycznym

1960 – G. W. King (1960)
Teoretycznie wykazno wtedy statystyczną metodę tłumaczenia. Stworzoną 30 lat później
Zdecydowanie był to postęp. Jednak postęp daleki od rozbudzonych nadziei na uniwersytecie IBM w Georgetown.
ALPAC
Zostając dalej w USA, w 1964 roku powstał komitet ALPAC (Automatic Language Processing Advisory Commitee). Powstał w celu zweryfikowania czy tłumaczenie automatyczne ma sens.
Po dwóch latach, z jego raportu wynika, że kompletnie nie ma. Raport mówił, że jakość takiego tłumaczenia jest niska, koszt za wysoki, terminy realizacji zbyt długie. Raport spowodował wstrzymanie rządowego finansowania w tę technologię.
SYSTRAN I METEOR 🌠
Wstrzymanie finansowanie spowodowało powstanie podmiotów prywatnych, które zajęły się tematem. W 1968 powstała firma Systran (istniejąca do dzisiaj).
Najpierw świadczyła ona usługi tłumaczenia na potrzeby Ministerstwa Obrony USA, a potem Komisji Europejskiej. Rozwiązania firmy Systran stanowiły podwaliny dzisiejszego Google Translate. Tłumaczenia oparte na regułach zaczęły przechodzić do świata cywilnego
Lata 90 🎵
Drugim godnym uwagi jest tłumacz automatyczny Meteor. Opracowano go w 1975 roku i używano aż do 2001 roku. Stworzono go w celu tłumaczenia komunikatów prognoz pogody w Kanadzie, angielski/francuski.
Był swoistego rodzaju cudem technologicznym, ponieważ ważył niecałe 1,5 mgb i mieścił się na jednej dyskietce Tłumaczył 30 milionów wyrazów rocznie, 20 stron na sekundę. Jego jakość szacowano na 97%, co nawet dzisiaj jest nieosiągalne.
Jednak było to możliwe dzięki powtarzalności, ograniczeniu składni i słownictwa komunikatów pogodowych.
W latach 90. XX wieku nastąpił przełom technologiczny. Udoskonalono tłumaczenia maszynowe oparte na statystyce. Wzrosła potrzeba komunikacji międzynarodowej, szczególnie handlowej, a osoby prywatne zaczęły używać sieci Internet.
Firmy stojące za tłumaczeniami automatycznymi zaczęły odchodzić od reguł gramatycznych i stosować podejście statystyczne. Dlatego tłumaczenie automatyczne tego samego tekstu, w różnych odstępach czasu da różne efekty.
W 1992 roku pojawił się pierwszy program do przekładu forum internetowego, z angielskiego na niemiecki. Niedługo później stworzono BabelFish Altavista. Darmowy program, który dotarł do masowego odbiorcy. Niestety przełożone zdania były pozbawione logiki i zawodne.
Odpowiedzią na to stała się technologia machine learning – uczenie maszynowe. Już w 1949 r. Alan Turing, brytyjski informatyk słusznie stwierdził, że komputer nie może myśleć jak maszyna. Jego tok myślenia musi naśladować człowieka i pracować na podstawie prób i błędów (stąd uczenie się). Turing brał również udział w łamaniu szyfrów Enigmy.
TŁUMACZENIA AUTOMATYCZNE W POLSCE
Pierwszy produkt komercyjny w parze językowej polski – angielski. Oparto go na dwujęzycznym leksykonie i tylko kilku regułach gramatycznych. Jak można się domyślić, nie był dużym sukcesem.
Dużo bardziej rozbudowany, na bazie ogromnych słowników (kilka milionów haseł każdy). Dzięki niemu można było uzyskać przekład z polskiego na niemiecki, włoski, hiszpański, francuski, angielski i rosyjski.
Stworzony przez informatyków z Uniwersytetu im. Adama Mickiewicza w Poznaniu. Prace rozpoczęły się już w 1996 roku. Powstał dzięki chęci dostosowania systemu komunikacji banku AIB (Allied Irish Bank) – kiedyś udziałowca WBK. Bank AIB dołączył do projektu w 2001 roku.
System Translatica tworzy drzewo składniowe języka wyjściowego, przekształca na drzewo języka docelowego 🌳. Z tego powstaje dopiero przetłumaczone zdanie.
Wartym uwagi jest jeszcze projekt dwóch badaczy z UAM. Stworzyli oni projekt open-source, pozwalający na tworzenie neuronowego systemu tłumaczenia automatycznego. Co ważne oparty jest on o prywatne zasoby językowe. Projekt nazywa się Marian-NMT i jest dostępny TUTAJ
Obecnie projektem zajmuje się Microsoft. System jest silnikiem kolejnego rozwiązania tłumaczenia maszynowego – Microsoft Translator Neural Machine Translator. Dodatkowo silnik został napisany tylko w C++
Sam Microsoft Translator zapewnia średnią jakość tłumaczeń. Wartym uwagi jest jego funkcja rozmów wielojęzykowych. Osoba pisze na czacie w jednym języku, a jego rozmówcy widzą wiadomość w swoim ojczystym języku.
GOOGLE TRANSLATE – GT
W 2006 r. dwa lata po powstaniu Translatica powstał Google Translate (GT). Rok później oferujący już język polski. Oczywiście jakość tego tłumaczenia była niska. Jednak cały system dostępny był za darmo, co stopniowo wypierało komercyjne rozwiązania
Dodatkowym czynnikiem jego popularyzacji był dostęp do ogromnych i wciąż rosnących zasobów tekstowych. Wynika to z firmy stojącej za GT. Z drugiej strony, mało która firma mogła wtedy pozwolić sobie na stworzenie takiego produktu. Do dzisiaj baza danych GT to największy zasób tekstowy na świecie 📚
HISTORIA NAJNOWSZA
W 2014 roku firma Google i niezależnie od niej Uniwersytet w Montrealu opracowały podstawy i zaproponowały tłumaczenia automatyczne oparte na sieciach neuronowych 🧠
Sieci neuronowe to systemy przetwarzania informacji oparte, na działaniu biologicznego systemu nerwowego. Ich struktura, oraz schematy sztucznych neuronów są oparte na naszym układzie nerwowym. Wykazują one zdolność uczenia się na podstawie przykładów i generalizacji (uogólniania) zdobytej wiedzy. Dobrym przykładem zastosowania sieci neuronowych są programy OCR – optyczne rozpoznawanie pisma. Nie osiągnęły one jeszcze pułapu swoich możliwości i w najbliższych latach możemy spodziewać się dużego postępu w tej dziedzinie.
Wartym uwagi tłumaczem automatycznym jest DeepL. Obecnie jeden z najlepszych tłumaczy. Wspierany sztuczną inteligencją. Oczywiście nadal nieidealny.
Na naszych oczach dzieje się rewolucja. Dzięki algorytmom i sieciom neuronowym. Nie dość, że te systemy różnią się od swoich poprzedników z poprzedniego wieku, ale także codziennie się uczą. Systemy tłumaczeń maszynowych pracują już podobnie do ludzkiego mózgu. Trudno więc przewidzieć kierunek, w jakim się rozwiną.
Pamiętaj, przyszłość zaczyna się dziś
Dołącz do newslettera po więcej takich informacji
Już prawie...
Za chwilę otrzymasz e-mail z prośbą o potwierdzenie podanego adresu. Upewnij się, że wiadomość nie wylądowała w folderze spam!
Źródła:
- Claude E. Shannon. Pobrane z: https://pl.wikipedia.org/wiki/Claude_E._Shannon
- Hutchins, J., & Lovtskii, E. (2000). Petr Petrovich Troyanskii (1894-1950): A Forgotten Pioneer of Mechanical Translation. Machine Translation, 15(3), 187–221. http://www.jstor.org/stable/40009018
- Jaseem, K. (2020) Historia tłumaczenia automatycznego w pigułce. Pobrane z: https://ai.pwn.pl/blog/historia-tlumaczenia-automatycznego-w-pigulce
- Krótka historia tłumaczenia maszynowego. Kiedy się zaczęła?. Pobrane z: https://summalinguae.com/pl/technologie-jezykowe/krotka-historia-tlumaczenia-maszynowego-kiedy-sie-zaczela/
- Krótka historia tłumaczenia maszynowego. Pobrane z: http://mlingua.pl/pol/czytelnia/technologie_tlumaczeniowe1,,krotka_historia_tlumaczenia_maszynowego_john_hutchins_tlum_agnieszka_slemp_,a,521,p,0.html
- Teoria Informacji. Pobrane z: https://pl.wikipedia.org/wiki/Teoria_informacji
- Tłumaczenie automatyczne.: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_automatyczne
- Tłumaczenie statystyczne. Pobrane z: https://pl.wikipedia.org/wiki/T%C5%82umaczenie_statystyczne
Spis treści
Czym są programy CAT?
Programy CAT (Computer Assisted Translation) nie mają tak naprawdę nic wspólnego z kotami, niestety 😔
Znane też jako computer-aided translation, są one koniecznymi narzędziami profesjonalnych tłumaczy i biur tłumaczeń, ponieważ poprawiają jakość, spójność terminologiczną i przyśpieszają projekty.
Narzędzia CAT pozwalają tłumaczom przyspieszyć proces przekształcania języka źródłowego w docelowy. Ten rodzaj technologii wspomagającej jest podobny do procesorów tekstu, takich jak Google Docs, które sugerują alternatywną pisownię lub sygnalizują błędy gramatyczne, lub do LinkedIn, automatycznie dodającego możliwe odpowiedzi do ekranu odpowiedzi.
Tłumacząc pliki HTML, strony internetowe czy interfejsy aplikacji, ale także, praktycznie każdy dłuższy tekst opłaca się używać programów CAT. Często są one mylone z MT (machine translation), czyli automatycznym komputerowym tłumaczeniem – Google Tłumacz, DeepL i inne. Nie jest to jednak to samo oprogramowanie.

Photo by Isabella and Zsa Fischer on Unsplash
Krótko mówiąc programy CAT to taki pamiętliwy Word na sterydach 💪, automatycznie sprawdzający poprawność tekstu. Dlatego, że działają one na podstawie schematu:
- Zbieranie danych z pliku wejściowego
- Dzielenie tekstu na segmenty (zdania, wiersze, komórki)
- Automatyczne tłumaczenie segmentów zawierających proste, replikowalne dane (liczby, znaki itp.)
- Automatyczne tłumaczenie segmentów zapisanych wcześniej w pamięci tłumaczeniowej (opcjonalna funkcja – powtórzenia)
- CAT może przygotować komputerowe tłumaczenie, które wymaga później akceptacji tłumacza

Przykład segmentacji i propozycji tłumaczenia maszynowego w programie Smartcat
Schemat ten otwiera szerokie pole do usprawnienia i przyśpieszenia procesu tłumaczeniowego, szczególnie przy plikach z dziedziny, w której się specjalizujemy, lub plików z dużą ilością powtarzającego się tekstu 😎
Na przykład polityki prywatności, regulaminy, ustawy, tłumaczenia medyczne, prawnicze – często zawierają te same formuły i frazy. Powtarzają się też one wielokrotnie.
Dzięki programom CAT wystarczy przetłumaczyć je tylko raz. Jeśli mamy je już zapisane w pamięci tłumaczeniowej, może się okazać, że połowa naszego tekstu zostanie wstępnie przetłumaczona, na podstawie wcześniejszych tłumaczeń, a nam zostanie sama weryfikacja i ew. korekta.
Najważniejsze funkcje programów CAT
Pamięć tłumaczeniowa
Inaczej TM – translation memory. TM zapisuje i przechowuje wcześniej wygenerowane tłumaczenia w bazie danych i przywołuje je w momencie tłumaczenia pasującego segmentu. Jest to w zasadzie baza danych, Twoja lub również innych tłumaczy, z którymi współpracujesz. Na przykład biura tłumaczeń dysponują wielkimi bazami danych dotyczącymi tekstów prawniczych czy medycznych. Pozwala to tłumaczom w łatwy sposób wybierać frazy, które zostały już przetłumaczone, w ramach różnych projektów.
Tłumacz musi ocenić, czy przywołane zdania z pamięci tłumaczeniowej pasują do kontekstu nowego tłumaczenia Co ważne, pamięć tłumaczeniowa działa również cross-file, czyli tłumaczenie danego segmentu, pojawi się we wszystkich plikach, w danym projekcie.
Powtórzenia i fuzzy matches
Takie same segmenty jak ten, który pojawił się wcześniej w tekście, to powtórzenia. Segmenty w dużym stopniu do niego podobne to fuzzy matches.
Programy CAT posiadają opcję automatycznego wypełniania danego segmentu. Właśnie wtedy gdy trafią, na powtórzenia.
Przykład:
Tłumaczymy katalog, gdzie nazwy produktów nie różnią się za wiele. Numer i jakieś oznaczenia. W przypadku gdy mamy ich kilkadziesiąt lub kilkaset, pisanie ich ręcznie może przyprawić o ból głowy. Dzięki programom CAT ograniczymy się do pierwszego wystąpienia danej frazy. Wszystkie kolejne zostaną w okamgnieniu dopasowane do tego co wprowadziliśmy. Dzięki innym funkcjom możemy być pewni, że tłumaczenie będzie spójne i zachowamy oryginalny wygląd nazw produktów.

Glosariusz/baza terminologiczna
To lista terminologii branżowej i/lub specyficznej dla danej firmy. Odnosi się do listy terminów i definicji w konkretnym projekcie, którą można wyodrębnić z tekstu głównego. Wyjaśnia ona, co oznaczają dane terminy, jak je tłumaczyć i czy w ogóle je tłumaczyć, np. nazwy marek, produktów, skróty i terminologia branżowa.
Jeśli dysponujemy już taką listą, składającą się z terminów i ich tłumaczenia, wystarczy wgrać ją do programu. Przy następnym wystąpieniu danego terminu, wyświetli nam się przypomnienie, że dany termin należy tłumaczyć w zapisany wcześniej sposób.
Bazy terminologiczne zapewniają, że nawet jeśli te tłumaczenia są wykonywane przez różne osoby, otrzymamy spójne tłumaczenie. Co ciekawe, różne pamięci tłumaczeniowe i glosariusze można zakupić i to za niemałe pieniądze
Całe pamięci tłumaczeniowe i glosariusze, możemy zapisać sobie w prywatnej bazie danych i z biegiem czasu naprawdę ułatwimy sobie tłumaczenia.
Sprawdzanie jakości
Błędy zdarzają się najlepszym z nas. Narzędzia kontroli jakości (QA) automatycznie sprawdzają, czy w tekście nie ma powtórzeń, dodatkowych spacji między słowami lub innych literówek, które mogą pojawić się w trakcie procesu tłumaczenia.
Moduły QA wykrywają:
- niespójności,
- zmianę liczby lub treści adresów e-mail, lub adresów URL,
- różne nawiasy lub liczby,
- niespójny HTML
- identyczny tekst
- różne tłumaczenia dla podobnych segmentów
- kropki, wykrzykniki itd.
Do tego warto dodać sobie wtyczki sprawdzające pisownie jak Language Tool czy Grammarly i nic już nam nie umknie.
🏆 Korzyści z zastosowania narzędzi CAT
Spójność:
Jeśli tłumaczymy, kilkanaście plików w jednym projekcie, musimy się upewnić, że terminy będą tak samo przetłumaczone. Tutaj załatwiamy wszystkie za jednym razem, jeśli segmenty są w 100% takie same. Mamy również podpowiedzi, gdy korzystamy z funckcji zarządzania terminologią.
Szybkość:
Jesteśmy w stanie dużo szybciej przetłumaczyć dany plik, co przekłada się na wyższe zarobki i więcej czasu wolnego. win-win 🌴
Jakość:
Im więcej kontekstu mamy, tym wyższej jakości tłumaczenia możemy dostarczyć. Pamięć tłumaczeniowa, glosariusz dostarczają kontekstu opisowego. Czasami można jeszcze spotkać się ze zrzutami ekranu jako kontekst wizualny, w przypadku gdy klient zleca nam pracę w jego narzędziu/portalu CAT.
Zachowanie formatowania pliku wejściowego
Można sobie wyobrazić tłumaczenie pliku w Wordzie, nie daj boże skonwertowanego z PDF, gdzie jedno przesunięcie pliku, psuje nam cały układ.

Redditor: Breaking UE Laws on Reddit
Dzięki programom CAT zachowujemy oryginalny wygląd i formatowanie pliku, wliczając w to pogrubienia, kursywy, hiperłącza, tytułu i podtytuły.
Po przygotowanym tłumaczeniu następuje eksport tłumaczenia. Program CAT podmienia tekst źródłowy na tekst docelowy, zachowując formatowanie.
Programy CAT w skrócie
- krótszy czas przygotowania tłumaczenia
- niższa cena tłumaczenia
- spójność
- dokładność tłumaczenia
- podpowiedzi, odnośnie kolejnych fragmentów tekstu
- jednolita terminologia
- zachowanie formatowania pliku wejściowego
Najpopularniejsze Caty
Najpopularniejszy, najdroższy i trudny w nauce. Plusem jest zapisywanie wszystkiego na naszym komputerze, dobre dla tłumaczy przysięgłych. Minusem koszt i wymagany czas na naukę (nie obejdzie się tutaj bez filmów na YT czy kursów). Na rynku od 25 lat. Ma swoje formaty plików.
Plusy | Minusy |
Najbardziej popularny – ułatwiona wymiana informacji | Wysoka cena |
Stosowane przez biura tłumaczeń | Stroma krzywa uczenia się z powodu skomplikowanego interfejsu |

Jeden z najbardziej znanych programów, oferuje podobne funkcje co SDL, średnio lubiany wśród tłumaczy, bardzo lubiany wśród zagranicznych biur tłumaczy.
Plusy | Minusy |
Możliwość podejrzenia tłumaczeń na żywo, w dokumencie | Działa tylko na Windows |
Wzory tłumaczeń dokumentów | Wymaga podłączenia do serwisu MemoQ |
Wysoka cena w stosunku do jakości |

Plusy | Minusy |
Praktycznie zerowa wiedz potrzebna do obsługi programu | Stary wygląd |
Organizacja plików jak na dysku Google | Wyświetlanie segmentów na kilku różnych stronach, przez co często trzeba wracać do poprzednich |
Opcja wstępnego tłumaczenia plików na podstawie różnych baz danych | |
Możliwość wgrania obrazów jako |

Plusy | Minusy |
prosty interfejs i można się go nauczyć w 10 minut | Nie wszystkie opcje są dostępne |
zintegrowana platforma do znajdowania klientów, płatności itd. (mały digital marketplace) | Przy większej ilości plików trudne zarządzanie TM |
darmowy (rozpoznawanie tekstu ze zdjęć i lepsze tłumaczenia maszynowe płatne) |

Transifex
Plusy | Minusy |
Stworzony z myślą o tłumaczeniu aplikacji. Super zintegrowany z GitHub | Mniejsze zastosowanie przy innych rodzajach pliku niż software |
Niska cena | Nie wszystkie opcje są dostęne |
Możliwość urządzenia głosowania – gdzie tłumacze decydują wspólnie nad poprawnym tłumaczeniem | Na początku stworzony tylko w celach lokalizacji oprogramowania |

Plusy | Minusy |
Darmowy, ale Twoje tłumaczenia są przekazywane do bazy danych pamięci tłumaczeń Crowdin | Stworzony głównie do lokalizacji oprogramowania |
Oparty o przechowywanie plików w chmurze | Darmowy, ale Twoje tłumaczenia są przekazywane do bazy danych pamięci tłumaczeń Crowdin |
Integracja z GitHub, Play Store, Azure itp. |

Plusy | Minusy |
Darmowy | Archaiczny wygląd |
Obsługuje ponad 30 formatów plików | Brakuje dużej ilości funkcji |
Program open-source | |
Możliwość modyfikacji narzędzia, na podstawie potrzeb tłumacza |

Plusy | Minusy |
Nakładka do Worda | Archaiczny wygląd |
Niska cena, opcja darmowego oprogramowania Wordfast Free | Skomplikowana instalacja |
Nieograniczona liczba pamięci tłumaczeniowych i glosariuszy | Producent twierdzi, że jest kompatybilny z formatami SDL Trados – tłumaczom zdarzają się z tym często problemy |

Plusy | Minusy |
Bardzo łatwa obsługa, nie wymaga długiego szkolenia | Archaiczny wygląd |
Aplikacja mobilna | Częste problemy z QA |
Niska cena |

Obojętnie, który program CAT wybierzesz, musisz wiedzieć, że nie jesteś skazany na jedno narzędzie. Możesz korzystać z wielu. Dzięki takim programom zapewniamy pliki o stałej, wysokiej jakości.
Wcześniej niemożliwe funkcje, dokładność i zapewnianie zgodności z wytycznymi klienta zapewniają programom CAT stałą pozycję w arsenale narzędzi tłumacza.