BLEU
BLEU (Bilingual Evaluation Understudy) – algorytm do ewaluacji jakości tłumaczenia automatycznego z jednego języka naturalnego na inny. Jakość jest rozumiana jako korelacja między danymi wyjściowymi a tekstem ludzkim: „im bliższe tłumaczenie automatyczne jest profesjonalnemu tłumaczeniu ludzkiemu, tym jest lepsze”[1]. BLEU był jedną z pierwszych metryk, która uzyskała wysoką korelację z ludzkim osądem jakości[1][2]. Pozostaje także najbardziej popularną z metod.
Punkty liczone są dla pojedynczych przetłumaczonych segmentów – zwykle zdań – przez porównanie ich ze zbiorem tłumaczeń referencyjnych dobrej jakości. Punkty te są następnie uśredniane w obrębie całego korpusu, aby oszacować całkowitą jakość tłumaczenia. Pod uwagę nie są brane zrozumiałość oraz poprawność gramatyczna.
BLEU jest zaprojektowany, aby przybliżać ludzką ocenę na poziomie dużych korpusów i nie sprawdza się do oceny pojedynczych zdań.
Algorytm
[edytuj | edytuj kod]BLEU używa zmodyfikowanej wersji precyzji do porównania tłumaczenia kandydującego względem kilku tłumaczeń referencyjnych. Metryka modyfikuje pojedynczą precyzję, gdyż ustalono, że tłumaczenie automatyczne generuje więcej słów niż jest w tłumaczeniu referencyjnym. Jest to zilustrowane w poniższym przykładzie (Papineni et al. (2002)):
Kandydat | the | the | the | the | the | the | the |
Referencja 1 | the | cat | is | on | the | mat | |
Referencja 2 | there | is | a | cat | on | the | mat |
W tym przykładzie, kandydujący tekst posiada następujący unigram precyzji:
gdzie jest liczbą słów tekstu znalezionych w referencji, a liczbą słów w referencji.
Wszystkie spośród siedmiu słów tłumaczenia kandydującego pojawiają się w tłumaczeniach referencyjnych. Przedstawia to problem metryki: tłumaczenie kandydujące nie zachowuje żadnych treści z żadnego tłumaczenia referencyjnego. Modyfikacja, którą wprowadza BLEU jest prosta.
Dla każdego wyrazu w tłumaczeniu kandydującym, algorytm bierze maksymalną całkowitą liczbę wystąpień w tłumaczeniach referencyjnych. W powyższym przykładzie, wyraz „the” pojawia się dwa razy w referencji 1 i raz w referencji 2. W tym wypadku największą wartością jest dwa i jest ona uznawana za „maksymalną referencyjną liczbę”.
Dla każdego ze słów w tłumaczeniu kandydującym, liczba słów jest porównywana z maksymalną liczbą referencyjną i brana jest najniższa wartość. W tym przypadku liczba słów „the” w tłumaczeniu kandydującym wynosi siedem z maksymalną liczbą referencyjną dwa. Ta „zmodyfikowana liczba” jest następnie dzielona przez całkowitą liczbę słów w tekście kandydującym. W powyższym przykładzie, zmodyfikowane punkty unigramu precyzji wynoszą:
Powyższa metoda jest wykorzystywana do obliczania punktów dla każdego Wartość która ma „największą korelację z jednojęzycznym osądem ludzkim”[1] wynosi cztery. Unigram punktów odpowiada za adekwatność tłumaczenia (jak wiele informacji zostało zachowanych). Dłuższe punkty -gramów scores odpowiadają za płynność tłumaczenia albo do jakiego stopnia czyta się je jak „dobry język polski”.
Modyfikacja precyzji nie rozwiązuje problemu krótkich tłumaczeń, które mogą wyprodukować wysokie punkty mimo korzystania ze zmodyfikowanej precyzji. Przykład tłumaczenia kandydującego dla tych samych referencji:
- the cat.
W tym przykładzie zmodyfikowany unigram precyzji wynosi:
jako że wyrazy „the” i „cat” pojawiają się raz w tłumaczeniu kandydującym, a całkowita liczba słów wynosi dwa. Zmodyfikowany dwugram precyzji będzie wynosił jako że dwugram „the cat” występuje raz w tekście kandydującym. Zauważono, że aby uniknąć tego problemu precyzja zwykle idzie w parze z odwołaniami (ang. recall)[1], jako że unigram odwołań w tym przykładzie będzie wynosił lub Istnieje problem zawyżenia odwołań, jeśli tłumaczenie składa się ze wszystkich słów zawartych w tłumaczeniach referencyjnych[1].
W celu stworzenia punktu dla całego korpusu, łączone są zmodyfikowane punkty precyzji dla segmentów korzystające ze średniej geometrycznej pomnożonej przez karę zwięzłości (ang. brevity penalty) w celu uniknięcia sytuacji, kiedy krótkie teksty kandydującego otrzymują zbyt duży wynik. Niech będzie całkowitą długością korpusu referencyjnego, a całkowitą długością korpusu tłumaczenia. Jeśli stosuje się karę zwięzłości określoną następująco (W przypadku wielorakich zdań referencyjnych, to suma długości zdań, których długości są najbliższe do długości zdań kandydujących).
Wyniki
[edytuj | edytuj kod]BLEU często zostawał uznawany za korelujący dobrze z ludzkim osądem[1][2][3], i pozostaje punktem odniesienia dla ocen każdej nowej metody. Metoda ta jest jednak krytykowana. Wykazano, że mimo możliwości ewaluacji tłumaczeń każdego języka, BLEU w obecnej formie nie radzi sobie z językami, które nie posiadają granic słów[4].
Stwierdzono, że mimo znacznych zalet BLEU, nie ma gwarancji, że wzrost punktu BLEU jest wskaźnikiem polepszenia jakości tłumaczenia[5]. Niemniej jednak zostały podkreślone dwa przypadki, gdzie BLEU sobie poważnie nie poradził. Były to:
- ewaluacje NIST z 2005 roku[6] gdzie było testowanych kilka różnych systemów tłumaczeń automatycznych – odnotowano, że wyniki wygenerowane przez BLEU zawiodły w porównaniu z oceną ludzką. Systemy, które zostały najlepiej ocenione przez ludzi były na szóstym miejscu według BLEU.
- analiza silnika SYSTRAN przeciw dwóm silnikom korzystającym ze statystycznego tłumaczenia automatycznego[5]. – wynik BLEU dla SYSTRANu był znacząco gorszy niż wynik przyznany przez ludzi. Wywnioskowano, że BLEU powinien być wykorzystywany w celu porównania dwóch podobnych systemów.
Zobacz też
[edytuj | edytuj kod]Przypisy
[edytuj | edytuj kod]Bibliografia
[edytuj | edytuj kod]- Papineni K., Roukos S., Ward T., Zhu W.J. (2002). „BLEU: a method for automatic evaluation of machine translation” in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics s. 311–318.
- Callison-Burch C., Osborne M., Koehn P. (2006) „Re-evaluating the Role of BLEU in Machine Translation Research” in 11th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2006 s. 249–256.
- Doddington G. (2002) „Automatic evaluation of machine translation quality using n-gram cooccurrence statistics” in Proceedings of the Human Language Technology Conference (HLT), San Diego, CA s. 128–132.
- Coughlin D. (2003) „Correlating Automated and Human Assessments of Machine Translation Quality” in MT Summit IX, New Orleans, USA s. 23–27.
- Denoual E., Lepage Y. (2005) „BLEU in characters: towards automatic MT evaluation in languages without word delimiters” in Companion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processing s. 81–86.
- Lee A., Przybocki M. (2005) NIST 2005 machine translation evaluation official results.
- Lin C., Och F. (2004) „Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics” in Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics.