BLEU skóre kalkulačka
Vypočíta BLEU skóre (Bilingual Evaluation Understudy) porovnaním strojového prekladu s referenčným textom a poskytne objektívny ukazovateľ kvality prekladu.
Čo je BLEU skóre?
BLEU (Bilingual Evaluation Understudy) je jedna z najznámejších metrík na hodnotenie strojového prekladu.
Hodnotí podobnosť medzi strojovo preloženým textom (candidate/hypotéza) a jedným alebo viacerými referenčnými prekladmi (reference/referenčný text).
Výsledok je číslo od 0 do 1 (alebo v percentách od 0 do 100 %), kde vyššia hodnota znamená väčšiu podobnosť.
Ako vypočítať BLEU skóre?
Zadáme:
- referenčný text (reference),
- hypotézu (strojový preklad),
- klikneme na tlačidlo „Vypočítať“,
- kalkulačka zobrazí BLEU skóre na základe porovnania n-gramov (slovných úsekov).
Chcete porovnať texty pomocou vektorov a získať mieru podobnosti nezávisle od presného poradia slov? Vyskúšajte kalkulačku kosínovej podobnosti.
Algoritmus BLEU skóre
- unigramová presnosť (p1): počíta len jednotlivé slová (1-gramy), nie slovné spojenia či dlhšie n-gramy,
- brevity penalty (tzn. penalizácia za krátkosť) (skratka BP): penalizuje príliš krátke preklady oproti referenčnému textu,
- zjednodušený vzorec: BLEU = p1 × BP
Tento prístup je vhodný z pohľadu:
- rýchlosti: výpočet je okamžitý, bez zbytočnej zložitosti,
- praktickosti: dáva rozumné výsledky pre väčšinu prípadov,
- jednoduchosti: ľahko pochopiteľný algoritmus, vhodný aj pre začiatočníkov,
- konzistentnosti: presné výsledky pre testované prípady.
Príklad výpočtu
Máme:
- referenčný text (candidate): mačka sedí na rohožke
- hypotéza: mačka je na rohožke
Riešenie:
- 1-gram precision (p1): 3 zhody zo 4 slov = 75 %,
- brevity penatly (BP): 1.0 (rovnaká dĺžka textu).
Dosadíme do vzorca:
BLEU = 0,75 * 1 = 0,75
Výsledok: BLEU = 0,750000 (75%)
Poznámka: Štandardný BLEU používa n-gramy 1-4 s geometrickým priemerom, čo môže dať iné výsledky (napr. 50% pre vyššie uvedený príklad). Naša kalkulačka je optimalizovaná pre praktické použitie s rýchlym a rozumným výpočtom.
Učebné a testovacie využitie
- kalkulačka je ideálna pre učebné účely – študenti alebo začiatočníci môžu rýchlo overiť kvalitu prekladu a pochopiť, ako BLEU skóre funguje,
- vhodná je aj pre rýchle testovanie strojových prekladov – môžeme porovnať rôzne hypotézy a okamžite vidieť rozdiely v presnosti prekladu,
- umožňuje praktické experimentovanie s krátkymi vetami a jednoduchými textami, čo pomáha lepšie pochopiť mechanizmus unigramov a brevity penalty,
- hoci nejde o plnohodnotný nástroj pre profesionálne NLP projekty, je skvelá na vzdelávanie, testovanie algoritmov a demonštráciu BLEU skóre v praxi.
Najčastejšie kladené otázky (FAQ)
Štandardný BLEU používa 1-4 gramov a geometrický priemer, často s rôznymi váhami. Naša kalkulačka používa len unigramy a brevity penalty, aby bol výpočet rýchly, praktický a ľahko pochopiteľný. Pri zložitejších textoch alebo profesionálnych NLP projektoch sa odporúča štandardný BLEU, naša verzia je optimalizovaná pre testy a vzdelávanie.
75 % znamená, že 3 zo 4 slov v hypotéze sa zhodujú s referenciou. Vyššie skóre znamená väčšiu podobnosť.
Naša kalkulačka je zjednodušená, vhodná na rýchle testy a vzdelávanie. Pre komplexné NLP projekty sa odporúča štandardný BLEU s n-gramami 1-4 a geometrickým priemerom.
Áno. Viacero referencií zvyšuje šancu zhody slov a zvyčajne vedie k vyššiemu BLEU skóre. Naša kalkulačka zatiaľ podporuje jednu referenciu, ale princíp platí aj pre viac referencií.
To znamená, že porovnávame iba jednotlivé slová (1-gramy) medzi referenciou a hypotézou, a ignorujeme slovné spojenia alebo poradie slov. Výsledok je teda ľahko pochopiteľný, ale môže mierne nadhodnotiť alebo podhodnotiť kvalitu prekladu pri zložitých vetách.
Brevity penalty sa uplatní, ak je strojový preklad kratší než referenčný text. Kratší preklad má väčšiu šancu zhody so slovami referencie, a preto sa skóre upraví dole, aby sa penalizovala stručnosť.
Aj keď sú slová zhodné, ak sú použité menej časté alebo v inom poradí a kalkulačka používa unigramy s brevity penalty, skóre môže byť nižšie, najmä pri kratších alebo extrémne dlhých textoch.
Pri veľmi krátkych vetách môže byť skóre nestabilné. Jeden rozdiel v slove môže znížiť p1 výrazne. Pre krátke texty je teda dobré brať výsledok ako orientačný, nie absolútny.
Áno, ale pri jazykoch s odlišným slovosledom (napr. japončina vs. slovenčina) bude zjednodušený BLEU s unigramami mierne nadhodnocovať kvalitu, pretože poradie slov sa nezohľadňuje.
Áno. Napríklad kosínová podobnosť kalkulačka, ktorá porovnáva text ako vektory.
Zdroje:
- Two minutes NLP — Learn the BLEU metric by examples: https://medium.com/nlplanet/two-minutes-nlp-learn-the-bleu-metric-by-examples-df015ca73a86
- BLEU: https://en.wikipedia.org/wiki/BLEU