페이지상단으로이동

[특별 기획] AI, 저널리즘을 부탁해! ⑤-1 : ‘기계 번역’ 평가 점수 BLEU 스코어란

승인 2021.06.25 12:44
2021 인터넷신문 언론대상 공모작

[보도일 2020.11.26 10:22]
[AI탸임스=윤영주 기자]

BLEU Score(Bilingual Evaluation Understudy Score)

‘기계 번역’을 평가하는 방법 가운데 하나다. 기계 번역은 컴퓨터를 통해 하나의 언어로 된 텍스트를 다른 언어로 자동 변환하는 기술을 말한다. 번역 품질 평가는 기계가 하는 ‘자동 평가’와 사람이 하는 ‘사람 평가’가 있다. 여러 가지 자동 평가 방법 가운데 보편적으로 사용되는 'BLEU'에 대해 알아보자.

BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교해, 기계가 번역한 문장과 정답 문장 간의 정확도를 측정하는 방법이다. 언어에 구애받지 않고 사용할 수 있으며 계산 속도가 빠르다는 장점이 있다. 번역된 문장이 정답 문장과 유사할수록 높은 점수를 얻으며 원어민에 가까운 해석으로 평가된다.

가령 번역기를 이용해 번역할 경우 어떤 방식으로 평가가 이뤄질까? 우선 사람이 영작한 번역 문장 가운데 등장한 단어를 번역기로 번역된 문장에서 센다. 이후 공통적으로 등장한 모든 단어 개수를 번역기 문장의 총 단어 수로 나눈다. 이 같은 측정 방법을 '유니그램 정밀도(Unigram Precision)'라 한다.

[(사진=지콘스튜디오)]

번역기로 번역된 두 개의 문장을 비교할 때 사람이 영작한 문장들에서 등장한 단어가 많을수록 더 좋은 번역 문장이 되는 것이다. 하지만 이 같은 방식으로 번역 성능을 측정할 시 허점이 생긴다.

위 계산법으로만 보면 ‘the the the the the the the’라는 한영 번역이 7/7=1로 최고점을 받게 되는 어이없는 상황이 벌어지기 때문이다. 즉 상기 공식에서 분자의 단어 수 계산법을 새롭게 정립할 필요가 있다. 즉 번역기 문장 단어가 각각의 평가 기준이 되는 문장에서 최대 몇 번 등장했는지 세어 기존의 단순 계산한 값보다 작은 경우 최종 값으로 대체한다. 즉 평가 기준 문장들과 비교해 세는 과정에서 중복을 제거해 보정한다는 이야기다.

유니그램의 정밀도 보정을 통해 근본적 문제는 해결됐다. 하지만 여전히 문제는 있다. 유니그램은 각 단어의 빈도수로 접근하는 방법이기 때문에 단어의 순서는 전혀 고려되지 않는다. 이제 카운트 단위를 바이그램(Bigram), 트라이그램(Trigram) 등 n-그램으로 확장해 단어의 순서까지 고려하는 작업이 남았다. 결국 BLEU는 보정된 정밀도를 모두 조합해 사용한 식인 셈이다.

저작권자(c) AI타임스, 무단 전재 및 재배포 금지
댓글 [ 0 ]
댓글 서비스는 로그인 이후 사용가능합니다.
댓글등록
취소
  • 최신순
협회소식 더보기
  • 회원사 현황
    한국인터넷신문협회는 뉴미디어
    시대를 선도하는 다양한 인터넷
    신문사들로 구성원을 형성하여
    소통과 협력을 이룹니다.
    자세히 보기
  • 입회 안내
    회원사 신규 가입 신청에 대한
    이사회 심의는 매 분기별로
    열립니다.
    자세히 보기