TO THE QUESTION ABOUT THE MAIN CRITERIA FOR EVALUATING MACHINE TRANSLATION
DOI:
https://doi.org/10.24919/2522-4565.2023.57.8Keywords:
machine translation, neural translation systems, normative criteria, translation evaluation methods, translation evaluation metricsAbstract
Assessing the quality of machine translation is a complex task that requires attention to detail and a comprehensive approach. The use of different evaluation metrics and their combination allows you to get a more accurate and objective view of the quality of automatic translation. A practical approach to quality assessment helps to improve results and provide users with the best possible experience. This article examines the aspect of normativity of the criteria used in evaluating translations produced by machine translation systems (MT). The problem raised in the article is an important stage in the systematisation of approaches to evaluating MT, on the one hand, by a human in the context of the methods and criteria used by him/her, and on the other hand, by an automated system and its metrics. The article emphasises the need to distinguish between the criteria for evaluating machine translation by an automated system and traditional human translation. Particular attention is paid to the study of translation evaluation methods, such as the method of reverse translation, the method of evaluating the quality of translation by determining the degree of receptivity for the consumer, etc. It is emphasised that the requirements for assessing the quality of traditional translation and translation performed by MT systems are not identical in terms of norms. The article contains a study of automatic evaluation metrics. The author emphasises the need to choose the appropriate metric for this purpose, or to combine elements of several metrics, since each of them has both advantages and disadvantages, and the choice of the right metric can significantly affect the evaluation results. For example, the BLEU metric may be useful for general evaluation of translation accuracy, but it does not take into account word order and context, which can lead to miscalculations in determining the quality of a translation. METEOR, on the other hand, takes word order into account, but may be less sensitive to certain types of errors. TER allows you to determine the number of errors in the translated text and determine its quality, but is less sensitive in terms of overall translation accuracy, as is WER, which helps determine the accuracy of automatic translation and the number of errors in it, but does not take into account word order or certain types of errors; and CER helps assess translation accuracy only at the level of individual characters.
References
Бірюков А. Розробка методів оцінки якості машинного перекладу на основі результатів досліджень з оцінки якості перекладу традиційного. Культура народів Причорномор’я. 2004. № 55. Т. 1. С. 100–105. URL : http://dspace.nbuv.gov.ua/handle/123456789/35771 (дата звернення: 12.03.2024).
Гапоненко Л. П. Переклад і нормативні аспекти перекладу. Філологічні студії. Науковий вісник Криворізького державного педагогічного університету. 2015. Вип. 13. С. 51–56.
Іваницька Н. Б. Якість перекладу як перекладознавча категорія. Соціально-політичні, економічні та гуманітарні виміри європейської інтеграції України : збірник наукових праць VI Міжнародної науково-практичної конференції. Вінниця : Видавничо-редакційний відділ ВТЕІ КНТЕУ, 2018. Ч. 2. С. 422–428.
Козоріз О. Автоматизація оцінки якості перекладу текстів паралельних корпусів. Актуальнi питання гуманiтарних наук. 2021. Вип. 43. Т. 2. С. 94–103. DOI : https://doi.org/10.24919/2308-4863/43-2-15.
Ольховська Н. С. Специфіки тексту та стратегії перекладу. Часово-просторова і вікова специфіка німецькомовного тексту : збірник матеріалів Всеукраїнської науково-практичної Інтернет-конференції. Мелітополь : Видавництво Мелітопольського державного педагогічного університету ім. Богдана Хмельницького, 2017. URL : https://nimfilmdpu.mozello.com/vseukranska-nternetkonferencja/perekladoznavstvo/params/post/1338438/ (дата звернення: 31.03.2024).
Стахмич Ю. С. Адекватність та еквівалентність перекладу в контексті комп’ютерної лінгвістики. Вісник Житомирського державного університету. 2012. Вип. 66. С. 235–238. URL : http://eprints.zu.edu.ua/9352/1/53nts.pdf (дата звернення: 31.03.2024).
Чернікова Л. Ф. Лінгвістична якість машинного перекладу. Філологічні науки. 2013. № 248. С. 165–168. URL : http://dspace.nbuv.gov.ua/bitstream/handle/123456789/91246/39-Chernikova.pdf?sequence=1 (дата звернення : 31.03.2024).
Han A. Li-Feng, Wong Derek F., Chao Lidia S. Machine Translation Evaluation : A Survey. 2016. URL : https://www.researchgate.net/profile/Lifeng-Han-3/publication/303280649_Machine_Translation_Evaluation_A_Survey/links/5a9b456745851586a2ac2ceb/Machine-Translation-Evaluation-A-Survey.pdf (дата звернення : 31.03.2024).
Lavie A., Agarwal A. METEOR : An automatic metric for MT evaluation with high levels of correlation with human judgments. Proceedings of the second workshop on statistical machine translation. 2007. 228–231. URL : https://www.researchgate.net/publication/228346240_METEOR_An_automatic_metric_for_MT_evaluation_with_high_levels_of_correlation_with_human_judgments (дата звернення: 21.03.2024).
Maučec M. S., Donaj G. Machine Translation and the Evaluation of Its Quality. Natural Language Processing – New Approaches and Recent Applications. 2019. С. 1–20. DOI : 10.5772/intechopen.89063.