ОЦІНКА ЯКОСТІ СИНТЕЗОВАНОГО МОВЛЕННЯ
DOI: 10.31673/2786-8362.2024.022953
Анотація
У статті досліджується
методи об’єктивної оцінки якості синтезованого мовлення, які можна використовувати для оцінки
точності та продуктивності систем синтезу мовлення. Цей підхід до оцінювання має на меті
забезпечити неупереджену міру підвищення якості синтезованого мовлення, незалежну від
суб’єктивних думок слухачів, таким чином полегшуючи розробку та вдосконалення систем синтезу
мовлення. Він також пропонує основу для порівняння різних систем синтезу мовлення, щоб
визначити, яка працює краще. Значна увага в статті приділяється використанню нейронних мереж
як інструменту для оцінки якості вихідного результату інших нейронних мереж, підкреслюючи
потенціал самооцінки в системах штучного інтелекту. Ефективність існуючих систем контролю
якості ретельно досліджується з визначенням їх сильних і слабких сторін. Крім того, стаття
висвітлює ключові переваги кожної доступної системи оцінювання, вносячи цінну інформацію в
постійне вдосконалення технологій синтезу мовлення.
Ключові слова: нейронна мережа, синтез мовлення, метрики оцінки, метрики.
Список використаної літератури:
1. Frederick Jelinek. Statistical Methods for Speech Recognition. MIT Press, 1997. – p. 300–320
2. Lawrence R. Rabiner, Ronald W. Schafer. Digital Processing of Speech Signals. Prentice Hall,
1978. – p. 215–250
3. Richard M. A. Monro, Nicolas Stoll. Perceptual Evaluation of Speech Quality (PESQ): The
New ITU Standard for End-to-End Speech Quality Assessment, Part I. – p. 98–112
4. Chin-Hui Lee, Frank K. Soong, Kuldip K. Paliwal. Automatic Speech and Speaker
Recognition: Advanced Topics. Springer, 1996. – p. 185–210
5. Lawrence R. Rabiner, Ronald W. Schafer. Introduction to Digital Speech Processing. Now
Publishers Inc, 2007. – p. 35–50
6. Francesco Camastra, Alessandro Vinciarelli. Machine Learning for Audio, Image and Video
Analysis. Springer, 2015. – p. 145–170
7. Stephan Raaijmakers. Deep Learning for Natural Language Processing. Manning Publications,
2022. – p. 300–325
8. Christopher Bishop. Pattern Recognition and Machine Learning. Springer, 2006. – p. 410–440
9. Paul Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009. – p. 120–145
10. Daniel Jurafsky, James H. Martin. Speech and Language Processing (3rd Edition). Pearson,
2023. – p. 500–525