ДОСЛІДЖЕННЯ ГІБРИДНОЇ АРХІТЕКТУРИ CNN З RESIDUAL SHUFFLEEXCHANGE ДЛЯ РОЗПІЗНАВАННЯ НОТ З АУДІОДАНИХ

DOI: 10.31673/2786-8362.2025.021372

  • Бай Я. В. (Bai Ya.V.) Державний університет інформаційно-комунікаційних технологій, Київ
  • Катков Ю. І. (Katkov Yu.I.) Державний університет інформаційно-комунікаційних технологій, Київ

Анотація

У статті розглядаються сучасні нейромережеві
підходи до автоматичного розпізнавання нот з аудіофайлів. Проаналізовано алгоритми на основі
швидкого перетворення Фур’є, згорткових нейронних мереж (CNN) та мереж залишкових
перестановок-обмінів (RSE). Визначено переваги глибокого навчання в умовах фонових шумів і
варіативного виконання нот. Запропоновано шляхи підвищення точності розпізнавання та
перспективи застосування в музичних технологіях.
Ключові слова: Розпізнавання нот, аудіоаналіз, нейронні мережі, згорткова нейронна мережа,
RSE-мережа, музична транскрипція, глибоке навчання, обробка звуку, машинне навчання, штучний
інтелект

Список використаної літератури
1. Bay M., Ehmann A. F., Downie J. S. Evaluation of multiple-F0 estimation and tracking
systems. Proceedings of the 10th International Society for Music Information Retrieval Conference
(ISMIR). 2009. P. 315–320. URL: https://ismir2009.ismir.net/proceedings/PS2-13.pdf.
2. Automatic music transcription: challenges and future directions / E. Benetos et al. Journal of
Intelligent Information Systems. 2013. Vol. 41, no. 3. P. 407–434. URL:
https://doi.org/10.1007/s10844-013-0258-3.
3. Cogliati A., Temperley D., Duan Z. Transcribing human piano performances into music
notation. Proceedings of the 17th International Society for Music Information Retrieval Conference
(ISMIR). 2016. P. 758–764. URL: https://wp.nyu.edu/ismir2016/wpcontent/uploads/sites/2294/2016/07/cogliati-transcribing.pdf.
4. Automatic music transcription: challenges and future directions / E. Benetos et al. Journal of
Intelligent Information Systems. 2013. Vol. 41, no. 3. P. 407–434. URL:
https://link.springer.com/article/10.1007/s10844-013-0258-3.
5. Deep salience representations for f0 estimation in polyphonic music / R. M. Bittner et al.
International Society for Music Information Retrieval Conference (ISMIR). 2017. P. 63–70. URL:
https://doi.org/10.5281/zenodo.1417937.
6. Böck S., Schedl M. Polyphonic piano note transcription with recurrent neural networks. IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2012. P. 121–124.
URL: https://doi.org/10.1109/ICASSP.2012.6287832.
7. Residual Shuffle-Exchange Networks for Fast Processing of Long Sequences / A. Draguns et
al. Proceedings of the AAAI Conference on Artificial Intelligence. 2021. P. 7245–7253. URL:
https://ojs.aaai.org/index.php/AAAI/article/view/16890.
8. Li L. Music Transcription Using Deep Learning. 2017. (Preprint). URL:
https://cs229.stanford.edu/proj2017/final-reports/5242716.pdf.
9. Residual Shuffle-Exchange Networks for Fast Processing of Long Sequences / A. Draguns et
al. Proceedings of the AAAI Conference on Artificial Intelligence. 2021. P. 7417–7425. URL:
https://ojs.aaai.org/index.php/AAAI/article/view/16890.
10.LUMII-Syslab. RSE: Residual Shuffle-Exchange Networks GitHub Repository. URL:
https://github.com/LUMII-Syslab/RSE.
11.Convolutional Recurrent Neural Networks for Music Classification / K. Choi et al. IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2017. P. 2392–
2396. URL: https://dl.acm.org/doi/10.1109/TASLP.2017.2690575.
12.Sigtia S., Benetos E., Dixon S. An End-to-End Neural Network for Polyphonic Piano Music
Transcription. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. Vol. 24,
no. 5. P. 927–939. URL: https://arxiv.org/pdf/1508.01774.
13.Automatic Music Transcription: An Overview / E. Benetos et al. IEEE Signal Processing
Magazine. 2019. Vol. 36, no. 1. P. 20–30.
14.Hernandez-Olivan C., al. e. A comparison of deep learning methods for timbre analysis in
polyphonic automatic music transcription. Electronics. 2021. Vol. 10, no. 7. P. 810.
15.Sigtia S., Boulanger-Lewandowski N., Dixon S. A Study on LSTM Networks for Polyphonic
Music Sequence Modelling. ISMIR 2017. 2017. URL:
https://archives.ismir.net/ismir2017/paper/000060.pdf.
16.Kim J., Bello J. Adversarial learning for improved onsets and frames music transcription.
Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). 2019.
P. 670–677..
17.Hawthorne C., others. Sequence-to-Sequence Piano Transcription with Transformers.
Proceedings of the 22nd International Society for Music Information Retrieval Conference (ISMIR).
2021. URL: https://archives.ismir.net/ismir2021/paper/000030.pdf.
18.Team M. Music Transcription with Transformers. URL:
https://magenta.tensorflow.org/transcription-with-transformers.

Номер
Розділ
Статті