2024. 5. 12. 21:20ㆍAudio Signal Processing for ML
본 주제의 필요성에 대해
Audio Classification, Speech Recognition, Audio Denoising, Music Information Retrieval 과 같은 오디오 분야의 machine learning 은 image 분야의 그것과는 조금 다른 특징을 가지고 있는 것 같다.
바로 Preprocessing 과정의 비중이다.
우리 눈은 수억 개의 시각세포로 이루어져 있고, 이 시각세포는 deep learning에서의 unit cell로 비유될 수 있는 것처럼 보인다. deep convolutional network를 기본 바탕으로 현재 image processing 분야는 인간을 능가하는 수준의 성능을 보여주고 있는데, 대단한 이미지 전처리 없이도 이러한 성과를 이루고 있다.
* 인간의 한쪽 귀에는 섬모들이 있는 유모세포가 3천 개 정도 있다고 하는데, 이 개수의 세포들로 놀라울 정도의 기능을 구현하는 인체의 신비는 주목할 만한 듯하다.
최근 오디오 분야에도 raw audio를 이용한 deep learning model들이 계속해서 나오고 있지만, MFCC, constant-Q transform과 같은 전처리 단계는 아직도 model의 accuracy에 유의미한 영향을 끼치는 것으로 보인다.
최신 기술을 활용한 오디오 딥러닝 모델의 경우, 위와 같은 내 추측이 사실이 아니라고 하더라도, 현재까지 오디오 데이터를 다루는 수많은 model들의 원리를 이해하는 데 있어서 audio signal processing에 대한 지식은 필수적일 것이다.
따라서 유튜브에 게시된 Audio signal processing for Machine Learning - Valerio Velardo 강의를 통해 이론적 바탕을 학습하고 실습을 진행함으로써 Audio data preprocessing에 대한 기본적인 이해를 도모하고자 한다.
'Audio Signal Processing for ML' 카테고리의 다른 글
Time Domain features (0) | 2024.05.20 |
---|---|
Extracting audio features Pipelines (0) | 2024.05.18 |
ADC(Analog to Digital Conversion) (0) | 2024.05.18 |
Basic features of sound wave (0) | 2024.05.14 |