[Deep.人. Article] 비전사 데이터를 활용한 개인화 음성 합성 - DeepBrainAI
지난 시간에 살펴본 AdaSpeech 모델과 같이 기존의 TTS 적응 방식은 특정 화자의 목소리를 합성하기 위해 텍스트-음성 쌍의 데이터를 사용해 왔습니다. 그렇지만 데이터를 쌍으로 확보하는 것이 현실적으로 어렵기 때문에 전사가 안된 음성 데이터만으로 TTS 모델을 적응 시킬 수 있다면 훨씬 효율적인 방법이 될 것입니다. 가장 쉽게 접근해 볼 수 있는 방법으로 음성의 전사를 위해서 음성인식(ASR) 시스템을 활용하는 것을 생각할 수 있겠으나 특정 상황에서는 적용이 어렵고 인식 정확도도 충분히 높지 않기 때문에 부정확한 전사로 인해 최종 적응 성능을 저하 시킬 수 있습니다. 그리고 TTS 파이프라인과 적응을 위한 모듈을 함께 joint training하는 방식으로 이 문제를 해결하고자 하는 시도들이 있었는데 이런 훈련 방식은 다른 상용 TTS 모델들과 쉽게 결합시킬 수 없다는 단점을 안고 있습니다.