Machine Learning for Natural Speech Interface
강홍구 교수 (연세대학교 전기전자공학부)
우리가 흔히 알고 있는 애플 시리(Apple Siri), 아마존 에코(Amazon Echo), 구글 나우(Google Now)와 같은 음성지원 서비스는 자연어 인터페이스 기술을 활용한 것이다.
연세대학교 강홍구 교수는 머신러닝을 통한 자연어 처리 과정에 적용되는 기본이론과 기술을 소개하였다.
자연어 처리 과정은 아래 이미지에 나타나 있다. 먼저 사용자가 “OK, Google”이라는 시동어를 말하면 이것을 인식하여 자연어 처리를 위한 준비를 한다(Wakeupword recognition). 이후 사용자가 말하는 “오늘 날씨는 어때?(How’s the weather today?)”라는 음성이 인식되면 (Speech recognition) 자연어 처리과정에서 텍스트의 의미가 해석된다(Natural language understaning). 해석된 음성에 응답(Output)하기 위하여 필요한 텍스트의 합성과정을 거친 뒤 음성으로 “비가 올 거에요(It’s rainy).” 라는 대답을 사용자에게 들려주는 방식이다.
점차 음성 인식이 가능한 주파수가 높아지고 노이즈 차단과 같은 기술이 발달하여 사람의 음성을 좀더 정확하게 인식할 수 있게 되었다. 또한 기존에는 자연어 처리를 위한 알고리듬(규칙)을 많이 확보하는 것이 중요했던 한편, 이제는 기본적인 알고리듬 틀을 가지고 최대한 많은 데이터를 확보하여 트레이닝을 통해 언어를 학습하는 단계에 집중하는 방향으로 발전하고있다.