Creating innovative bio-convergent technologies for better human life

지난 11월 우리학과 조광현 교수 연구팀은 뇌가 음성을 인지하는 메커니즘을 모방하여 노이즈 대비 신호 분석 정확도를 높인 연구에 대한 결과를 Nature Scientific Report에 게재하였다.

 

인간의 생활 깊은 곳까지 자리잡은 인공지능 기술

작년 3월 벌어졌던 이세돌 바둑 프로 9단과 구글 딥마인드의 알파고의 바둑 매치 이후 전세계는 인공지능 개발 열풍에 휩싸였다. 이러한 인공지능에 대한 관심은 게임 관련 분야 인공지능 뿐만 아니라 다른 여러 분야의 인공지능에도 많은 관심이 옮겨졌고, 인공지능이란 키워드는 우리에게 너무나도 익숙한 개념이 되었다.

여러가지 인공지능의 형태 중 우리 생활에 가장 밀접하게 쓰이게 될 것은 인공지능 비서 시스템일 것이다. 우리가 지시한 일을 대신해주는 인공지능은 여러 SF 영화에는 이제 가장 기본적인 요소 중의 하나가 될 정도로, 인공지능 하면 바로 떠오르는 서비스 형태가 되었다. 특히 영화 ‘아이언 맨’에서 주인공 토니 스타크의 인공지능 개인 비서 JARVIS는 영화 속 인공지능을 예로 들 때 단골로 등장하는 인공지능의 예 중 하나로, 아이언 맨 수트 조종을 비롯한 토니 스타크가 해야할 여러 업무를 담당하는 JARVIS의 능력은 많은 대중들의 머리 속의 인공지능이 가진 가능성을 각인시키는 계기가 되었다.

 

[caption id="attachment_6477" align="alignnone" width="638"]ckh_1 영화 '아이언 맨' 중, 주인공 토니 스타크의 인공지능 개인 비서 JARVIS[/caption]

 

 

우리도 이미 쉽게 사용할 수 있는 인공지능 개인 비서 서비스

이러한 인공지능 개인 비서를 영화에서만 볼 수 있는 것은 아니다. 우리가 흔히 사용하고 있는 스마트폰에도 대부분 인공지능 개인비서 서비스가 지원된다. 아이폰에는 ‘Siri’, 갤럭시 시리즈에는 ‘S Voice’가 대표적인 인공지능 개인비서 서비스이다. 스마트폰을 향해 “Siri야” 혹은 “하이 갤럭시”라 말하면, 쉽게 이 서비스를 시작해 볼 수 있다.

 

[caption id="attachment_6480" align="alignnone" width="500"]ckh_2 아이폰의 음성 인식 시스템 'Siri'[/caption]

 

그런데 인공지능 기술의 비약적인 발전에도 불구하고, 인공지능 개인비서 서비스는 우리의 기대에 못 미칠 때가 많다. 인공지능 개인비서 서비스 중 가장 성공을 거둔 Siri의 경우도 실제로 사용을 해보면 내가 원하는 동작 및 해답을 내놓지 못 하는 경우가 많다. 인공지능 개인 비서 서비스가 보여주는 오류 중 하나로는 음성 인식 시스템의 오류가 있다. 실제로 사용해보면 ‘덜어줘’와 ‘걸어줘’ 같은 간단한 단어도 개인 비서 서비스는 쉽게 구분해내지 못한다. 특히 주변 잡음이 심한 경우, 음성 인식 정확도는 현저하게 줄어들게 된다.

만약 JARVIS가 이런 간단한 단어도 혼동한다면, 토니 스타크는 영화 속에서 많은 어려움을 겪을 것이다. 따라서 정확한 음성 인식 기술은 인공지능 개인 비서 서비스에서 필수적이라고 할 수 있다.

 

 









It’s hard to recognize speech.
It’s hard to wreck a nice beach.

음성인식 기술이 만들어내는 오류 중 유명한 형태. 음성인식 기술은 두 개의 비슷한 발음의 문장을 쉽게 구분해내지 못한다.

 

 

임의로 소리의 시간 단위를 만들고 있던 기존의 음성 인식 시스템

그동안 사용해오던 음성 인식 시스템은 개발자가 정한 임의의 시간 구역으로 음성 신호를 나눈 뒤, 임의로 쪼갠 음성 단위를 이용해 소리를 인식했다. 하지만 사람이 사용하는 단어나 발음 단위는 길이가 일정하지 않고 다양하기 때문에, 이런 음성 인식 시스템을 사용하면 발음 단위가 중간에 잘리는 사태가 발생할 수 밖에 없어, 이를 이용한 음성 인식에는 한계가 있을 수 밖에 없다.

 

그렇다면 뇌는 어떻게 음성을 인식하는 걸까? 그간 신경 과학자들의 연구에 따르면, 뇌가 음성 신호를 인식할 때 신호를 음파 진폭에 맞춰 시간 구역을 쪼개 분석을 한다고 한다. 이렇게 신호를 쪼개는 것이 어떠한 역할을 하는지는 정확히 밝혀지지 않았지만, 이러한 특성이 사람이 정확하게 음성을 인식하는 프로세스의 중요한 부분을 맡고 있을지도 모른다고 추측을 하던 중이었다.

 

[caption id="attachment_6479" align="alignnone" width="881"]ckh3.jpg 기존에 사용하던 음성 인식 시스템이 신호를 쪼개는 방법(위)과 뇌의 청각 시스템이 음성 신호를 쪼개는 방법(아래)[/caption]

 

뇌를 모방한 뒤 노이즈에 강해지다.

조광현 교수님 연구팀 (제 1저자 이병욱) 은 이 아이디어에 착안해, 뇌가 음성 신호를 분석하는 방식을 음성 인식 기술에 적용해보았다. 그 결과 기존 음성 인식 기술과 대비 노이즈 상황에서의 인식 정확도가 높아지는 것을 볼 수 있었다. 심지어 탱크 소리와 제트기 소리와 같은 시끄러운 주변 잡음 상황에서도, 기존 기술과 비교해 음성 인식 정확도가 높아지는 것을 확인했다.

 

이 연구를 통해, 뇌가 음성을 진폭에 따라 쪼개는 것이 음성 인식 정확도를 높이는 데 중요한 역할을 할지도 모른다는 실직적인 증거를 처음으로 확인 할 수 있었고, 노이즈 상황에서도 정확하게 음성을 인식할 수 있는 기술 발전의 가능성을 열 수 있게 되었다.

 

[caption id="attachment_6478" align="alignnone" width="788"]ckh4 점선: 기존에 사용하던 음성 인식 기술 (FFSR), 실선: 이병욱 박사과정 학생이 개발한 새로운 음성 인식 기술 (NVFS) 그래프에서 볼 수 있듯이, 뇌를 모방해 새로 개발한 음성 인식 기술이 기존에 사용하던 기술보다 여러 노이즈 상황에서 인식 정확도가 높은 것을 볼 수 있다.[/caption]

 

송영조 기자(syj1455@kaist.ac.kr)