최신기술동향

연구사업 관련 연구및 산업계의 동향을 소개합니다.

속말로 컴퓨터와 대화하는 헤드셋 선봬
출처 한겨례 등록일자 2018-04-10
원본 URL http://news.naver.com/main/hotissue/read.nhn?mid=hot&sid1=105&cid=927703&iid=49752968&oid=028&aid=0002405575&ptype=021
0002405575_001_20180410113002722.jpg
[한겨레] 속발성 신경근육 7곳 전기센서로 감지

정확도 92%…음성인식보단 조금 낮아


음성인식 기술이 발전하면서 인공지능 스피커들이 빠른 속도로 대중화하고 있다. 원하는 음악을 틀어주거나 오늘의 일기예보를 알려주는 등 간단하면서 일상적인 일은 이제 굳이 컴퓨터에 연결된 키보드를 두드리지 않고도 말 한마디로 가능해졌다. 사람의 눈과 손을 기기로부터 자유롭게 해준다는 점이 음성인식 기기들의 가장 큰 장점이다.
그러나 소리를 내서 컴퓨터에 말을 걸다 보면 자칫 주변 사람에게 방해가 될 수 있다. 주변 사람 모르게 조용히 처리해야 하는 일일 경우엔 아예 남들이 없을 때까지 기다려야 한다. 굳이 입밖으로 소리를 내지 않아도 컴퓨터에 지시를 내릴 수는 없을까?
MIT대 연구진이 소리를 내지 않고도 컴퓨터와 대화할 수 있는 헤드셋 장치를 개발했다. 뇌파를 읽어내는 헤드셋일까? 아니다. 입을 움직이지 않고 속으로만 소리를 내는, 이른바 속발성(하위발성, Subvocalization)을 알아듣는 장치다. 속발성은 겉으로 소리를 내지는 않지만 글자를 또박또박 읽어내려가는 것이다. 따라서 눈으로 죽 훑어내려가는 방식보다는 글을 읽는 속도가 느리다. 하지만 읽은 내용을 이해하고 기억하는 데는 눈으로만 보는 것보다 더 유리한 방식이다. 그런데 속발성을 할 때도 발음에 관련된 근육이 아주 미세하게 움직인다.

인공지능 시스템이 말로 바꿔 전달
연구진이 개발한 헤드셋 얼터에고(AlterEgo)는 바로 이 미세한 근육의 움직임을 감지해낸다. `또다른 자아‘란 뜻을 갖고 있는 이 헤드셋은 양쪽 귀를 감싸는 일반 헤드폰과는 달리 한쪽 귀와 턱 주변을 감싸는 형태의 헤드셋이다. 헤드셋에는 안면과 턱 부위의 근육 움직임을 감지하는 전극센서가 여럿 있다.
연구진은 신경근육의 움직임을 정확히 감지할 수 있는 안면 부위를 찾아내기 위해 16개의 전극 위치를 매번 바꿔가면서 같은 단어에 대해 네차례씩 속발성을 내도록 했다. 그 결과 속발성과 연결된 7곳을 확인하고, 그 곳에 전극센서를 부착했다. 센서가 감지한 신호는 머신러닝으로 훈련된 인공지능 시스템이 말로 바꿔 컴퓨터에 전달해준다. 또 귀를 둘러싼 부위에는 두개골의 뼈를 통해 직접 소리를 전달해주는 골전도 헤드폰이 있다.
이는 헤드폰을 끼고 있어도 주변에서 나는 소리를 방해없이 들을 수 있게 해준다. 따라서 이 장치를 착용하면 단어를 머리속으로 생각하는 것만으로도 컴퓨터에 말할 수 있다. 컴퓨터 역시 골전도 헤드폰을 통해 소리없이 헤드셋 착용자에게 말을 전할 수 있다. “오케이 구글” “헤이 시리”라고 말할 필요없이 컴퓨터와 소통할 수 있다는 얘기다.

0002405575_002_20180410113002750.jpg

“인간과 기계가 융합된 플랫폼”
헤드셋의 작동방식은 근육보조기를 닮았다. 예컨대 우리가 어떤 행동을 하려고 할 때, 뇌는 근육에 전기신호를 보내 무엇을 해야 할지 알려준다. 의수족의 경우, 근전도기기로 이 전기신호를 기록한 뒤 신호처리 장치를 통해 로봇의수에 이용자가 어떤 행동을 하고 싶어하는지 알려준다. 말의 경우엔 이 과정이 좀더 복잡하지만 기본 개념은 같다고 연구진은 설명했다. 예컨대 어떤 단어를 말하려 할 경우, 뇌는 그 신호를 안면과 목구멍 근육으로 보내 그 단어 발음에 맞는 모양을 만들어준다.
논문 제1저자인 MIT 미디어랩의 아나브 카푸르 연구원은 보도자료에서 “지능증강(IA) 기기를 만들어보자는 게 이 기기를 개발하게 된 동기였다”고 밝혔다. 즉 인간 내면과 더 가깝게 연결된, 즉 어떤 면에선 인간과 기계가 융합되어 우리 자신의 인지력이 확장된 것처럼 느껴지는, 그런 컴퓨터 플랫폼을 만들 수는 없을까라는 생각이 발상의 계기였다는 것이다.
지도교수인 패티 마에스는 이 장치의 의미를 이렇게 설명한다. “오늘날 우리는 휴대폰 없이는 살 수 없다. 그러나 이 장치는 매우 파괴적이다. 내가 지금 누군가와 나누고 있는 대화와 관련이 있는 정보를 보고 싶을 경우, 휴대폰을 찾아서 암호를 입력하고 앱을 열어 검색 키워드를 입력해야 한다. 나와 함께 있는 사람들로부터 휴대폰으로 온통 나의 관심을 이동시켜야 한다. 그래서 우리는 자신의 현재 상태를 그대로 유지하면서도 이런 장치를 이용할 수 있는 인터페이스를 개발하려 했다.”


소음 높은 곳이나 정숙한 환경서 유용
속발성 신호를 잡았다고 해서 모든 게 해결되는 건 아니다. 특정 단어와 특정 신호의 관계를 파악하는 반복 훈련이 필요하다. 또 모든 사람들에게 일괄적으로 적용할 수 있는 것도 아니다. 각자 신경근육 신호가 조금씩 다르기 때문이다. 각자의 억양에 맞춰 개별장치 시스템을 조정해줘야 한다. 물론 일단 기본 단어신호 프로그램이 완성되면 그 다음 사용자부터는 조정작업이 더 쉬워진다. 이번에 제작한 시제품의 경우, 연구진은 약 20개 단어로 몇가지 임무를 수행하도록 했다. 그중 하나는 사칙연산이다. 사용자는 덧셈과 곱셈을 속발성으로 수행했다. 다른 하나는 체스 게임을 하는 것이었다. 실험 참가자가 상대방의 움직임을 속발성으로 컴퓨터에 말하고, 컴퓨터가 권하는 훈수를 받는다.
연구진은 실용성을 알아보기 위해 10명의 이용자들을 대상으로 15분간 속발성 연습을 시킨 뒤 90분간 컴퓨터에 사칙연산 명령을 내리도록 했다. 그 결과 속발성의 번역 정확도는 92%를 보였다. 구글의 음성인식 서비스 정확도 95%보다는 조금 낮지만 곧 이를 따라잡을 것이라고 연구진은 예상했다. 연구진은 현재 좀더 복잡한 대화를 위한 데이터를 수집하고 있다. 언젠가는 속발성만으로 완벽한 대화가 가능할 것으로 기대하고 있다.
연구진의 희망대로 속발성 감지 능력이 사람끼리 소통하는 수준에 도달할 수 있다면 다양한 부문에서 요긴하게 쓰일 수 있을 것으로 보인다. 특히 소음이 심한 곳이나 침묵이 필요한 곳에서 매우 유용할 것이다.
연구진은 3월7~11일 일본에서 열린 지능형 사용자 인터페이스 국제학술회의에서 이 논문을 발표했다.
다음글유니티, 유나이트 베를린서 증강현실·인공지능 신규 기능 공개
이전글[IF] 로봇 팔로 날아오는 원반 잡는다