• 구름조금동두천 26.2℃
  • 흐림강릉 22.5℃
  • 구름조금서울 28.1℃
  • 구름조금대전 28.0℃
  • 맑음대구 27.5℃
  • 맑음울산 26.4℃
  • 맑음광주 29.7℃
  • 맑음부산 28.6℃
  • 맑음고창 27.1℃
  • 맑음제주 29.2℃
  • 구름조금강화 24.9℃
  • 구름조금보은 26.7℃
  • 맑음금산 27.9℃
  • 맑음강진군 28.3℃
  • 맑음경주시 25.4℃
  • 맑음거제 28.0℃
기상청 제공

인공지능 음성인식 기술 어디까지 왔나?

음성인식 기술 필요성 증가, 응용 제품 지속적 출시될 것

영화 ‘그녀 (Her)’에서 대필 작가인 주인공 테오도르는 아내와 별거 중이며 홀로 지내는 외롭고 공허한 인물이다. 우연히 광고에서 본 음성인식 기반의 인공지능 운영체제를 구입하여 사만다라는 이름 붙인 주인공은, 매일 실체가 없는 컴퓨터 소프트웨어인 사만다와 음성인식을 통해 교감을 한다. 사만다는 기본감정만 있는 인공지능 소프트웨어지만 점차 주인공과의 교감을 통해 스스로 진화하고 사랑이라는 감정을 학습하게 된다. 음성은 사람과 컴퓨터 사이의 중요한 인터페이스로서 기존의 키보드나 마우스보다 훨씬 편리할 뿐만 아니라 최근 급속히 발전한 빅데이터와 인공지능 기술 덕분에 높은 인식율과 지능화된 인터페이스 서비스를 제공할 수 있는 수단이 되었다. 음성인식은 보통 4단계를 통해 인식된다. 먼저 마이크센서를 통해 입력된 아날로그 음성신호를 디지털 신호로 변경시키고 동시에 잡음 등을 제거하는 전처리 과정이 선행된다. 그런 다음 음성을 분석하여 적절한 특징을 추출하고 미리 수집된 음성모델 데이터베이스와 유사도 측정을 통해 가장 유사한 음성을 선택해 내는 방식을 사용한다. 하지만 사람마다 음색과 발음, 억양 등이 다르기 때문에 유사도를 측정하는 것이 매우 어려운 기술이며 따라서 음성인식 기술의 정확도는 얼마나 많은 음성 데이터베이스 모델을 수집하고 있느냐와 유사도를 측정하는 알고리즘이 얼마나 정확하냐에 달려 있다. 2000년도 초반까지는 음성인식 알고리즘의 한계가 있었지만, 최근에는 딥 러닝(Deep learning) 기술의 개발과 대용량 음성 데이터베이스의 활용을 통해 음성인식 기술이 사람의 인식 능력을 능가하는 수준까지 도달 하였다. 음성인식 기술은 지능형 자동차, 스마트 홈, 스마트 오피스, 의료, 번역 서비스 등의 다양한 분야에서 활용되고 있다. 그 중에서 최근 인기를 끌고 있는 음성인식 AI 스피커에 대해 자세히 알아보도록 하자. 음성인식 소프트웨어의 선두주자는 애플의 ‘Siri’나 구글의 ‘Now’였지만, 최근에는 세계 최대의 전자제품 전시회인 CES 2017에서 선보인 아마존 음성인식 소프트웨어 ‘Alexa’의 음성인식 기술이 단연 돋보이고 있다. Alexa 음성인식 기술은 사람이 대화하는 것과 같은 자연어를 이해하고 처리하는 기능을 지원한다. 또한 클라우드 기반으로 음성인식 서버에 축적된 사람들 간의 대화패턴, 특이한 단어, 개인적 취향 등을 반영하여 스스로 학습해 나가는 과정에서 더욱 똑똑해지는 특성을 가지고 있다. Alexa는 아마존 에코 (Echo) 스피커에 적용되어 2016년에만 500만대가 판매되었다. 에코의 주요 특징은 음성인식을 통한 음악재생 기능, 온라인 주문 기능, 스마트 홈 기능 등이 있다. 에코 스피커가 TV에서 나는 목소리를 주인으로 착각하여 장난감을 스스로 주문했다는 일화는 에코 스피커의 뛰어난 성능을 증명해 주는 예이다. 아마존은 Alexa를 에코 스피커용으로만 사용하는 것이 아니라 알레사 보이스 서비스(Alexa Voice Service)라는 클라우드 기반 서비스를 통해 인터넷에 연결되어 있는 모든 기기에서 Alexa음성인식 기술을 사용할 수 있도록 지원하고 있다. 아마존의 이러한 시도는 경쟁관계에 있는 제품에서도 영향을 미쳐 앞으로는 각 음성인식 시스템마다 API를 공개해 음성인식 AI 생태계 조성될 것으로 예상된다. 국내에서도 다양한 가정용 음성인식 스피커가 개발되어 출시되고 있다. SK텔레콤에서는 2016년 9월 인공지능(AI)스피커 ‘누구’를 출시하였고, KT에서는 2017년 1월 ‘기가 지니’를 출시하였다. 독립형 스피커로 출시된 SK 텔레콤의 ‘누구’는 이후에 자사 Btv와 연동하는 서비스를 시작하였고 음성인식을 통해 TV채널뿐만 아니라 영화를 검색하고 다운받아 볼 수 있는 서비스를 제공하여 출시되자마자 6개월 만에 6만대 이상 팔리는 성과를 거두었다. KT의 ‘기가 지니’는 출시 초기부터 TV연동형으로 개발되어 올레 TV가입자는 IPTV를 제어할 수 있도록 하였다. 네이버는 ‘아미카’를 출시할 예정인데, 업계의 특성상 자사가 보유한 대용량 백과사전과 음성 정보를 활용한 자제개발 음성인식 시스템을 사용하고 있다. 이렇듯 음성인식 스피커는 현재 시장에 나와 있는 음성인식 응용 제품들 중에서 가장 큰 시장으로 자리 매김하였다. 하지만 음성인식 기술이 지금보다 많은 사용자에게 보급되기 위해서는 더 많은 연구 개발과 고민이 필요하다. 첫 번째로, 현재의 기술은 입력된 음성과 음성데이터베이스에 저장되어 있는 음성파일과의 유사성을 통해 인식하는 방법을 사용하고 있다. 딥 러닝 기술을 통해 음성인식 정확도가 높아졌다고는 하지만 아직도 잡음이 심한 환경이나 사용자의 억양이 다른 음성에 대해서는 인식율이 떨어지는 문제점이 있다. 두 번째로, 단문의 음성은 잘 인식하지만 자연어로 구성된 비정형적인 장문의 음성은 인식율이 떨어진다는 단점이 있다. 세 번째 문제점은 인간의 음성에 포함된 감정을 인식하는 문제이다. 인간의 음성은 같은 단어나 문장이라고 하더라도 감정 상태에 따라 전혀 다른 뜻을 포함하고 있는데 이러한 감정을 고려한 음성인식 기술은 연구가 진행되고는 있지만 그 결과가 아직은 기대에 미치지 못하고 있다. 네 번째는 프라이버시 문제이다. Alexa와 같이 클라우드 기반의 인식 시스템은 사용자의 음성명령을 모두 기록하여 강화 학습에 사용한다. 이러한 기능은 개인별 맞춤형 인식 시스템으로의 진화가 가능하지만 또 다른 한편으로는 개인의 음성기록이 서버에 저장됨으로 서버가 해킹을 당할 경우 개인 프라이버시가 침해당할 수 있다. 현재의 이러한 문제점들을 개선하기 위해 개발자들은 끊임없이 연구를 하고 있으므로 단계적으로 해결이 가능할 것으로 기대한다. 앞으로 음성인식 기술에 대한 필요성은 계속 증가할 것이고 이를 활용한 응용 제품들도 시장에 지속적으로 출시 될 것이다. 현재와 같은 연구개발 속도라면 영화 ‘그녀’에 나오는 사만다를 만날 수 있는 날도 머지 않을 것이다.

<참고문헌>
1. 이규섭, “인공지능기반 음성인식, 사람보다 낫다,” 디지에코 보고서, 2015. 09. 30
2. 김현아, “음성인식 AI 스피커, SKT-KT-네이버 3파전, 타깃 시장 다를 듯,” 이데일리 2017.03.10. 신문기사
3. 손경호, “아마존 음성인식 비서 ‘알렉사’, 구글-애플 넘어설까,” ZDNet Koea, 2017. 01.11 신문기사

관련기사





[기자칼럼] 렉카유튜버, 혐오가 돈이 되는 세상 정보화 시대에 들어서고, 양방향 소통 매체인 유튜브가 한국 사회의 중심이 되면서 ‘유튜버’는 막대한 수익을 창출할 수 있는 하나의 직업이 되었다. 시청자의 욕구를 충족시켜 줄 영상을 올리고, 시청자가 해당 영상을 클릭함으로써 발생하는 수익을 통해 부와 명예를 획득하기 때문이다. 그러나 이러한 구조를 악용하는 소위 ‘렉카유튜버’들이 등장하면서, 이들에 대한 논란이 지속되고 있다.‘렉카유튜버’는 특정인에게 일어난 이슈나 사건 등을 영상화하여, 해당인을 모욕하고 비난하는 유튜버다. 과거엔 사건을 전달하는 역할만 한다는 점에서 이슈유튜버로 정의됐지만, 사건에 대해 모욕과 비난의 목소리를 내는 것이 난폭운전으로 사고 현장에 달려오는 렉카(사설 견인차)와 비슷해 렉카유튜버라고 불리기 시작했다. 이들이 문제가 되는 이유는 타인의 이슈를 공론화하는 과정에서 사실을 왜곡하거나 과장된 정보를 전달해 이득을 취하려 하기 때문이다. 확인되지 않은 허위 정보라도 단독으로 내용을 전달하면, 유튜버의 수익과 직결되는 조회수가 증가하고 ‘진실을 밝히는데 기여하겠다’는 후원자가 생기기도 하는 등 이들에게 경제적 이익이 발생한다. 심지어 정기로 고액을 후원하는 시청자도 심심치 않게 볼 수