한글은 세계에서 가장 디지털 기술과 잘 맞는 언어라고 정평이 나 있다. 그 이유는 자모가 뚜렷해서 자판으로 문자 입력이 매우 쉽기 때문이다. 한국의 엄지족들은 신기에 가까울 만큼 빠른 속도로 눈길은 상대를 보면서도 한 손으로 스마트폰에 긴 문장을 입력해낸다. 한글 덕분에 디지털 기술이 빠르게 발달했다고 해도 과언이 아니다. 중국어는 간체를 사용해도 입력을 알파벳으로 하지 않으면 안 될 만큼 문자가 디지털과 거리가 멀다. 단연히 스마트폰 입력 기술은 한국 엄지족을 못 당한다. 그런데 상황이 바뀌었다. 중국 베이징의 관광객, 노래방 및 고급 상점으로 가득한 산리툰(三里屯) 거리를 산책해 보면 스마트폰을 거의 다 음성으로 입력하는 모습을 볼 수 있다. 음성 입력 기술이 발달하면서 안정적인 입력 기술이 되어 버렸다. 정해진 몇 마디 명령을 사용하는 것이 아니고 시끄러운 주변 환경에서도 제대로 작동하는 음성 입력 기술을 바이두(Baidu)가 제공하고 있다. 애플의 시리(Siri), 구글 나우(Now), 아마존 알렉사(Alexa) 등도 간단한 음성 입력은 허용하지만 조금만 말이 길어지면 엉뚱한 코미디 같은 답변을 해온다.

중국에서 가장 인기 있는 검색 엔진인 바이두에서 물건을 검색할 때 음성만을 사용하는 스마트폰 사용자가 6억명이 넘는다고 한다. 스마트폰은 한자를 직접 입력하는 것이 아니라 소리 나는 대로 알파벳을 입력하기 때문에 노인들은 사용하기 힘든 기계다. 중국인에게 있어서 스마트폰 음성 입력은 모든 사람들이 쉽게 스마트폰을 사용하게 만드는 큰 혜택이다. 문자 입력의 필요성이 사라지면서 중국인에겐 스마트폰 활용이 데스크톱이나 노트북 사용보다 훨씬 더 편리한 방법이 되었다. 중국인들은 모든 작업을 메시지 앱인 위쳇(WeChat)에서 음성으로 처리할 수 있는 세상을 즐기고 있다.

 

인공지능+음성인식+가상현실이 융합하다

미용 및 의료산업계에서 지능형 기술을 전문적으로 개발하는 모디페이스(ModiFace)는 음성인식 및 음성지원 AI 분야 선두 업체인 사운드하운드(SoundHound)와 함께 자연어 대화형 AI 증강현실거울 소프트웨어를 내놓았다. 스마트폰 카메라에 비친 사용자의 얼굴에 사용자가 원하는 화장 후의 모습을 가상으로 비춰주는 앱이다. 화장뿐만 아니라 머리 염색, 모발 이식, 피부 및 노화 방지 처리를 한 모습을 원하는 대로 거울 속에 가상의 이미지로 만들어 보여준다. 자신의 변화된 모습을 모든 각도에서 돌려가면서 볼 수 있으므로 미용실이나 성형외과에서 이를 활용한다면 화장 후나 성형수술 후의 모습을 미리 볼 수 있다. 이는 음성지원기술과 인공지능기술 그리고 증강현실 기술이 함께 결합될 때 어떤 서비스가 가능한지 보여주는 좋은 사례다.

지난해부터 전 세계적으로 자연어 음성대화인식 서비스가 대세로 바뀌고 있다. 아마존의 알렉사를 채용한 사례가 이미 1만종이 넘는다고 한다. 여기에는 비즈니스, 재무, 자동차, 교육, 음식, 게임, 헬스, 영화, 음악, 쇼핑, 스마트 홈, 소셜네트워크, 스포츠, 여행, 교통, 날씨 등 거의 모든 분야가 망라됐다. 식당이나 영화, 스포츠 관람권, 비행기나 기차 예약도 플랫폼 생태계 내에서 말 한 마디로 ‘제공’받을 수 있는데 이는 사물인터넷(IoT)과 빅데이터(Big Data), 인공지능(AI)에 음성인식 기술이 더해지면서 가능해진 4차 산업시대 삶의 모습이다. 지능형 음성인식 가상 비서를 지칭하는 용어가 무려 161종이나 된다는 분석도 있다. 가상 인간, 가상 비서, 가상 아바타, 대화형 에이전트, 챗봇, 가상 에이전트, 가상 조수, 인공 대화자, 대화형 아바타, 브랜드 에이전트, 대화형 인터페이스, 지능형 사용자 인터페이스, 채터박스, 등 이름을 다 거명하기도 힘들다. 현재 시장에 등장한 지능형 가상비서는 크게 네 가지 부류로 분류할 수 있다.

첫째는 스마트하게 사물을 다루는 지능형 개인비서로 스마트폰에서 정보를 분석하고 지원하는 모바일 비서(Mobile Assistant), 아마존 에코(Echo), SK텔레콤의 누구(Nugu), KT의 지니(Genie) 등과 같이 가전기기를 제어하고 배달 주문이나 일정을 관리해주는 지능형 가정비서(Home Assistant) 그리고 커넥티드카에서 정보를 지원하는 지능형 보조운전자(Copilot) 등이 있다. 둘째는 개인이 처한 복잡한 문제들을 상담해주는 지능형 개인자문도우미로 쇼핑도우미, 참살이(Wellbeing) 도우미, 피트니스 도우미, 여행 및 오락도우미, 금융도우미, 사회활동 및 데이트도우미 등이 있다. 셋째는 검색 등 정보수집 분석과 소비활동을 직접 챙겨주는 가상대리(Virtual Agents)로 애플의 시리, 삼성의 빅스비, 네이버의 클로바 등이 있고, 모바일 앱을 제대로 활용하도록 도와주는 모바일 상담(Mobile Care)과 고객서비스 가상대리가 있다. 네 번 째로는 기업의 종업원 역할을 하는 보조종업원(Employe Assistant)이 있는데, 기업이나 관공서의 일반 업무, 행사일정, 반복 업무 등을 챙겨주는 일정비서(Scheduling Assistant), 판매를 대행하는 판매대리(Sales Assistant), 특정 업무를 담당하거나 주문형 서비스를 담당하는 지능형 가상보조가 있다.

 

가상 비서가 목소리 지문을 관리한다

이들 가상비서들의 가장 큰 단점은 목소리를 구분하지 못한다는 점이다. 예를 들면 텔레비전 광고에서 피자를 주문하거나 6살 어린아이가 주문을 해도 곧바로 상점에 배달 주문이 접수되고 실제로 상품이 배달되는 사태가 벌어질 수 있다. 그래서 가상비서에는 사용자 목소리를 등록하는 목소리 인증 기능을 삽입해 명령자를 구분해낸다. 이는 자녀를 보호하고 맞춤형 체험을 안내하고 표적 광고나 분석이 가능해져 동작이 정확해진다. 보통 사용자가 정해진 문장을 3회 정도 읽어서 목소리 지문을 분류한다. “알렉사, 피자 두 판만 6시 반까지 배달되도록 시켜줘”라고 말하면 “정의 씨, 지난번 드셨던 고구마 피자 두 판을 6시 반까지 배달시켜도 될까요?”라고 반응한다. 이때 “오케이!”하면 주문이 실행된다.

음성인증기능은 지능형 가상비서의 활용분야와 밀접한 관련이 있다. 우선 일처리를 위해선 반드시 본인임을 확인해야 하는 경우가 있다. 예를 들면 상거래, 교육, 기업, 금융, 정부, 건강관리, 보안 업무 등을 가상비서가 지원하려면 사용자의 음성지문을 반드시 확인한 다음에야 명령에 따르게 된다. 인증 목적이 아니더라도 신분을 구분해서 맞춤서비스를 하는 경우에도 음성검증이 필요하다. 예를 들면 자동차 운전이나 상품 선정 및 추천행위 그리고 오락놀이의 선택 그리고 사물인터넷 등이 그런 경우다. 음성인식 기능이 확산되면 가전제품들의 입력단추나 조작 패널이 사라지고 디자인이 전혀 다르게 바뀔 수 있다.

대화형 지능비서의 극치를 보여준 건 2013년에 개봉됐던 영화 <그녀>(Her) 속에 등장한 인공지능 사만다이다. 영화의 시대 배경이 2025년이니까 지금 기술발달 추세로 보면 맞춤대화 기능면에서만 본다면 충분히 유사한 수준에 이를 것 같다. 영화 속에선 인공지능이 여성으로 등장해 남성의 대화친구가 되지만 여성에게는 남성 친구로 등장할 수도 있음을 암시한다. 중요한 점은 영화 속에서의 인공지능 사만다는 주인공의 지식을 보완하고 의사결정을 돕는 친구가 아니고 고독한 마음을 달래주는 애인으로 등장한다는 점이다. 대화를 통해 상대의 심리변화를 읽고 그 심리상태에 맞추어 대화를 이끌어갈 뿐만 아니라 주인공이 사랑의 감정을 느낄 만큼 섬세한 목소리 연기를 해낸다. 교태스러운 목소리로 심지어 성적 감성까지도 일으키는 장면을 보여줄 정도다. 그렇다 단순한 대화형 인공지능이라기보다 목소리에 감성을 실어 나르는 감성교감 인공지능이다. 영화 속에선 사만다의 모습이 등장하지 않았지만 지금 같아서는 사만다의 모습도 얼마든지 사람의 모습으로 등장시킬 수 있다고 본다.

 

실물 아바타가 튀어나와 접대한다

대화형 인공지능의 발전과 궤를 달리 하면서 발달하는 부분이 아바타이다. 아바타는 가상세계에 사는 가상인물이다. 처음엔 만화 속 등장인물 같았지만 최근엔 컴퓨터 그래픽 기술이 발달하면서 마치 영화 속 주인공처럼 섬세한 인물 묘사가 가능해졌다. 아바타는 메타버스(Metaverse) 즉 가상세계에 살면서 나름 지위에 걸맞은 행세를 한다. 인터넷 게임 속에선 게임전사가 되기도 한다. 이런 아바타를 웹페이지에서 대화형 인공지능으로 활용하기 시작했다. 웹페이지를 방문하면 사람처럼 미인 아바타가 등장하면서 대화 상대가 되어 준다. 아바타의 모습을 자신의 사진을 이용해서 자신의 모습으로 만들어줄 수도 있다. 웹사이트 아바타를 만들어 주는 리얼루션(Reallusion), 3D마이셀프(Myself) 같은 곳에서는 3D 얼굴 모습을 그대로 실물처럼 재현해준다. 실물 사진을 바탕으로 사진 이미지보다 더 섬세하게 부분 수정을 가해 실물 아바타로 탄생시킨다. 인기 연예인의 아바타가 사이트를 방문하는 고객과 자연어로 대화를 하면서 상품을 사고 팔거나 애프터서비스 또는 고객 불편 상담 서비스를 할 수 있는 시대가 되었다. 이런 사이트 아바타는 스마트폰과 같은 모바일 장비에서도 그대로 재현할 수 있다. 이런 대화형 아바타는 실제 상점의 한 구석에서 특별상품을 파는 무인코너를 운영하는 방법으로 활용하면 멋질 것 같다. 온라인뿐만 아니라 오프라인 상점에서도 지능형 아바타가 상점 점원으로 등장하는 날이 멀지 않았다.

 

https://www.reallusion.com/character-creator/