구글 듀플렉스 시연이 고마운 이유: 대화는 인간의 독점적 권리 영역이 아니다

강정수 · 2018년 05월 13일

cover

구글 듀플렉스와 불쾌한 골짜기

구글이 '구글 I/O 2018' 행사에서 사람처럼 전화통화하는 보이스 서비스를 선보였다. 사람과 통화하는 이른바 인공지능이 미용실과 레스토랑 예약 과정에서 “으-흠(Mm-hmm)”, "아-하(aaah)"라고 답변하는 장면은 많은 이들에게 경외와 동시에 두려움을 불러 일으켰다.
기술 사회학자 투페키(Zeynep Tufekci)는 구글 듀플렉스(Duplex)라는 이름을 가진 이번 구굴 보이스 서비스 시연을 부정 의미에서 '소름끼치는(horrifying)'이라고 반응하고 있다.

환경운동가이자 해커활동가인 미국 스튜어트 브랜드(Stewart Brand)는, 인조(synthetic) 지능의 인조 목소리는 인조스러워야 한다는 논리를 내세우며 사람의 목소리와 구별이 어려운 이번 구글 듀플렉스 시연을 비판했다. 브랜드는 "어떤 종류든 컴퓨터가 성공적으로 사람처럼 위장할 경우 이는 신뢰를 파괴한다"며 컴퓨팅 기술의 부정적 진화를 염려하고 있다.

베네딕트 에반스(Benedict Evans)가 2017년 3월 예측한 것처럼, 위의 두 반응으로부터 보이스 서비스가 이른바 불쾌한 골짜기(Uncanny valley)에 도착한 것으로 추론할 수 있다. 스피커에 갖혀 있는 '친구'같은 존재인 보이스 (인공지능) 서비스가 인간에게 직접 전화해서 대화하는 모습은 적지 않은 사람에게 불쾌감을 전달하고 있다.

베이퍼웨어(Vaporware)일 가능성 높아

베이퍼웨어(Vaporware)는 개발 중이지만 아직 완성되지 않은 또는 완성될 가능성이 없는 소프트웨어를 말한다. 다만 개발 시작부터 완성 이후의 성능을 요란하게 선전하는데 사용되는 경우가 많다. 이번 구글 듀플렉스 시연은 '구글 I/O 2018'에 모인 그리고 이를 온라인으로 지켜본 세계 각국의 너드와 기자들에게 구글의 놀라운 자연어처리 능력에 기초한 인공지능 기술 수준을 맘껏 자랑하기에 충분했다. 실제 아래 영상에서 참가자들의 탄성을 쉽게 확인할 수 있다.

만약 미용실과 레스토랑에서 구글 보이스 서비스에 연결된 사람이 예약 업무와 관계없는 다른 질문을 하면 어떤 일이 일어날까. 아마도 구글은 이러한 경우 구글 보이스 서비스가 전화 통화를 끊도록 설계했을 것이다. 그런데 만약 구글 튜플렉스가 미국에서 식당 예약에서 자주 사용되는 오픈테이블(OpenTable) 서비스를 이용해서 예약을 시도한다면 이러한 질문과 걱정이 필요없을 것이다.

구글같은 뛰어나 기술력을 자랑하는 기업에게 구글 홈 또는 구글 어시스선트가 오픈테이블(OpenTable)과 연결하여 실수없이 식당 예약을 진행하는 사용자 체험을 선보이는 일은 어렵지 않았을 것이다. 그렇다면 구글은 왜 인간에게 실제 전화를 거는 실험을 했을까?

이 질문에 대한 답은 전화를 받은 식당과 미용실의 직원이 구글 듀플렉스에게 아래와 같은 질문을 했다고 가정하는데서 찾을 수 있다.

"당신은 트럼프와 김정은이 만나는 북미정상회담에 대해 어떻게 생각하십니까?"

뚱딴지같은 질문이다. 이러한 질문이 식당과 미용실 예약 대화에서 갑자기 튀어나올 가능성은 없다. 거꾸로 말해, 이번 구글 듀플렉스의 시연에 등장한 질문과 이에 대한 답변은 사전에 충분히 예측할 수 있는 질문과 답변으로 구성된 채팅 봇(bot) 대화 수준이다. 물론 이러한 수준의 음성 인식(speech recognition)이 하찮다는 말은 아니다. 다만 이 대화에서 확인할 수 있는 구글의 자연어처리 능력이 혁명적 수준은 아니다는 말이다. 이번 구글 시연에서 놀라운 성과는 오히려 컴퓨터가 만들어낸 목소리가 인간의 그것과 매우 유사하다는 점이다. 인간 목소리와 구별하기 어려운 수준의 컴퓨터 목소리가 큰 기술 성과이긴 하다. 그렇다고 목소리 유사성이 구글 듀플렉스의 시장 성공을 뒷받침하기에는 부족하다. 구글은 무엇을 의도한 것일까?

과거 기술에 담긴 새로운 기술

마샬 맥루한(Marshall McLuhan)은 '미디어의 이해(Understanding Media, 1964)'에서 다음과 같은 문장으로 새로운 혁신은 과거 방식으로 새로운 효과를 만들어내는 과정을 겪기 마련이라고 주장했다.

모든 혁신은 최초 단계에서는 낡은 방식으로 새로운 효과를 만들고, 약간의 새로운 특징으로 새로운 효과는 강화되고 수정된다. Eevery innovation must pass through a primary phase in which the new effect is secured by the old method, amplified or
modified by some new feature. (323쪽)

10여년 전, 스마트폰이 이미 세상에 출현했지만 일부 한국 언론 업계 종사사들은 종이신문을 PDF 옮겨놓고 이를 혁신이라 주장했다.

2009년부터 2012년까지 마이크로소프트 윈도우즈 운영 체계를 총괄했던 스티븐 지노프스키(Steven Sinofsky)는 2018월 4월 발행한 글에서 "새로움은 과거 방식으로 새로운 것을 행할 수는 없다(the new can’t do new things in old ways)"라는 오래된 격언을 멋지게 설명하고 있다. 구글이 구글 듀플렉스를 선보였던 방식은 정확하게 보이스 서비스라는 '새로움'을 음성 직접 전화라는 '과거 방식'으로 보이스 서비스를 통한 식당 및 미용실 예약이라는 '새로운 것'을 행하는 모습이었다. 이는 마치 10여년 전 스마트폰으로 팩스를 보내는 것을 시연한 것과 유사하다.

구글의 의도는 무엇일까?

구글이라면 응당 자신이 가진 모든 기술력과 재무 능력을 투자하여 미국 미용실과 식당의 예약 시스템의 혁신을 꾀하고 있을 것이다. 네이버가 네이버 (스마트)플레이스를 통해 검색, 예약 그리고 지불을 통합하려는 시도처럼 말이다. 그리고 네이버 플레이스는 이후 네이버 보이스 서비스인 클로바와 자연스럽게 연결될 것이다. 그런데 구글은 왜 새로운 혁신을 과거의 방식으로 포장했을까? 여기서 구글의 의도는 무엇일까?

이번 구글 듀플렉스 시연을 이끌었던 구글의 대표 선다 피차이(Sundar Pichai)는 두 가지 미션을 수행했던 것으로 보인다. 하나는 매우 사소한 것으로 구글 I/O 행사장을 방문한 사람을 즐겁게 한 일이다. 성공했다.
두 번 째는 내 개인적으로 구글에 고마움을 표현하고 싶은 바다. 선다 피차이는 사전에 충분히 예상할 수 있는 질문과 답변 구조를 통해 기술이 얼마나 정확하게 인간의 목소리를 모방할 수 있는지를 보여주고 있다. 이를 통해 구글은 아마 인공지능 기술의 가능성과 잠재력에 대한 보다 대중적인 토론을 불러일으키고 싶었을 것이다. 디지털 기술에 (큰) 관심없는 사람들도 이번 구글 듀플렉스 시연을 놀라움과 두려움으로 대하면서 다양한 토론에 참여하기 시작했다.

구글 듀플렉스 시연에서 우리는 오히려 전화 통화에 참여한 식당 및 미용실 예약 담당자의 질문과 답변이 얼마나 단순한 업무인지를 확인할 수 있었다. 특정 상황에서 인간의 역할이 챗 봇(chat bot) 수준으로 정의될 수 있음을 깨달았다.

이 글 도입부에 소개한 투페키(Zeynep Tufekci)의 "소름끼치는(horrifying)" 반응은 어쩌면 구글 듀플렉스를 향한 것이 아니라 인간 대화가 봇 수준일 수 있음을 느꼈기 때문일 수도 있다. 트위터는, 과거(!) 인간의 대화를 140자로 제한하면서 인간이 서로 연결하고 대화하는 방식의 가능성을 확장했지만, 다른 한편으로는 인간 대화를 자연어 연구자 또는 봇 연구자들에게 쉬운 분석 대상으로 만들어 왔다.

놀라운 속도로 진화하는 인공 지능과 디지털 기술은 특정한 측면에서 인간의 결점과 한계를 적나라하게 드러내고 있다. 이 폭로(?!)가 일부 인간에게는 불편하겠지만, 나에겐 그렇지 않다.

종이 쪽지에 적어 놓은 대사를 읽고 있는 듯한 대화에서 우리가 대화는 인간의 독점적 권리라고 주장할 근거는 없다. 앞으로 오랜 기간 동안 인간이 인간일 수 있는 영역은 무엇인지 찾아내고, 인간이 기계보다 우월한 영역이 무엇인지를 탐구하고, 이에 보다 큰 노력으로 집중할 필요가 절실하다.

기계는 점점 우리 인간의 일상 영역으로 들어오고 있다. 인간이 봇(bot)에 추월당하고 싶지 않다면, 인간 스스로 봇처럼 행동하는 것을 멈춰야 한다.