”AI에이전트도 UX 잘못 설계하면 외면받을 수 있다“ (김숙연 홍익대 산업디자인학과 교수)

”AI에이전트도 UX 잘못 설계하면 외면받을 수 있다“ (김숙연 홍익대 산업디자인학과 교수)

1. ”AI에이전트도 UX 잘못 설계하면 외면받을 수 있다“ (김숙연 홍익대 산업디자인학과 교수)

한줄요약: ”AI에이전트도 UX 잘못 설계하면 외면받을 수 있다“ (김숙연 홍익대 산업디자인학과 교수)
*타임라인을 클릭하면 이동/재생됩니다.
시간 요약
00:08 음성 인식 기술은 사람과의 상호작용에서 높은 기대치를 요구함. 사용자가 음성으로 요청할 때, 반응 속도가 느리면 불만이 생기기 쉬움. 이는 음성 기술의 특성 때문임.
06:09 GPT와 같은 최신 AI는 사용자에게 유용한 답변을 제공하여 긍정적인 경험을 쌓음. 이는 사용자와 AI 간의 상호작용을 더욱 원활하게 만듦.
08:55 AI 에이전트의 성공 여부는 기술의 시기와 인터랙션 방식에 크게 의존함. 명확한 태스크가 필요하며, 사용자와의 상호작용이 중요함.
10:11 AI의 발전으로 사용자들은 AI의 예측 불가능성에 두려움을 느끼고, 기대치가 변동함. AI가 너무 잘해주면 오히려 거부 반응이 나타나기도 함. 이러한 불확실성은 사용자 경험에 부정적인 영향을 미칠 수 있음.
10:54 AI의 발전은 정보 혁명으로, 기존의 인쇄나 컴퓨터 혁명과는 다른 양상을 보임. AI는 스스로 행동할 수 있는 지식 체계로, 사용자 경험에 큰 영향을 미침.
11:24 AI 에이전트의 디자인 접근은 보수적인 관점에서 이루어져야 하며, 사용자 경험을 최우선으로 고려해야 함.
12:23 AI의 인터랙션 디자인에서 이미지는 매우 중요함. 고착된 이미지가 새로운 경험을 제한할 수 있으므로, AI의 역할을 재정의할 필요가 있음.
14:08 AI와의 상호작용이 사람 간의 대화와 유사해질수록, 사용자 기대치가 높아짐. 이는 기술 발전의 방향성을 제시함.
14:23 AI 사용자층이 성인에 국한되지 않고, 모든 연령대와 신체적 조건을 가진 사용자로 확대될 것임. 이로 인해 AI의 인터랙션 방식도 다양해져야 함.
14:55 AI 에이전트의 개념은 수행원이나 비서와 같은 역할로 고착되어 있음. 그러나 이러한 고정관념은 AI의 다양한 기능을 제한할 수 있으므로, 더 포괄적인 용어 사용이 필요함.
15:38 과거 AI 에이전트의 사례로 마이크로소프트의 클리피가 있음. 클리피는 사용자에게 외면받아 실패한 사례로, 사용자 경험을 고려하지 않은 설계가 문제였음.
16:38 애플의 시리도 초기에는 사용자에게 외면받았음. 모바일폰에서의 음성 비서는 프라이버시 침해로 인식되어 불편함을 초래했음.
17:53 아마존의 알렉사는 성공적인 AI 에이전트 사례로, 가정 내 스피커 형태로 사용자에게 자연스럽게 받아들여졌음. 이는 폼팩터와 정황이 맞아떨어진 결과임.
21:09 경험이 좋지 않은 AI는 사용자에게 외면받음. 시리의 경우, 초기 사용자 경험이 좋지 않아 사람들이 사용을 중단함. 이는 AI의 성능과 사용자 경험이 밀접하게 연결되어 있음을 보여줌.
24:53 음성 인식 기술은 비언어적인 피드백이 부족하여 사용자에게 답답함을 줄 수 있음. 사람 간의 대화에서는 비언어적인 요소가 중요한 역할을 함.



이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

2. 스크립트

커뮤니케이션을 하면 이게 핑퐁이 더 예민하게 돼야 하잖아요. 음성으로 뭔가 기계와 얘기를 할 때는 사람과 똑같은 어떤 방법으로 이게 돼야 된다는 기대치가 이미 있기 때문에 0.5초라도 아, 늦네, 막 이렇게 딱 돼버리는 거죠. 실리가 나한테 뭘 해줄 수 있을까 했을 때 답을 빨리 못 해주고 엉뚱한 소리하면 아, 쓸모가 없구나라고 딱 되는 거잖아요. GPT 같은 경우에는 채팅할 때 한 1초, 2초 있어도 그런가 보다, 그 용인이 되잖아요.

2.1. 음성 인식 기술은 사람과의 상호작용에서 높은 기대치를 요구함. 사용자가 음성으로 요청할 때, 반응 속도가 느리면 불만이 생기기 쉬움. 이는 음성 기술의 특성 때문임.

음성 인식 기술은 사람과의 상호작용에서 높은 기대치를 요구함. 사용자가 음성으로 요청할 때, 반응 속도가 느리면 불만이 생기기 쉬움. 이는 음성 기술의 특성 때문임.
Fig.1 - 음성 인식 기술은 사람과의 상호작용에서 높은 기대치를 요구함. 사용자가 음성으로 요청할 때, 반응 속도가 느리면 불만이 생기기 쉬움. 이는 음성 기술의 특성 때문임.

사람을 흉내 내는 어떤 기술일수록 그 수용할 수 있는 인내심이 굉장히 짧은 것 같아요. 안녕하세요, 이입니다. 오늘 스튜디오에 오랜만에 굉장히 반가운 손님을 모셨습니다. 오늘은 AI 에이전트를 고객 경험의 관점, 고객 경험 디자인의 관점에서 한번 살펴보기 위해서 구글, 마이크로소프트와 같은 실리콘 밸리의 빅테크 기업을 경험하신 김수 홍익대학교 산업디자인 교수님을 모셨습니다. 교수님, 안녕하세요?. 안녕하세요. 오랜만에 뵙습니다. 네, 오랜만입니다. 기술에 큰 변화가 있을 때마다 한 번씩 모시게 되는 것 같아요. 그래서 최근에는 AI 에이전트를 활용해서 어떻게 경험을 디자인할 것이냐 이런 부분에 관심들이 많으신 것 같아서 교수님을 또 모시게 됐습니다. 이게 처음으로 여쭤보고 싶은 게 AI와 UI의 차이가 뭐예요? 사실 요즘 UX와 UI를 많이 붙여서 쓰고 계세요. 그렇게 하는 이유가 사실 유저잖아요. 경험 안에는 유저 인터페이스, 그러니까 사용자의 인터페이스가 들어가기 때문에 그걸 같이 얘기해야 뗄 수 없는 관계로 함께 이야기하고요. 그리고 많은 분들이 그래서 그 차이가 뭐예요? 라고 질문을 굉장히 많이 하시는데, 굉장히 단순하게 생각을 하면, 경험이라는 유저 익스피리언스는 개념 자체가 어떻게 보면 사용자가 어떤 것을 시작하고 끝날 때까지의 총체적인 경험을 얘기하는 거예요. 그래서 어떻게 보면 경험 디자인이라고 생각하시면 되겠고요. 그리고 유저 인터페이스(UI) 같은 경우는 어떤 접점이 있어서 사용자가 무언가 액션을 하려고 하고, 뭔가를 원하는 것들을 하려고 할 때, 어쨌든 뭔가 접점이 필요하고 액션을 취해줘야 하는 것들이 있잖아요.

그래서 그걸 접점이라고 생각하고 인터페이스라고 생각하시면 됩니다. 그런데 이걸 예시로 좀 설명을 해야 이해를 하시더라고요. 그래서 제일 좋은 예시가 아이폰인 것 같아요. 사용자 경험이라는 게 뭔가라는 걸 굉장히 잘 보여준 예시인 것 같아요. 아이폰 같은 경우는 처음 애플 스토어에서 사는 경험부터 시작해서 그 물건을 가지고 가서 내가 뜯는 그 포장도 굉장히 쉽게 잘 뜯기게 되어 있잖아요. 그것도 다 설계된 어떤 경험이에요. 그리고 그 포장을 뜯어서 시스템을 설치하고, 그걸 내가 오퍼레이팅하는 그 순간까지도 다 경험에 들어가고요. 그다음에 이제 그 경험을 시작하면 내가 뭔가 구동을 해야 하잖아요. 그 구동을 하는 게 인터페이스인 것들이 많이 들어가는 거죠. 그래서 터치를 하고 줌인, 아웃을 하고, 그다음에 그걸 구현하기 위해서 제가 액션을 취하는 거, 이걸 인터페이스라고 생각하시면 됩니다. 그래서 인터페이스 하면 많은 분들이 그냥 이렇게 디지털적인 인터페이스만 생각하시는 데, 사실 이게 물리적인 인터페이스, 그다음에 디지털적인 인터페이스 모든 걸 총괄하는 거고요. 그다음에 경험 같은 경우는 사용자가 시작부터 끝까지 그리고 그 하는 모든 과정들을 설계하는 것이라고 생각하시면 됩니다.

그럼 인터페이스라는 게 디바이스 이런 것도 다 포함이 되는 거예요. 그러니까 아까 말씀하신 박스를 예로 들자면, 애플의 스티커를 뜯는 것도 인터페이스의 요소가 있다고 볼 수 있는 건가요?. 네, 사실 맞아요. 어떻게 보면 그 경험 안에서 디테일하게 설계되는 게 인터페이스인 거죠. 사용자가 이걸 뜻도 유도하는 거, 그것도 결국에는 인터페이스인 어떤 장치를 넣은 거죠. 디자인을 한 거죠. 그래서 보면 이렇게 뜯는데 라벨링도 돼 있고, 되게 쉽게 뜯을 수 있죠. 그것도 어떻게 보면 인터페이스의 한 부분이라고 할 수 있어요. 그런 경험들을 주는 게 경험 디자인인 거죠. 그러면 결국에는 경험 디자인을 통해서 만들어지는 경험은 인터페이스가 먼저 마련이 돼야 경험이 마련이 되는 거예요. 같이 가야 돼요. 그래서 UI와 UX를 같이 얘기하시는 거예요.



2.2. GPT와 같은 최신 AI는 사용자에게 유용한 답변을 제공하여 긍정적인 경험을 쌓음. 이는 사용자와 AI 간의 상호작용을 더욱 원활하게 만듦.

GPT와 같은 최신 AI는 사용자에게 유용한 답변을 제공하여 긍정적인 경험을 쌓음. 이는 사용자와 AI 간의 상호작용을 더욱 원활하게 만듦.
Fig.2 - GPT와 같은 최신 AI는 사용자에게 유용한 답변을 제공하여 긍정적인 경험을 쌓음. 이는 사용자와 AI 간의 상호작용을 더욱 원활하게 만듦.

어떤 경험을 총체적으로 설계를 할 때는 그 경험 안에 있는 디테일들이 있지 않습니까? 그래서 그런 디테일들을 같이 구상을 해야 되기 때문에 많은 분들이 UI와 UX를 같이 얘기하고, 그것도 개념적으로 뗄 수 없는 관계입니다. 이제 GUI에 대해 말씀 주셨는데, GUI 얘기 예시로 많이 드는 게 이제 윈도우즈죠. DOS 환경에서는 다 이렇게 명령어로 입력을 해서 컴퓨터를 구동하고, 게임도 구동하고 그랬던 것 같은데, 이제 인터페이스가 아이콘.... 그래픽으로 바뀌면서 사용자 경험도 입력하는 것에서 클릭하는 걸로 바뀌었다고 볼 수 있는 건가요? 그렇죠, 정확하게 보셨습니다. 그래서 그런 접점들, 그리고 그 경험 안에서 행해지는 여러 가지 행위들, 이런 것들을 인터랙션이라고 얘기하죠. 그래서 많은 분들이 인터랙션은 또 뭐예요? 고민을 하시는데, 사실 그렇게 쉽게 생각하시면 돼요. 사용자가 어떤 제품이나 서비스, 또는 어떤 것들을 접하는 경험 안에서 인터페이스가 있고요. 그리고 인터페이스를 구현하기 위한 어떤 인터랙션이 있습니다. 그래서 그런 개념들이 잘 정리되면 사람들이 이해하기가 훨씬 쉬운 것 같습니다.. 그러면 저는 궁금한 게, 옛날에 도스에서는 명령어를 입력해서 했듯이, 지금 저희가 LM을 사용할 때 프롬프트를 입력하잖아요. 물론 사진을 찍어서 입력하기도 하지만, 결국 현재 상태로는 최선의 결과물을 내기 위해서는 이렇게 텍스트를 굉장히 상세하게 입력해야 하는데, 그것도 새로운 UI 관점에서 또 새로운 게 나올 수 있는 건가요? 그럼요. 텍스트 프론트가 AI 인터랙션에 지금 많이 성공한 이유는 사람들이 그만큼 익숙한 인터랙션 때문이에요. 우리가 이제 컴퓨터를 사용한 지 30년이 넘었잖아요. 그러니까 모든 사람들이 컴퓨터는 타이핑을 하고 뭔가 텍스트로 인터랙션을 한다는 것은 이제 굉장히 기본 상식이 된 상태에서 AI 인터랙션을 채팅으로 하는 것이 수월하게 진행이 됐기 때문에, 그게 사람들에게 성공적으로 인터랙션이 된 것 같아요.. 사실 음성으로도 먼저 나왔었잖아요, AI. 그렇지만 그것보다도 텍스트가 더 사람들에게 성과가 좋던 거죠.

음성 스피커가 처음 나왔을 때는 사람들이 거부 반응이 있었잖아요. 그리고 또 구현이 잘 안 되는 기술적인 문제도 있었지만, 어떤 시기적인 것도 있고 사람들이 수용하는 단계가 있는 것 같습니다. 새로운 UI가 나온다고 해서 무조건 경험이 좋아지는 것은 아닐 수도 있는 거고요.. 구글에 계셨을 때는 어떤 프로덕트를 하셨던 거예요? 저는 모바일 팀에 있었습니다.

2.3. AI 에이전트의 성공 여부는 기술의 시기와 인터랙션 방식에 크게 의존함. 명확한 태스크가 필요하며, 사용자와의 상호작용이 중요함.

AI 에이전트의 성공 여부는 기술의 시기와 인터랙션 방식에 크게 의존함. 명확한 태스크가 필요하며, 사용자와의 상호작용이 중요함.
Fig.3 - AI 에이전트의 성공 여부는 기술의 시기와 인터랙션 방식에 크게 의존함. 명확한 태스크가 필요하며, 사용자와의 상호작용이 중요함.

그때가 이제 중반이었고, 안드로이드가 아직 나오기 전이었어요. 그래서 모바일 웹 기반이고 그 웹 기반을 모바일에서 구동하는 그런 팀이었고, 그때 어떻게 보면 소셜 인터랙션, 그다음에 새로운 테크놀로지를 사람들이 수용할 수 있게 해줘야 하는 역할들이 굉장히 중요한 시기였거든요. 소셜 인터랙션, 즉 SNS가 굉장히 붐이 일어나기 시작한 시대였고, 또 데이터를 가지고 어떻게 쓸 것인가에 대한 데이터 아날리틱 부분이 디자인에 어떻게 접점이 되나 이런 것들도 많이 거론이 됐었고요. 그래서 그때 리서치를 하면서 사람들이 굉장히 받아들이기 힘든 부분들이 지금은 너무 상용화가 돼서 잘 쓰고 있는 것도 보면 굉장히 반갑기도 하고, 이게 시간이 거의 20년이 흘렀는데 그렇게 오래 걸리는구나 하는 것을 체감하고 있습니다.. 그런데 AI도 지금 같은 상황인 것 같아요. 사람들에게 테스트를 하면 거의 진짜 많이 거부 반응을 일으키시고, 또 어떤 부분에서는 수용을 굉장히 잘 하시기도 하고, 그래서 놀라운 부분들이 양날의 검처럼 존재합니다. 그런데 그때랑 좀 비슷한 것 같아요. 그러면 AI 관련해서 이런 테스트나 실험을 하셨을 때, 지금 단계에서 사람들이 거부 반응을 많이 보이는 것은 뭔가요? 요즘 좀 포커스를 하고 있는 부분은 AI 이전에는 사람이 주체적으로 뭔가를 명령을 내리고 주체적으로 행위를 하기 때문에 그 인터랙션에 있어서는 어떤 정확하게 정해진 시나리오나 로직이 있거든요. 그런데 지금은 AI가 많은 것들을 해 줄 수 있는 기술적인 베이스가 되고 있고, 아직 실화는 많이 안 되고 있지만, AI는 어떻게 보면 행위를 주체적으로 해 줄 수 있는 존재인 거예요. 지식체계인 거죠. 그렇기 때문에 사람들이 어떤 것을 넣었을 때 어떻게 나올지에 대한 예측이 하기가 어려운 지식 체계인 거죠.. 그래서 사람들이 전반적으로 그런 것들에 대한 두려움이 있는 것 같습니다.

2.4. AI의 발전으로 사용자들은 AI의 예측 불가능성에 두려움을 느끼고, 기대치가 변동함. AI가 너무 잘해주면 오히려 거부 반응이 나타나기도 함. 이러한 불확실성은 사용자 경험에 부정적인 영향을 미칠 수 있음.

AI의 발전으로 사용자들은 AI의 예측 불가능성에 두려움을 느끼고, 기대치가 변동함. AI가 너무 잘해주면 오히려 거부 반응이 나타나기도 함. 이러한 불확실성은 사용자 경험에 부정적인 영향을 미칠 수 있음.
Fig.4 - AI의 발전으로 사용자들은 AI의 예측 불가능성에 두려움을 느끼고, 기대치가 변동함. AI가 너무 잘해주면 오히려 거부 반응이 나타나기도 함. 이러한 불확실성은 사용자 경험에 부정적인 영향을 미칠 수 있음.

내가 뭔가를 물어봤는데 너무 나를 잘 알고 있으면 놀라는 거예요. 그리고 내가 뭔가를 명령을 줬는데 그 명령에 대해서 내가 원하는 대로 안 나오면 또 조급해지는 거죠. 의외로 기대치가 높아서 그런 면이 있고, 또 오히려 내가 생각했던 것보다 너무 기대치 이상으로 해주는 경우도 있죠. 이게 없는 거예요. 그 기대치에 대한 어떤 기준이 없는 거죠. 그래서 그게 되게 재밌기도 하고, 그래서 그런 영역에 있어서 다양한 사용자들과 실험이 필요하구나 하는 것을 많이 느끼고 있습니다. 그래서 어디서나 참 예측이 어렵다는 것, 불확실성이 있다는 것은 누구나 싫어하는 것 같습니다. 인공지능도 너무 잘해줘도 또 당황하더라고요. 사람들이 너무 잘 뭔가 해주면 거부 반응이 딱 오더라고요.. 들을 다 알고 있으면서 거부하는 바둑이 오고, 그다음에 내가 기대한 것보다 못 나오면 '이거, 얘 좀 별로네' 이러면서 기대치가 참 왔다 갔다 하는 것 같아요. 제가 최근에 감명 깊게 읽은 책은 유발 하라리 목사님의 '넥서스'라는 책인데요. 거기서 그분이 이렇게 얘기하세요. 정보 혁명이 지금까지 있었던 인쇄 정보 혁명이나 컴퓨터의 정보 혁명보다 AI가 있는 완전히 다른 정보 혁명이라고 말씀하십니다. 왜냐하면 인쇄나 컴퓨터 같은 경우는 사람이 주관적으로 컨트롤할 수 있는 영역인데, AI는 본인 스스로 행동을 취할 수 있는 지식 체계이기 때문이라고 하셨습니다. 저도 그 말에 동감합니다. 그래서 디자인을 할 때나 뭔가를 설계할 때, 보수적인 관점에서 접근해야 한다는 생각도 들고 있습니다..

교수님이 주로 하시는 작업의 관점에서 봤을 때, AI 에이전트를 디자인하는 관점에서는 어떤 식으로 접근하십니까? AI 에이전트는 참 재미있는 개념인 것 같아요. 어떻게 보면 에이전트라는 단어의 의미부터 생각해 봐야겠다고 생각하는데요. 단어 자체의 개념은 수행원, 비서, 혹은 대리인, 중개인 같은 역할을 가지고 있습니다. 이런 에이전트 개념이 이미 오래전부터 고착되어 왔기 때문에 현재는 그런 개념으로 많이 접근하고 있습니다. 예를 들어, 음성 비서나 자율주행에 들어가는 비서 같은 AI, 그리고 게임에서의 NPC 같은 것들은 자기를 가이드해 주는 수행해 주는 역할이잖아요. 그래서 에이전트라는 개념이 이미 그렇게 고착되어 있는 것 같습니다.. 인터랙션 디자인 관점에서 이걸 접근할 때, 이미지는 굉장히 중요합니다. 새로운 기술이나 제품을 소개할 때, 단어 설정을 굉장히 중요하게 생각합니다. 사람들이 말하면 떠올리는 이미지가 있기 때문에, 앞으로 AI가 여러 가지 기능으로 우리의 삶에 들어갈 때, '에이전트'나 '비서'라는 고착된 이미지가 있으면 그 이후에 갈 수 있는 경험들이 제한될 수 있습니다. 특히 의료나 법 같은 중요한 분야에 AI가 적용될 텐데, 이미지가 고착화되면 AI가 우리 생활에 들어와서 다른 기능으로 경험을 설계할 때 사람들이 그걸 수용하는 게 '다 비서'나 '요원'으로만 한정될 수 있습니다.. 그래서 저는 '에이전트'라는 단어보다는 현재 상태에서는 AI를 '컴패니언', '친구', '동반자' 같은 좀 더 포괄적인 개념으로 접근하는 게 인터랙션 디자인 관점에서는 좋다고 생각하고 있습니다. 말씀하신 대로 이미지가 그렇게 고착되면 새로운 경험을 제한할 수 있기 때문에, 용어를 다시 설정하는 게 필요할 수도 있다고 제안하시는 것 같습니다.

그리고 AI가 더 물리적인 공간에 나오게 되고, 더 많은 사용자들이 사용할 때, 현재 AI 사용자들은 컴퓨터를 잘 다루는 성인들로 국한되어 있잖아요. 하지만 앞으로는 모든 사용자가 포괄되는 인클루시브한 환경이 될 거라고 봅니다. 그러기 때문에 아이, 성인, 신체가 불편한 분이나 노인분들도 다 사용할 텐데, 이 AI 존재가 각 사용자와 다르게 인터랙션을 해야 하고, 그 인터랙션하는 사용자들도 그 개념을 받아들여야 합니다. 그럴 때 너무 고착되면 어렵지 않을까 하는 생각을 하고 있습니다.. AI의 기능적인 측면에서, 역할에 따라서 조금 달라질 수 있다는 말씀인 것 같습니다. 인터랙션 디자인으로 AI를 풀어서 우리 제품으로 만들거나, 우리 삶에서 사용할 수 있게 한 사례들은 과거부터 굉장히 많이 있었잖아요. 어떤 것들이 있었을까요? 에이전트나 도우미 같은 역할들은 굉장히 오래전부터 있었던 것 같습니다. 기억하실지 모르겠지만, 대표적인 예가 90년대에 마이크로소프트에서 나온 클리피입니다. 혹시 기억나시나요? 토이스토리 나오는 캐릭터처럼 생긴 그 클립이었죠. 클립이라는 게 있었는데, 어떻게 보면 최초의 벌투 에이전트라는 존재가 마이크로소프트 제품에 나와서 뭔가를 도와주고 대신해 주는 개념으로 설계된 거예요. 그런데 그게 실패했습니다. 사실 이게 최초의 추얼 에이전트였는데, 사람들이 굉장히 외면했습니다.

어떤 면에서는 싫어하기도 했죠. '어노잉'하다고 생각했을 것 같습니다.. 예, 그리고 또 오히려 내가 일하는 것을 도와주는 게 아니라 방해를 하기 때문에 들어가자마자 꺼야 되는 태스크가 하나 늘었다고 지적을 많이 했고요. 그래서 2001년에는 XP 버전에서 일부가 빠졌고, 그다음에 2007년에는 클리피를 아예 없애버렸죠. 많은 사람들이 '드디어 없어졌구나' 하면서 좋아했죠. 그래서 굉장히 사람들한테 호응을 받지 못한 슬픈 에이전트였는데요, 시기적인 게 되게 중요한 것 같아요. 2011년에 애플이 발표한 음성 비서 시리가 있지 않습니까? 어떻게 보면 굉장히 빨리 나온 거죠. 음성 비서로서 스티브 잡스가 공을 들여서 시리의 엔지니어 팀을 섭외해서 애플로 데려왔는데, 안타깝게도 그것도 시기적으로 모바일폰에 나와서 대답을 하니까 좀 그랬죠. 그래서 시리는 오랜 시간 존재했지만, 아직까지 있긴 하지만 사람들한테 금방 외면을 받았던 제품이었습니다. 그다음에 2014년에 아마존의 알렉사 같은 경우는 어떤 면에서는 성공적인 사례인 것 같아요. 우리나라에서는 아니지만, 미국 내에서는 판매가 굉장히 많았고요. 단기간에 새로운 카테고리를 확립시킨 좋은 예인 것 같아요.

사실 아마존이 그 전에 이미 많은 데이터를 쌓아왔고, 그 데이터를 기반으로 알렉사가 쇼핑이나 이런 경험들을 도와줄 수 있다고 프로모션을 했는데, 사실 알렉사로 쇼핑을 많이 한 것 같지는 않고 대화에서 사람들이 좀 호응이 있었던 것 같아요. 스피커라는 거 자체가 가정 안에 있잖아요. 그러니까 거부 반응이 덜했던 것 같아요. 사람들이 스피커라는 것은 당연히 집의 일부분으로 자리 잡고 있었기 때문에 그 안에 음성으로 어시스턴트를 하는 게 오히려 자연스러웠던 거죠. 그런데 시리 같은 경우는 내 폰에서 갑자기 얘가 말을 하니까 굉장히 프라이버시를 침범당하는 것 같고, 뭔가 불편하고 얘가 나를 관여하는 것 같아서 반응이 많았던 것 같습니다. 오히려 어떤 폼팩터와 정황적으로 그게 맞느냐, 안 맞느냐가 AI 에이전트에 굉장히 중요한 것 같습니다. 우리나라에서도 시리 팀, 그 엔지니어 팀이 애플에서 나간 후에 그 팀이 빅스비 팀으로 흡수된 거거든요. 그래서 의미가 있긴 한데, 우리나라의 빅스비도 사실 사람들한테 그렇게 호응을 받지 못했잖아요. 그래서 이게 어떻게 보면 테크놀로지가 시기 상조가 있는 것 같기도 하고, 아니면 인터랙션하는 방식에서 폼팩터가 맞지 않는 게 아닌가라는 생각도 들기도 합니다. 그러면 시기 상조라고 하면, 뭐가 조금 해결이 되면 활용이 많이 될까요? 어떤 에이전트나 도움을 주는 존재가 저와 항상 있는 거잖아요. 모바일폰에 제가 시리를 갖고 있으면, 그런데 뭘 해 줄 수 있고 내가 뭘 얘와 인터랙션해서 도움을 받을 수 있을지가 명확해야 하거든요. 그런 태스크가 명확하지 않으면 기술은 사실 필요 없는 거죠.

그래서 타임스라고 하는데요, 첫 번째 경험에서 내가 이걸 써서 도움이 안 된다고 판명이 나버리면, 사람들은 두 번째 쓰는 것은 더 어려운 것 같습니다. 시리가 좀 그런 경우인 것 같아요. 처음 썼을 때 별다른 기능이 없었고, 그다음에 사람들한테 명확한 답을 주거나 도움을 주는 역할을 못 했기 때문에 사람들이 처음 그 퍼스트 타임 유저 익스피리언스를 겪는 시기를 짧게 끝내고 다 외면하게 된 것 같습니다. 그러니까 이게 한 번 이미지를 망치고 나니 아무리 물을 타도 한 번 구차해지니까 결국에는 꺼놓고 안 쓰거나 잠깐 켜봤다가 '뭐 그대로네' 이러고 꺼버리기 쉽지 않은 것 같습니다. 그래서 인터랙션 디자인, 경험 디자인 설계가 아름다운 퍼스트 타임 유저 익스피리언스를 실패했다면, 이제 빨리 다른 걸로 넘어가자 하는 경우들도 굉장히 많죠. 그럼 그 퍼스트 타임 유저 익스피리언스, 즉 FTU가 AI의 성능과 크게 관련이 없을까요? 제가 시기 상조라고 얘기했던 이유가 어쨌든 시리가 나한테 뭘 해 줄 수 있을까 했을 때 답을 빨리 못 해주고 엉뚱한 소리하고, 내가 한 얘기에 대해서 동문서답하니까 이게 '아, 쓸모가 없구나'라고 판단하게 된 거잖아요. 그런데 사실 지금 GPT 같은 경우에는 내가 채팅을 쳤을 때 굉장히 좋은 답변들을 많이 내놓잖아요. 그게 한 번 좋은 답변을 내니까 또 다른 시도를 해보고, 그게 계속 맞물려서 경험이 쌓이면 채팅 GPT도 똑똑해지는 거고, 나도 얘와 인터랙션하는 게 익숙해질 텐데, 시리는 그런 게 없었던 것 같습니다.. 줄 줄 여지가 없었던 거죠. 또 이게 음성 인식이라 더 안 좋을 수 있는, 혹은 평가가 좀 박했다, 이렇게도 볼 수가 있나요? 이렇게 좀 사람들의 거부 반응이 오히려 음성 인식에서 더 높다, 그런 것도 있는 것 같아요. 어쨌든 제가 누군가와 통화를 하거나 누군가와 예민하게 대화해야 되잖아요. 컨버세이션이라는 것은 내가 뭔가 채팅을 하거나 아니면 카톡을 하거나 하는 것은 약간의 텀이 있어도 그게 용인이 되거든요.

뭔가 쓰고 있겠거니, 약간 생각을 해요. '나중에 보겠지'라고 하고, 아니면 내가 조금 늦게 답을 해도 기다리잖아요. 근데 음성은 다른 것 같아요. 우리가 사람과 굉장히 밀접한 어떤 인터랙션을 만들어낸 거기 때문에 그 기대치가 사람이랑 똑같은 거죠. 내가 음성으로 뭔가 속도로, 그다음에 사람과 똑같은 어떤 방법으로 이게 돼야 된다는 기대가 이미 있기 때문에, 그래서 그게 조금만 틀어져도 직관적으로 그냥 '아, 그렇게 돼버리는 것 같죠. 늦네' 한 정말 0.5000초라도 '아, 늦네' 막 이렇게 딱 돼버리는 거죠. 근데 채팅할 때 상대방이 한 1초, 2초 있어도 '뭐 그런가 보다' 그 용인이 되잖아요. GPT 같은 경우에도, 혹은 뭐 재미나이나 뭐든 하여튼 입력했을 때 뭐가 좀 천천히 나와도 크게 답답하진 않거든요. 그냥 '아, 뭐 쓰고 있겠구나' 이렇게 생각이 드는데, 음성 같은 경우에는 말없이 조용히 있으면 이게 되는 건가라는 생각을 하게 되죠. 맞아요, 그 리스폰스에 대한 기대치가 굉장히 짧은 것 같아요. 음성 같은 경우, 그래서 어려운 분야인 것 같고, 그리고 그게 아직 기술이 발전하지 않았을 때 사람들에게 소개가 돼버리니까 사람들이 그거에 대한 인식이 이미 나빠져 있었던 거죠. 예, 굉장히 예민한 기술이네요.

이 음성 기술이라는 것은 사람과 밀접하게, 어떻게 보면 사람을 흉내 내는 어떤 기술일수록, 수용할 수 있는 인내심이 굉장히 짧은 것 같아요. 그래서 로보틱스 사람들이 그 분야에서 굉장히 어려운 것 같아요. 사람과 굉장히 비슷한 어떤 존재로 인식이 되어 있기 때문에 내가 뭔가를 했는데 얘가 반응이 사랑 같지 않으면 굉장히 나쁘게 생각이 되는 거고, 또 너무 사랑 같아도 나쁘게 생각이 되는 거고, 휴머노이드가 그래서 아직까지도 좀 그런 것 같아요. 음성이라는 게 우리가 이제 비언어적인 게 같이 동시에 가잖아요. 제가 기자님과 이렇게 대화를 할 때도, 생각하고 있으시면 '생각하시나 보다' 이러고 그렇잖아요. 그리고 이제 뭔가 제스처도 하고 점점점 하고 있어도 기다려 주시는데, 그거는 피드백이 안 되는 거죠. 비언어적인 어떤 제스처나 피드백 타임이 없기 때문에 답답하고, 그리고 그거에 대한 어떤 수용이 안 되는 거죠. 사람의 소통 기술 중에서 가장 예민한 게 이렇게 대화하는 것 같아요. 예, 비언어적인 어떤 것이 같이 들어가기 때문에. 그럼에도 음성은 지금까지도 계속 도전들을 하잖아요. 사실 왜 그럴까요? 그러면 가장 예민한 영역이고 가장 어려운 부분임에도 불구하고 음성을 계속 도전할 수밖에 없는 이유가 또 있을까요? 저도 그 고민을 되게 많이 하고 있거든요. 그래도 음성을 해야 된다고 생각도 하고요.

근데 지금 저희가 생각하는 UI, 기계에 어쨌든 우리가 작동하는 방식이 필요해요. 지금은 설명서가 많이 없어지고 굉장히 직관적으로 많이 변했지만, 그래도 뭔가 하는 방법들을 배우는 러닝 커브가 있거든요. 그래서 내가 컴퓨터를 지금 저희는 모두 되게 자연스럽게 타이핑을 하잖아요. 근데 한 몇십 년 전만 해도 이것도 학원 가서 배웠어요. 타이핑하는 거, 연습도 하고 타이핑하는 그런 게임도 있었고, 그런데 그게 러닝 커브가 있어요. 그리고 사실 이런 터치도 처음에 나왔을 때는 바로바로 이렇게 쓰긴 했지만, 연령이 있으신 분들은 '왜 안 되냐' 하고 몇 번씩 누르시고 그러셨거든요. 지금도 많이 그러시고. 그러니까 다양한 사용자가 새로운 기술을 접할 때는 그 다양한 사용자를 고려해서 설계를 하고 디자인을 해야 되는데, 음성 같은 경우는 어떤 특별한 방법이 필요한 게 아니잖아요. 그냥 정말 누구나 말할 수 있는 사람이면 아이도, 어른도, 노인도 다 할 수 있는 어떤 영역이기 때문에, 그래서 저는 굉장히 내추럴한 인터랙션 인터페이스라고 생각해요. 그래서 그거를 저도 아직도 포기 못하고 연구를 하고 있는데, 굉장히 매력적이지만 그만큼 어려운 분야인 것 같습니다. 너무 어려운 부분인 것 같아요. 특히 이게 음성은 개인적인 경험으로 불러야 되잖아요.

호출하는 그런 키워드가 있어야 되고, 그런 거를 밖에서 얘기하기도 참 맞아요. 예, 뭐 좀 부끄럽다고 할까요? 기술이 고도로 발전하면 호출하는 그런 멘트가 없어도 알아서 반응하고 그런 게 있을까요? 아, 그게 되게 중요한 것 같아요. 지금은 음성은 뭔가 일방적이어서 내가 뭔가를 시작해야 그쪽.... ['에서도 반응을 하지만 조금 더 멀리 가고 이제 그 음성 인식이나 AI를 처리하는 것들이 더 빨라지고, 그러면 제 생각에는 뭔가를 이렇게 하려는 의도가 있다면 그 의도를 파악하고 뭔가 반응해 줄 수 있는 수준까지 오지 않을까 싶습니다. 사람 간의 인터랙션이 굉장히 비슷해지는 거죠. 사람 간에는 눈빛만으로도 알아보잖아요. 그리고 그런 것이 이제 가능한 시대가 되어야 하지 않을까 생각합니다. 근데 굉장히 어려운 거죠. 사람과 더 비슷한 형태의 인터랙션이 되고 있기 때문에 그게 가능할 거라고 저는 생각합니다. Ah'].


3. 영상정보


이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

댓글 쓰기

다음 이전