보고서 작성의 끝판왕 '딥리서치'는 어떻게 작동하나? (표철민 AI3 대표)

보고서 작성의 끝판왕 '딥리서치'는 어떻게 작동하나? (표철민 AI3 대표)

1. 보고서 작성의 끝판왕 '딥리서치'는 어떻게 작동하나? (표철민 AI3 대표)

한줄요약: 보고서 작성의 끝판왕 '딥리서치'는 어떻게 작동하나? (표철민 AI3 대표)
*타임라인을 클릭하면 이동/재생됩니다.
시간 요약
02:37 딥리서치의 효과적인 활용은 기업의 정보 수집 및 보고서 작성의 질을 높이는 데 기여함.
05:06 AI는 검색 엔진에서 수집한 정보를 바탕으로 보고서를 작성하는 과정에서, 중요한 문단을 발췌하여 효율성을 높임. 이는 정보의 질을 높이는 데 기여함.
05:38 딥리서치는 AI의 발전과 함께 새로운 벤치마크 테스트를 통해 성능을 평가하고 있으며, 이는 AI의 미래 발전 방향을 제시함.
07:07 딥리서치는 사용자가 입력한 키워드를 기반으로 다양한 검색 엔진에서 정보를 수집하고, 이를 통해 최신 트렌드와 유의 성분에 대한 정보를 제공함. 이는 사용자에게 유용한 자료를 제공하는 데 중점을 둠.
08:06 딥리서치는 여러 출처에서 수집한 정보를 정리하여 중요한 문단을 발췌함. 이를 통해 보고서 작성의 효율성을 높이고, 사용자가 원하는 정보를 빠르게 찾을 수 있도록 돕는 것이 특징임.
19:08 딥리서치는 25개 출처에서 수집한 정보를 바탕으로 중요한 문단을 발췌하여 보고서를 작성함. 이는 정보의 질을 높이는 데 기여함.
22:08 AI의 발전과 함께 새로운 벤치마크 테스트가 개발되고 있으며, 이는 AI의 성능을 평가하는 데 중요한 역할을 함. 특히, 인류의 마지막 시험이라는 테스트 셋이 주목받고 있음.
25:08 딥리서치는 사용자가 최신 정보를 쉽게 파악할 수 있도록 도와주는 도구임. 이를 통해 사용자는 기술주와 관련된 다양한 소식을 정리할 수 있음.
26:38 오픈AI는 경쟁력을 유지하기 위해 급하게 GPT 4.5를 개발한 것으로 보임. 그러나 가격이 비싸서 사용자가 쉽게 접근하기 어려운 상황임.
28:38 EQ가 개선된 GPT 4.5는 감성적인 대화에서 더 나은 성능을 보이나, 여전히 다른 모델에 비해 비용 효율성이 떨어짐. 사용자들은 기존 모델로도 충분히 만족할 수 있다고 생각함.



이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

2. 스크립트

이제 인류의 마지막 시험이라는 그 벤치마크 테스트가 있는데, 전 세계 1천 명 이상의 연구자들, 아주 대단하신 분들, 교수님들 이런 분들이 50억의 검옥 전문가들이 참여하고 있대요. 왜냐하면 이제 기존의 테스트 셋은 다 통과해요. AI가 너무 똑똑해서 더 어려운 문제를 줘야 되는 거죠. 캐릭터 챗봇들이 많이 있잖아요. 그런 서비스들은 대부분 클로드를 쓰고 있어요. 이 클로드가 상대적으로 그동안 GPT보다 조금 더 감성적이다 보니, 지금 너무너무 비싸서 사용을 할 수 없는 수준으로 나왔습니다. 오픈AI와 클로드 소네트의 경쟁에서 리더십을 잃지 않기 위해서 조금 무리를 해서 급하게 된 게 아닌가 싶습니다.. 안녕하십니까? 안녕하세요. 지난번에 나오셨을 때 아주 자세하게 12일 동안의 발표를 정리해 주셔서 저희가 많이 배웠거든요. 그 사이에 이번에도 정말 많은 업데이트가 있었어요. 지난번 오픈AI 데이즈가 12월이었다고 생각해요. 그래서 지금 벌써 3개월이 지났고, 사실 AI 시간으로 3개월이면 거의 1년이죠. 그 사이에 굉장히 많은 변화가 있었던 것 같습니다. 저는 사실 제일 궁금한 것은 지금 제가 한 2주 정도 제일 열심히 쓰고 있는 딥 리서치 기능입니다. 전문가분들도 SNS에서 엄청 많은 말씀을 하셨고, 저희 은혜로 오신 우리 샘 알트만 선생님께서 플러스 사용자에게도 한 달에 10열 번씩 쓸 수 있게 해주셔서 제가 지금 아껴서 쓰고 있거든요. 네, 딥 리서치는 어떻습니까?. 이게 정말 충격적인 변화였고요. 회사에서 주니어들이 제일 많이 하는 일이 정리해서 보고하는 일이기도 해요.

그런데 사실 그런 일들이 대체로 우리가 인간 사고로 해 보면 뻔하잖아요. 구글이나 네이버에 검색해서 상위에 나오는 사이트들에 들어가 일일이 공부를 해서 짜집기를 해서 보고서를 쓰는 과정이죠. 어떻게 보면 그 과정이 우리가 지난 수년간 굉장히 익숙하게 인터넷에서 해온 일이지만, 만약에 그걸 대신해 줄 수 있는 게 있다면 충분히 비슷하게 할 수 있거든요.. AI는 정말 시간도 오래 걸리고, 많이 눌러봐서 검색을 해 다양한 검색어를 넣은 다음에 많은 사이트에 들어가 본 다음에 읽어보고, 빨리빨리 아닌 것들은 걸러내고, 괜찮은 글들은 내가 열심히 갈무리를 해 놓고 나중에 그걸 정리해서 보고서 형태로 만들고, 이 과정이 며칠 걸리잖아요. 그렇죠? 그러니까 이게 사람이 하는 거랑 비슷한데, 그 정도면 사실 AI가 충분히 할 수 있는 거죠. 다만 이제 좀 어려운 부분은 우리 회사만 접근할 수 있는 데이터나 유료 데이터를 사와서 보고서를 쓰는 경우에는 아무래도 회사에서 특별히 더 양질의 보고서가 나오겠지만, 일반적인 형태에서는 사람이 접근 가능한 정보라면 AI가 충분히 가능하기 때문에 보고서 정도는 대신 써줄 수 있지 않을까 싶습니다.. 작년 대비 어쨌든 LM 모델도 좋아지고, 추론 능력도 생기고, 데이터에 대한 액세스도 지난 2년간 발전했죠. 그런 RAG를 위해서 사이트에 들어가서 긁어다가 AI가 읽기 쉽게 만들어주는 것들이 급속히 좋아지고 있잖아요. 그러니까 그런 1년의 기술 발전들이 집약적으로 모인 결과가 지금 일단 나오고 있는 1년의 딥 리서치 소위 기능인 것 같습니다.. 딥 리서치의 현재 상태는 내비게이션이 처음 나왔을 때와 비슷해요. 그 당시 택시 운전을 하신 분들은 여전히 길에 대해 너무 잘 알고 계셨고, 어떤 시간에 어떤 길이 막히는지 빅 데이터보다 훨씬 더 잘 알고 계셨기 때문에 경험적으로 그분들이 초반에는 내비게이션보다 빨랐어요. 그런데 일반 분들은 내비게이션을 쓰는 게 훨씬 빨랐죠.

2.1. 딥리서치의 효과적인 활용은 기업의 정보 수집 및 보고서 작성의 질을 높이는 데 기여함.

딥리서치의 효과적인 활용은 기업의 정보 수집 및 보고서 작성의 질을 높이는 데 기여함.
Fig.1 - 딥리서치의 효과적인 활용은 기업의 정보 수집 및 보고서 작성의 질을 높이는 데 기여함.

지금은 사실 택시 오래 하신 분들도 내비게이션을 쓰는 게 더 빠르잖아요. 지금 딱 그 딥 리서치는 초반 내비게이션 정도 안 해본 사람이 하는 것보다 괜찮은데, 또 정말 전문적으로 분석하시는 분들이 하기에는 살짝 부족한 정도까지 올라온 것 같습니다. 그래서 아직은 지금 딱 기자님 말씀하신 그 정도인 것 같아요.. 어쨌든 이런 기술 발전에 주목해야 하는 것은 지금 2025년 2월, 3월에 이런 것들이 나오기 시작했으니까, 내년 내후년에는 훨씬 더 어떻게 보면 지금 주니어 수준이 아니라 시니어 수준에 또는 그 이상의 사람보다 잘 쓰는 보고서가 사실 나올 수 있는 여지가 이제 시작되고 있는 것 같습니다. 화면을 보시면서 말씀드리면, 일단 퍼플렉시티 그 딥 리서치는 정말 호평을 받았어요. 제가 지금 간단하게 검색을 해본 건데, '한날 시장에 케이푸드 진출 전략' 이렇게 입력을 했더니 17가지 소스를 찾아서 이렇게 답변을 써온 거죠. 그래서 한날 시장의 현황과 성장 잠재력, 나름에 제목도 달고 케이푸드 한날 시장 진출 현황, 전략 이렇게 쭉쭉 내려오는데, 그래서 이걸 가지고 사람들이…. 게 편리하다고 이제 느꼈죠. 그러고 나서 얼마 안 있다가 최근에 오픈AI의 딥 리서치가 나왔는데, 2월 2일에 발표되었습니다. 이 딥 리서치 기능이 좋아지려면 두 가지가 필요한 것 같아요. 첫째, AI 모델 자체의 지능이 뛰어나야 하고, 둘째, 출처를 잘 검색해 오는 검색 엔진의 능력도 중요합니다. 이 두 가지가 모두 발전할 때 비로소 보고서가 잘 써질 수 있죠.. 보고서를 우리가 쓴다고 하면, 일단 자료를 검색한 다음에 '케이푸드가 어떻게 진출할지'에 대한 자료를 잘 찾아야 합니다. 첫 번째로 자료 검색을 잘해야 하고, 그 다음에 모아온 자료를 가지고 보고서를 잘 써야 하는 능력이 필요합니다. 이 두 가지 능력이 모두 좋아져야 하는데, 오픈AI가 내놓은 딥 리서치는 특히 두 번째 능력이 뛰어납니다.. 하지만 오픈AI는 O3 모델을 아직 공개하지 않고 있습니다. 아시다시피, 우리가 지난 12월에 논의할 때 53 모델을 개발하고 있다고 발표했고, 51 모델 대비 압도적으로 좋은 성능을 낸다고 이야기했지만, 현재 3월 기준으로 아직 나오지 않았습니다. 지금은 외부에 공개되지 않아 ChatGPT를 이용할 수 없지만, 딥 리서치 기능에 한해서는 앞서 자료 조사가 된 것을 가지고 O3 모델을 이용해 보고서를 작성하게 할 수 있습니다.

2.2. AI는 검색 엔진에서 수집한 정보를 바탕으로 보고서를 작성하는 과정에서, 중요한 문단을 발췌하여 효율성을 높임. 이는 정보의 질을 높이는 데 기여함.

AI는 검색 엔진에서 수집한 정보를 바탕으로 보고서를 작성하는 과정에서, 중요한 문단을 발췌하여 효율성을 높임. 이는 정보의 질을 높이는 데 기여함.
Fig.2 - AI는 검색 엔진에서 수집한 정보를 바탕으로 보고서를 작성하는 과정에서, 중요한 문단을 발췌하여 효율성을 높임. 이는 정보의 질을 높이는 데 기여함.

그러면 당연히 시장에 나와 있는 다른 딥 리서치보다 더 잘 쓸 수 있겠죠.. 그래서 첫 번째와 두 번째, 즉 자료 조사는 아무나 다 잘한다고 치고, 두 번째 능력이 압도적으로 강하기 때문에 오픈AI 딥 리서치의 퀄리티가 높을 수밖에 없습니다. 실제로 지금 누구나 가서 보실 수 있는데, 딥 리서치 기능을 소개하면서 오픈AI 사이트에서 자세하게 이야기를 해놓았습니다. GPT-4.5는 이렇게 질문을 자세하게 던져도 기본적으로 알고 있는 지식을 바탕으로 대답을 하죠. 그동안 그랬잖아요. 나름대로 잘합니다..

2.3. 딥리서치는 AI의 발전과 함께 새로운 벤치마크 테스트를 통해 성능을 평가하고 있으며, 이는 AI의 미래 발전 방향을 제시함.

딥리서치는 AI의 발전과 함께 새로운 벤치마크 테스트를 통해 성능을 평가하고 있으며, 이는 AI의 미래 발전 방향을 제시함.
Fig.3 - 딥리서치는 AI의 발전과 함께 새로운 벤치마크 테스트를 통해 성능을 평가하고 있으며, 이는 AI의 미래 발전 방향을 제시함.

여기서 딥 리서치는 훨씬 더 양이 많고 대답의 양도 많습니다. 그리고 최신 인터넷 검색을 통해 자료 조사를 왕창 해온 다음에 O3 모델을 이용해 답을 내기 때문에 훨씬 더 신뢰할 만합니다. 하지만 검색을 할 때는 깊은 정보를 잘 찾아오지 못하고 표피적으로 검색하기 때문에 틀린 정보를 갖고 와서 틀린 대답을 하는 경우가 정말 많았습니다. 그러나 딥 리서치는 확실히 검색 자체에서 머리를 많이 쓰고 어떤 출처를 가져올지 고민을 많이 하기 때문에 정확성이 타의 추종을 불허합니다.. 저희는 지금 이런 AI 큰 형님들이 만들어 놓은 양질의 API를 가져다가 사용하는 회사로서, 한국의 기업이나 직장인들을 대상으로 회사에서 쓰기 좋은 AI 비서 제품을 만들고 있습니다. 그러다 보니 저희도 한국형 딥 리서치를 만들고 있습니다. 기자님이 말씀하신 그런 고민이 저희도 있습니다. 지금 ChatGPT에 들어가서도 실시간 검색이 있었잖아요. 그거는 속도에 최적화되어 있습니다. 검색하면 금방 결과가 나오죠.. 하지만 이런 딥 리서치 제품을 만들 때는 사실 속도보다는 우리가 보고서를 기대하면서 10초 만에 결과가 나오기를 원하지 않잖아요. 차라리 양질의 보고서를 써주길 바라죠. 그래서 똑같은 검색을 하더라도 기자님 말씀처럼 오히려 더 잘 긁어오고 더 잘 요약해서, 뒷단의 보고서를 더 잘 써줄 수 있는 앞단의 자료 조사를 잘해주는 쪽으로 최적화하는 것이 좋습니다. 이 딥 리서치는 검색해 보면 최소 5분 정도 걸린다고 나와요. 저는 10분에서 최대 30분까지 걸린다고 생각합니다. 그렇게까지 하면서도 보통은 입력어를 넣고 나서 컵라면 하나 드시고 오셔도 됩니다. 제가 지금 똑같은 질문인 '케이푸드의 시장 진출 가능성'을 ChatGPT에 물어봤더니 7분이 걸렸습니다. 그러니까 이 정도 시간이 필요한데, 여기서 똑같이 검색을 하는 것은 다른 목적으로 하니까 조금 더 열심히 찾고 더 많이 찾습니다.

2.4. 딥리서치는 사용자가 입력한 키워드를 기반으로 다양한 검색 엔진에서 정보를 수집하고, 이를 통해 최신 트렌드와 유의 성분에 대한 정보를 제공함. 이는 사용자에게 유용한 자료를 제공하는 데 중점을 둠.

딥리서치는 사용자가 입력한 키워드를 기반으로 다양한 검색 엔진에서 정보를 수집하고, 이를 통해 최신 트렌드와 유의 성분에 대한 정보를 제공함. 이는 사용자에게 유용한 자료를 제공하는 데 중점을 둠.
Fig.4 - 딥리서치는 사용자가 입력한 키워드를 기반으로 다양한 검색 엔진에서 정보를 수집하고, 이를 통해 최신 트렌드와 유의 성분에 대한 정보를 제공함. 이는 사용자에게 유용한 자료를 제공하는 데 중점을 둠.

그리고 가중치가 중요할 것입니다.. 모든 사이트의 정보가 다 중요한 것이 아니잖아요. 초등학생이 쓴 블로그에 있는 경제 정보와 진짜 연구소에 계시는 연구원이 쓴 정보는 같지 않을 것입니다. 연구원이나 국책 기관의 자료가 더 중요할 것이고, 그런 가중치도 들어가야 합니다. 그다음에 시의성도 중요하고, 기왕이면 최신 정보가 중요합니다. 최신 정보가 아니면 숫자도 달라지기 때문에, 특히 보고서에서는 옛날 정보는 별로 필요하지 않습니다.

2.5. 딥리서치는 여러 출처에서 수집한 정보를 정리하여 중요한 문단을 발췌함. 이를 통해 보고서 작성의 효율성을 높이고, 사용자가 원하는 정보를 빠르게 찾을 수 있도록 돕는 것이 특징임.

딥리서치는 여러 출처에서 수집한 정보를 정리하여 중요한 문단을 발췌함. 이를 통해 보고서 작성의 효율성을 높이고, 사용자가 원하는 정보를 빠르게 찾을 수 있도록 돕는 것이 특징임.
Fig.5 - 딥리서치는 여러 출처에서 수집한 정보를 정리하여 중요한 문단을 발췌함. 이를 통해 보고서 작성의 효율성을 높이고, 사용자가 원하는 정보를 빠르게 찾을 수 있도록 돕는 것이 특징임.

그런 것들에 따라서 전반적으로 검색 양상이 달라지는 것이고, 가중치를 어떻게 주느냐가 중요합니다. 그래서 그런 것들이 반영되어 있는 것입니다.. 딥 리서치는 현재 한글로 '심층 리서치'라고 불리고 있습니다. 채집 비티는 그 다음에 구글도 비슷한 기능을 내놓았고, 빅테크 중에서는 구글이 제일 먼저 출시했습니다. 퍼플렉시티도 나왔고, 클로드는 여러 기능을 혼합한 형태로 나왔습니다. 지금 많은 제품들이 출시되고 있는 것 같습니다. 구글 딥 리서치 기능이 작년 12월에 출시된 이후, 물론 베타 버전이지만 많은 충격을 주었던 것 같습니다. 많은 사람들이 재미있게 사용하고 있는데, 이 기능에는 1.5% 딥 리서치가 포함되어 있습니다. 이 제품은 벌써 출시된 지 3개월이 되어 어떻게 보면 구식 제품이 되었지만, 출시 당시에는 충격적이었습니다. 검색 엔진을 가진 구글이 누구보다 잘 알고 있는 정보를 바탕으로 연구 전략까지 세워주고, 사용자에게 '이렇게 정보를 찾을 거야'라고 보여주며 보고서를 만들 수 있게 해주었습니다. 결국 제가 말씀드린 1단계와 2단계가 있습니다. 1단계에서는 자료조사를 하고, 2단계에서는 보고서를 작성하는 것이죠. 그렇군요, 이 기능은 계획을 수정해 줄 수도 있는 것이군요. 지금 웹사이트를 어디 볼 것인지에 대한 보고서에서 '너는 이쪽을 좀 더 중점적으로 봐봐'라고 조언해 줄 수 있는 것입니다. 그래서 이 기능이 처음 나왔을 때 사람들은 '와, 이거 너무 좋다'고 반응했고, 실제로 사용해보니 LM 모델을 돌리는 것보다 훨씬 더 유용해졌다고 합니다. 이로 인해 여러 곳에서 딥 리서치 기능을 만들기 시작했습니다. 그래서 퍼플렉시티가 이 기능을 내놓은 것이죠. 사실 이 기능을 만드는 것은 그렇게 어렵지 않습니다. AI 모델을 만드는 것보다 상대적으로 쉽습니다. 왜냐하면 뒷단에 있는 1번과 2번이 나뉘면, 2번은 어차피 공개된 LM이기 때문입니다. 누구나 API를 통해 LM을 가져다 쓸 수 있고, 오픈 소스도 있습니다. 하지만 1번은 누구나 만들 수 있는 쉬운 것입니다. 우리가 구글을 만들 수는 없지만, 구글 서치 API를 통해 구글 검색 결과를 긁어오는 것은 쉽게 할 수 있습니다. 다 공개되어 있고, 네이버도 검색 API를 공개하고 있습니다.

우리가 긁어올 수 있고, 돈을 내고 사용하는 것입니다. 돈을 많이 쓰면 돈을 내야 하지만 기본적으로 무료입니다. 퍼플렉시티와 같은 큰 회사들이 별도의 계약을 맺었을 수도 있지만, 아무튼 LM이 공개 기술이기 때문에 앞단에서 크롤링하여 검색 엔진의 데이터를 가져오는 것은 사실 누구나 할 수 있습니다. 딥 리서치 기능이 가지고 있는 효용 대비 개발 난이도는 상대적으로 낮아서 퍼플렉시티가 이를 잘 만들어왔습니다. 거기다가 오픈 AI는 오히려 베타적인, 남들이 접근할 수 없는 더 양질의 두뇌를 얹어서 만들어 주었고, 그게 더 좋은 것입니다. 구글의 것보다요. 저는 여기서 궁금한 점이 있습니다. 검색을 하는 것도 사람마다 사실 똑같은 검색 결과를 보고 어떤 것을 읽어야 할지에 대한 감은 다르지 않습니까? 그것도 기술의 연장선상에 있습니다. 그렇죠? 그런 것이 튜닝의 영역인데, 분명히 딥 리서치 기능이 서로 경쟁하다 보면 뒷단 2단계는 범용 기술이니까, 물론 이것도 차별화하고 노력하겠죠. 53 모델이 공개될 것이고, 2단계에서는 거의 다 비슷한 법명 모델을 쓸 테니까 1단계를 튜닝하고 노력할 것입니다. 그리고 검색 엔진도 다 반응할 것이고요. 그러니까 아까 말씀드린 시의성이 어떤 가중치든 중요도든지 또는 크롤링을 조금 더 효율적으로 해서 토큰을 아끼는 방식 등에서 서로 경쟁하게 될 것입니다. 앞으로 이 기능이 점점 발전해 갈 테니까 가중치가 중요한 것이군요. 어떤 것을 읽어야 하는지, 이런 것이 중요하니까 빨리 읽어오는 것도 중요합니다. 그리고 생각보다 저희도 이런 기능을 만들고 있지만, 지금 어려운 점이 있습니다. 언론사 사이트는 들어가면 바로 텍스트가 있어서 긁어오기가 쉽지만, 어떤 사이트들은 약간 프로그램처럼 되어 있는 경우가 있습니다. 예를 들어, 어떤 회사의 홈페이지에 블로그 같은 것이 있으면 좋은 정보가 있지만, 홈페이지에 처음 들어갔을 때는 스크롤을 내릴 때마다 효과가 다르게 나타납니다. 이런 것은 스태틱 사이트냐 동적인 사이트냐의 차이인데, 기술적으로는 대부분의 사이트가 동적입니다.

잘 정리되어 있지 않아서 대부분의 웹사이트에서 데이터를 긁어오는 것이 힘듭니다. 그걸 더 잘하는 집이 보고서의 질을 높이겠죠. 반대로 어떤 기업이나 이런 데서는 우리 정보를 AI가 빨리 가져가서 사람들에게 알려주길 바라면, 그런 동적 홈페이지에서 텍스트가 잘 정리된 사이트로 바꿔 놓는 것도 오히려 전략이 될 수 있겠네요. 그렇죠? 요즘에 그래서 그런 얘기가 많이 나오고 있습니다. 예전 SEO와 AEO에 대한 이야기가 많이 나오고 있죠. 우리가 챗GPT가 사람에 대해 잘 대답하도록 만들려면 유도해야 합니다.. 여기저기 혼재하고 잘 뿌려 놔야 하거든요. 뭐, 위키백과에도 올려놓고, 네이버 검색도 해야 하는데, 네이버 검색은 지금 네이버가 로봇 TXD 허용을 안 해 가지고 못 긁어가죠. 그러니까 네이버 인물 검색에 수많은 한국인이 있지만, ChatGPT에 물어보면 안 나와요. 그 이유는 네이버가 자기 콘텐츠를 못 긁어가도록 해놨기 때문이에요. 그러니까 오히려 전략적으로 한국인이 만약에 LM 자기나 자기 회사에 대해서 물어봤는데 대답이 나오게 하려면, 네이버 블로그에 쓰면 안 되고, 티스토리나 위키피디아, 위키피디아는 올리기가 힘드니까 월드프레스나 그런 외부에 크롤링이 허용된 블로그에 자기 회사 정보를 올리는 게 중요하거든요. 그러니까 그런 식의 전략을 세우는 게 앞으로 필요하겠죠. 그건 크롤링을 해가는 입장이 아니라 크롤링을 당하는 입장에서도 그런 전략을 세워야 하겠죠. 자기 정보를 AI가 잘 공부하게 하려면, 작년에 저희가 오프라인 컨퍼런스를 할 때도 다루긴 했었는데, 상황이 잘 안 그려졌었어요. 딥 리서치가 나오니까 확 와닿네요. 이게 보고서에 내가 들어가느냐, 안 들어가느냐, 우리 회사가 노출되느냐에 중요한 거잖아요. 많은 회사들의 보고서에서 예를 들어서 AI 서비스를 만드는 데 중에서 좋은 세 군데만 꼽아 달라고 하는데, AI에 대한 정보가 아예 없어요. 안 뿌려져 있으면 안 만들어 줄 거잖아요.

그런데 계속적으로 그거 포함이 되고, LM 테 보고서 써 달라고 하는 사람들에게 계속 노출이 되려면, 걔가 잘 긁어가도록 또 만들어놔야 되는 거군요. 그런데 딥 리서치 그러면 서비스 하시는 것 중에서도 비슷한 게 있어요. 3월 중으로 나오는데, 아직은 만들고 있는 거라서 한국형 딥 리서치 기능이고요. 2025년 친환경 화장품 성분 최신 트렌드에 대해서 저희도 자료 조사를 싹 해요. 여기서 중요한 건 가중치나 이런 것들이죠. 그래서 사실 여기는 처음에 저희 프로토타입 만들 때 속도가 굉장히 빨랐어요. 한 30초 안에 끝나거든요. 그런데 그렇게 하니까 퍼플렉시티, 오픈AI 것보다 현저히 떨어지는 거예요. 그래서 이제는 그냥 바꿔서, 어차피 이거 쓰는데 사람들이 충분히 기다릴 수 있잖아요. 굳이 여기 와서 보고서를 쓰겠다고 하면, 오히려 5분 안에 끝나는 게 중요한 게 아니라, 30분 있다 와도 잘 나오는 게 중요하니까, 시간을 엄청 길게 해놨어요. 저희는 그 대신에 자료 조사를 되게 많이 해요. 지금 뭐 여기 15% 있고, 한참 걸리는데, 구글 검색도 해오고, 네이버 검색도 해오고, 퍼플렉시티도 가져와요. 퍼플렉시티 API가 다 공개해놔서 저희도 쓸 수 있거든요. 지금 이런 식으로 가져왔죠. 2025년 친환경 화장품 성분에 대해서 저희가 검색 키워드를 보면, 지금 사용자는 하나만 입력했을 뿐인데, 요건 이제 요런 사이트를 크롤링했다는 얘기고, 보시면 이제 뭐 뉴스도 갖고, 친환경 화장품 성분 최신 트렌드, 화장품 트렌드 자료, 유의 성분이 이게 뭐냐면 사용자가 입력한 키워드를 막 분화시키는 거예요. AI가 그래야지 우리가 네이버 검색할 때 아까 한날 시장 얘기하면 한날 시장, 케이푸드 이렇게 칠 거 아니에요. 그 미션을 받은 주니어 예티가 이렇게 일단 쳐볼 거예요. 뉴스 검색도 해보고, 그런데 사실 그렇게도 있지만, 중동 케이푸드, 여러 가지 검색어에 따라서 검색 결과가 달라지잖아요.

일단 시작할 때 할랄 푸드, 중동 음식, 케이푸드 세계 현황 뭐 이런 거부터 많이 해야 걸리는 게 검색을 많이 해야 돼요. 일단 그거예요. 그래서 사용자가 입력한 키워드를 AI가 일단 막 분화시켜서 자동으로 저게 이제 차별점이죠. 여러 가지 저희가 고민하고 있는데, 검색 키워드를 일단 막 분화한 다음에 검색을 동시다발적으로 여러 검색 엔진에 저걸 다 검색해 봐요. 그래서 2025 화장품 트렌드까지 검색하고 이것저것 해보는 거죠. 그래서 여기다 다 긁어오는 거죠. 그 검색 결과를 퍼플렉시티도 물어보고, 구글에도 물어보고, 그래서 지금 막 들어가 보고, 뉴스 검색도 해보고, 이런 데서 이제 가중치가 중요해지게 되죠. 근데 아까 말씀해 주실 때 53가 너무 정리를 잘한다, 반칙이다. 저도 거기에 동의는 하지만, 더 중요한 건 사실 어떤 거 보고 공부하느냐가 더 중요하지 않나요? 이런 거 할 때는 물론 그 글을 잘 써 주는 것도 중요하지만, 어떤 정보를 보고 얘가 공부했느냐, 아까 출처를 어디로 갈고 오느냐의 능력이 진짜 중요할 것 같아요. 1번 롤링도 잘해야 되지만, 어디서 크롤링할 거냐, 이제 그것이 전략이 될 것 같아요. 서로 잘 안 가르쳐 주는, 아, 그 사자 써보면 미묘하게 얘네가 조금 더 보고서가 좋네. 이제 그렇게 만드는 게 노하우가 되겠죠. 그런데 웍스 AI는 저렇게 다 보여줘도 되는 거예요. 저희가 수많은 나름의 지금 그 노하우들이 있는데, 다 공개는 안 되죠.. 어차피 이건 사용자가 보게 될 화면이라 25개 출처에서 천자 정도의 정보를 수집했습니다. 그래서 이제 주요 발체 내용은 이런 것들이 기술이죠. 그래서 쫙 긁어서 또 뭐를 발치할 거냐, 기사가 쫙 있으면 그중에 제일 중요한 문단이 있을 거잖아요. 네, 그러니까 그런 것들을 잘 가져와야 저 25개 출처 중에서 불필요한 정보를 날릴 수 있죠.

그러니까 이제 그런 것들이 지금은 아직 저희도 첫 번째 버전이지만, 무조건 이걸 운영하면서 노하우가 쌓일 겁니다. 모든 회사들이 아, 지금 되게 소름 돋는 게 제가 영상 만들거나 기사 쓰거나 할 때 어떻게 많이 하냐면요, 관련된 걸 쭉 읽으면서 거기서 나중에 제가 쓸만한 문장, 되게 중요한 문장들이 문단들을 긁어서 전 노션에 모아놓습니다. 네, 그 장과 그 처를 URL 밑에 붙여놓고 문장과 처를 붙여놓고, 그래서 쫙 조사하고 이제 기사를 써도 되겠다 싶을 때 보면, 이게 한 열 몇 개 정도가 쌓여 있어요. 처들에 중요한 문장들이 쭉 있고, 그래서 그것들을 다시 보면서 출처를 확인하고, 내가 실수한 건 없나 다시 보면서 이렇게 만들거든요. 이 발체 내용이라는 거 자체가 제가 기사를 쓸 때 딱 중요한 문단들을 모아놓은 것과 굉장히 유사하네요.

2.6. 딥리서치는 25개 출처에서 수집한 정보를 바탕으로 중요한 문단을 발췌하여 보고서를 작성함. 이는 정보의 질을 높이는 데 기여함.

딥리서치는 25개 출처에서 수집한 정보를 바탕으로 중요한 문단을 발췌하여 보고서를 작성함. 이는 정보의 질을 높이는 데 기여함.
Fig.6 - 딥리서치는 25개 출처에서 수집한 정보를 바탕으로 중요한 문단을 발췌하여 보고서를 작성함. 이는 정보의 질을 높이는 데 기여함.

그러네요, 어떻게 보면 기자님이 하고 계신 그 프로세스와 똑같네요. 이런 식으로 지금 보고서가 딥해 보입니다. 퍼플렉시티는 좋아질 거고, 구글도 원조지만 또 구글의 딥 리서치도 좋아질 거고, 그리고 제일 무서운 건 검색 엔진을 가진 회사니까 누구보다 잘할 것 같고요. 또 그록 3도 딥 리서치를 갖고 왔죠. 맞아요, 맞아요. 그래서 지금 오픈 AI가 발표한 그 벤치마크에 따르면 이제 인류의 마지막 시험이라는 그 벤치마크 테스트가 있는데, 여기서 다른 모델들, 특히 원 모델이 지금 나와 있는 것 중에 제일 좋고, 론이 9.4라고 하네요. 그러니까 대단하죠. 론이 진짜 원보다 좋다는 게 지금, 근데 이제 그 테스트에서 압도적으로 높은 점수를 받았다, 딥 리서치가 166.6을 기록했습니다. 우리가 지난번에 3개월 전에 제가 나왔을 때 O3 모델을 소개할 때 오픈 AI가 어떤 새로운 벤치마크를 제시했는데, 그 벤치마크가 제가 그때 공부를 했더니 오픈 AI 후원으로 만든 벤치마크라고 말씀드렸잖아요. 믿을 수 있냐, 약간 이거 100% 믿어도 되냐 이런 느낌이었는데, 재밌는 게 그게 우리가 12월에 다뤘었는데요, 1월에 그게 미국에서 문제가 됐어요. 인류의 마지막 시험 벤치마크도 찾아봤더니 지금 한창 만들고 있는 벤치마크이고 계속 공여를 받고 있고요. 전 세계 1천명 이상의 연구자들, 아주 대단하신 분들, 교수님들 이런 분들이 50억의 과학 전문가들이 참여하고 있대요. 그래서 보면 진짜 어려워요. 저는 또 인류의 마지막 시험 무슨 벤치마크고 저도 기사에서 봤거든요. 그래서 정말 그런 게 있는 줄 알았더니 만들어지고 있는 거였군요. 왜냐하면 이제 기존의 테스트 셋은 다 통과해요. AI가 그러니까 또 계속 새로운 걸로 테스트해야 되는, 더 어려운 문제를 줘야 되는 거죠. AI가 너무너무 발전하고 있으니까요. 그래서 이제는 인간들 중에 제일 똑똑한 천명들이 모여서 자기가 알고 있는 인간이 풀 수 없는 제일 어려운 문제들을 지금 출제하고 있는 거죠. 그것들을 모은 데이터 셋이 인류의 마지막 시험이라는 테스트 셋인데, 왜냐하면 지금 벌써 기존에 있었던 뻔한 MML 같은 것들은 70매 점, 뭐 평균 막 이렇게 된단 말이죠.

지금 그래서 이제는 안 돼요. 이거보다 훨씬 더 어려운 문제를 만들어야 되는 거죠, 문제은행을. 그래서 그런 걸 만든 거고, 거기 보시면 예제 문제가 있는데 진짜 어려워요. 보세요, 이 그림을 주고 이건 묘비에서 발견된 로마 비문이에요. 8m 문자에 대한 번역을 입력하세요.

2.7. AI의 발전과 함께 새로운 벤치마크 테스트가 개발되고 있으며, 이는 AI의 성능을 평가하는 데 중요한 역할을 함. 특히, 인류의 마지막 시험이라는 테스트 셋이 주목받고 있음.

AI의 발전과 함께 새로운 벤치마크 테스트가 개발되고 있으며, 이는 AI의 성능을 평가하는 데 중요한 역할을 함. 특히, 인류의 마지막 시험이라는 테스트 셋이 주목받고 있음.
Fig.7 - AI의 발전과 함께 새로운 벤치마크 테스트가 개발되고 있으며, 이는 AI의 성능을 평가하는 데 중요한 역할을 함. 특히, 인류의 마지막 시험이라는 테스트 셋이 주목받고 있음.

일단 여기서부터 멘붕, 뭐 어쩌라는 거지? 텍스트의 음역이 제공됩니다. 이거 일단 거의 외계어 같아요. 근데 이걸 인류의 누군가는 풀 수 있는 거죠. 옥스포드 머튼 컬리지의 헨리티 교수님이 이 문제를 낸 거예요. 뭐 그런 식으로 각각 생태학에 대한 문제, 벌목, 벌새가 속하는 벌새는 뭐 어려워요. 그죠? 이 세사 모이드 뼈가 몇 상에 힘줄을 지탱하고 있습니까? 이거 뭐 어쩌라는 거죠? 와, 근데 저는 아까 뭐 9, 자꾸 99% 뭐 3% 이래서 저렇게 못 하는데 이게 높다고 하나 그랬더니, 인간이 못 푸는 걸, 그러니까 인간 중에서는 정말 한두 명은 풀 수 있는 걸 그렇게 많이 맞췄다는 거네요. 이건 전공자들도 풀기 쉽지 않다고 합니다. 교수님들이 그래서 특별히 맞먹고 AI 혼내주려고 만든 문제라고 봐야겠죠. 그런데 이제 여기서 딥 리서치는 온갖 인류의 지식을 앞단에서 자료 조사를 해 가지고 풀었고, 그리고 제일 좋은 모델로 53로 풀었어요. 그래서 자기들이 점수가 지금 매우 높았다 하는 아주 고무적인 결과를 발표한 거고요.. 미니가 1점인 오픈 AI 딥 리서치는 53 모델에 대해 자기 정보를 검색해서 공부한 내용을 덧붙여서 푸는 거잖아요. 오픈 북처럼 푸는 거죠. 그러니까 53이 오픈 북을 하니까 두 배 더 잘하더라, 그렇죠? 이제 저거 미니는 아마 그냥 쓰는 13점이 다 높겠지만, 그래도 오픈 북으로 양질의 정보를 가져왔으니까, 그 또한 스보다 높겠죠. 그래서 일단 재밌다. 점점 이런 테스트 셋의 발전도 계속 이루어지고 있고, 오픈 AI 같은 큰 회사들은 이런 테스트 셋 개발에도 계속 투자를 하고 있습니다. 그래서 AI를 가보면 이제 자기네 테스트 셋을 각각의 AI 모델들이 어떻게 풀었는지 점수를 공개하고 있어요. 그래서 이런 미래 모델 성능에 대한 나름의 인사이트를 얻을 수 있습니다. AI 개발하는 선구자들이 어디까지 생각하는지 궁금하네요. 지금 그러면 쭉 정리해 주신 딥 리서치 쪽의 트렌드로 보면 되겠군요. 네, 그렇습니다.



2.8. 딥리서치는 사용자가 최신 정보를 쉽게 파악할 수 있도록 도와주는 도구임. 이를 통해 사용자는 기술주와 관련된 다양한 소식을 정리할 수 있음.

딥리서치는 사용자가 최신 정보를 쉽게 파악할 수 있도록 도와주는 도구임. 이를 통해 사용자는 기술주와 관련된 다양한 소식을 정리할 수 있음.
Fig.8 - 딥리서치는 사용자가 최신 정보를 쉽게 파악할 수 있도록 도와주는 도구임. 이를 통해 사용자는 기술주와 관련된 다양한 소식을 정리할 수 있음.

저 같은 경우는 요새 자고 일어나면 항상 기술주들이 출렁이거든요. 기술주들이 출렁인다는 것은 무슨 새로운 소식이 있기 때문에 출렁이는 거니까, 그걸 아침마다 파악하기가 되게 힘들어요. 그래서 딥 리서치를 한 번 돌리면 싹 정리해 줍니다. 그래서 옛날보다 훨씬 편하게 일단 하루 전날 일어났던 미국 주식 이야기, 미국 IT 이야기, 한국 이야기 이런 것들을 싹 정리하고 갈 수 있어서 좋으니까, 그런 식으로 본인이 지금 몸담고 계시는 쪽에서 이용해 보셔도 좋고, 아니면 취미나 관심 있는 쪽, 배우고 싶은 쪽에서 딥 리서치를 통해 조금 더 자세히 깊은 이야기를 물어보시면 아마 새로운 소식들이 신기할 수도 있고 재밌을 수 있지 않을까 싶습니다. 네, 그다음에 지난주에 또 갑자기 나온 게 있죠? 4.5. 네, 4.5는 저희가 그때 나오자마자 한 번 라이브로 30분 정도 테스트해서 보여드렸었는데, 확실히 반응이 좋은 것 같지 않나요? 아, 그러니까 이게 참 좀 안타까운 게 뭔가 타이밍도 애매하고, 나온 결과도 애매한 것 같아요. 너무 비싸게 나와서 사람들이 기대한 것은 지금 5원 모델이 비싸기 때문에 추론 모델이니까, 5원이 사실 나왔을 때도 사람들은 실망했죠. 너무 비싸서. 그런데 이제 GPT 4.5가 개발 중이라는 소식이 들려서, 아, 그래 그러면 훨씬 싸고 발전되는 지금 오픈 AI가 이렇게 두 가지 라인업을 발전 중이잖아요. 그렇죠? 그냥 원래 하던 GPT 시리즈가 있고 O 시리즈가 있고, 그래서 이제 51도 비싼데 53이 나오는데, 얘가 압도적으로 뛰어난데 너무 비싸다는 것을 우리가 12월에 다뤘고, 그러면 GPT 시리즈에 차세대 버전이 나온다고 해서 많은 분들이 기대를 하셨고 저희도 기대를 했습니다. 네, 그런데 지금 너무 비싸서 사용을 할 수 없는 수준으로 나왔습니다. 그래서 이거는 아무래도 지금 투자 유치 경쟁을 벌이고 있는 오픈 AI가 재미나 2.0, 자기들이 그래도 리더십을 잃지 않기 위해서 조금 무리를 해서 급하게 된 게 아닌가 싶습니다. 그렇기 때문에 자기들도 알아요. 이를 통해 쓸 수 있다라고 이야기를 했는데, 여기 보시면 이걸 계속 제공할지 말지를 고민하고 있다는 내용이 나와요. 자기들도 알아요.

2.9. 오픈AI는 경쟁력을 유지하기 위해 급하게 GPT 4.5를 개발한 것으로 보임. 그러나 가격이 비싸서 사용자가 쉽게 접근하기 어려운 상황임.

오픈AI는 경쟁력을 유지하기 위해 급하게 GPT 4.5를 개발한 것으로 보임. 그러나 가격이 비싸서 사용자가 쉽게 접근하기 어려운 상황임.
Fig.9 - 오픈AI는 경쟁력을 유지하기 위해 급하게 GPT 4.5를 개발한 것으로 보임. 그러나 가격이 비싸서 사용자가 쉽게 접근하기 어려운 상황임.

여기 보면 진짜 솔직해요. 네, 더 비쌉니다. 더 비싸지만 더 대체할 수가 없습니다. 포를 자기들도 아는 거죠. 그래서 여기 피드백을 달라고 해서 제가 커뮤니티에 들어가서 봤는데, 사람들이 조롱도 하고 이걸 어떻게 쓰라는 거냐고 하더라고요. 그리고 이제 약간 조롱하는 사람들 사이에서는 내가 테스트를 해봤는데 주 물어보는 게 '스트로베리' 단어에 R이 몇 개 있냐고 했더니, 4.5가 R이 두 개밖에 없다고 대답을 했대요. 세 개가 있는데. 그리고 보시면 이제 100만 토큰당 입력 75달러, 출력 150달러로, 저 한 20배 차이 아니에요? 한 30배 차이납니다. 지금 4 대비. 그래서 이게 너무 비싸서 이제 사람들이 이걸 어떻게 쓰라는 거냐고 하고, 그리고 또 보면 대화를 오픈 AI가 학습할 수 있게 해주면 그 권한을 주면 하루에 100만 토큰까지 무료로 준대요. GPT 4.5를 자기네들이 데이터를 막 학습할 수 있게 열어주면 좀 싸게 주겠다. 찝찝하니까 그거는 이제 뭐 좀 그렇고. 그죠? 그 API 써보셨어요? 그만큼 비싸다는 것은 차치하고, 4보다 확실히 좋긴 좋습니까? 이제 여기서 뭐 이야기하는 게 EQ가 뛰어나다, 당연히 좋죠. 좋은데 그 돈을 내면서 쓰고 싶지 않다면 기존의 대체제인 4가 충분히 성능이 좋기 때문에 같은 돈을 주거나 약간 비싸면 저는 뭐 4.5를 쓰겠는데, 30배 비싸면 그 정도의 가치를 하는 것 같지 않다. 그건 모두의 보편적인 지금 생각인 것 같습니다.

2.10. EQ가 개선된 GPT 4.5는 감성적인 대화에서 더 나은 성능을 보이나, 여전히 다른 모델에 비해 비용 효율성이 떨어짐. 사용자들은 기존 모델로도 충분히 만족할 수 있다고 생각함.

EQ가 개선된 GPT 4.5는 감성적인 대화에서 더 나은 성능을 보이나, 여전히 다른 모델에 비해 비용 효율성이 떨어짐. 사용자들은 기존 모델로도 충분히 만족할 수 있다고 생각함.
Fig.10 - EQ가 개선된 GPT 4.5는 감성적인 대화에서 더 나은 성능을 보이나, 여전히 다른 모델에 비해 비용 효율성이 떨어짐. 사용자들은 기존 모델로도 충분히 만족할 수 있다고 생각함.

EQ 좋아졌다는 게요. 그러니까 얘가 EQ가 높기 때문에 예전에 못했던 말들을 너무 잘 캐치한다면 인정 아닙니까? 그런 부분에서는 그럼 그렇게 잘 알아듣는 거죠. 아, 일단 알아듣는 것은 잘 알아듣는데, 그 감성 부분은 잘 아시다시피 클로드가 상.. 대체로 그동안 GPT는 조금 더 감성적이다, 그런 세팅이 되어 있다고 여겨져 왔습니다. 실제로 지금 우리나라에서 매우 인기 있는 캐릭터 봇들이 많이 있잖아요. 그런 캐릭터와 대화하는 서비스들은 대부분 클로드를 쓰고 있습니다. GPT를 쓰면 기본적으로 조금 더 이성적인 세팅이 되어 있는 애라서, 캐릭터의 프롬프트 엔지니어링을 통해 캐릭터에 빙의시켜도 그 캐릭터에 최선을 다해서 행동하지 않거든요. 왜냐하면 오픈AI의 상위 세팅인 시스템 프롬프트가 더 이성적으로 세팅되어 있기 때문입니다. 그래서 상대적으로 그런 캐릭터 역할을 빙의해 대답을 주는 문체나 어떤 대답이 바뀌는 것은 클로드가 더 잘하는데, 그런 부분에 있어서 오픈AI 4.5는 상대적으로 훨씬 좋아졌다고 합니다. 그렇지만 그럼 클로드를 쓰지, 왜 비싼 4.5를 쓰겠어요? 어차피 클로드는 원래 EQ가 좋은데, 그런 부분은 충분히 좋아진 거고, 좋아졌지만 상대적으로 얘는 자기 모델 대비 좋아진 거지 타 모델만큼의 EQ 비용 효율적이는 아직 아닌 것 같습니다. 제가 아까 서로 시니컬한 대화를 나누고 있는 개발자 포럼에서 누가 그런 이야기를 하더라고요. 4.4.5를 썼더니 9.11이 9.99 다 크다고 하던데요. 약간 조롱을 한 거예요. 진짜 되나 하고 제가 물어봤더니, 진짜로 4.5는 9.9라고 하더니 9.11이 9.9 다 큽니다. 얘도 2023년 10월까지만 학습된 모델이거든요. 그래서 아마 그 이전의 데이터셋을 가지고 조금 더 잘 개발해 놓은 것 같습니다. 그러니까 추론 모델만큼의 애초의 시리즈의 학습 방식이 다르기 때문에, 얘는 GPT 시리즈의 학습 방식을 계승했고, 비슷한 데이터셋을 사용하고 있습니다. 그래서 아직은 추론 모델만큼의 수학적인 계산을 못 하는 게 아닌가 싶습니다. 그런데 저건 좀 충격적인 게, 그냥 답을 한 것도 아니고 숫자를 비교하라고 밑에 설명을 해 놓고 소수점 첫 번째 자리는 가지만이라고 했잖아요. 저게 굉장히 충격적입니다.

그렇죠? 오, 이거 한 번만 4.5에 똑같이 물어봐주시면 안 될까요? 네, 이것도 아, 그러네요. 말씀하신 것처럼 추론 모델이랑 확실히 좀 다른 그런 거군요. 4.5는 아무튼 지금 중요한 건 너무 비싸다는 거예요. 예, 지금 그게 포인트인 것 같습니다. 목적이 좀 다르기 때문에 이게 수학 계산하는 모델이 아니기 때문에 그런 아쉬움들이 있는데, 물론 지금 이런 거는 좀 터무니없는 케이스니 조금 그렇긴 한데, 이런 비추론 모델 중에서는 가장 앞선 모델이 나왔다는 것은 의미가 있고, 의미가 있지만, 비용이 너무 비싸서 효율적이지 않다는 그런 상황입니다..


3. 영상정보


이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

댓글 쓰기

다음 이전