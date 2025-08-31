챗GPT가 2위…‘정확성 1위’ 차지한 AI 모델은 ‘이것’

인공지능(AI) 자료 이미지. 언스플래쉬

구글의 AI 모드. 구글 유튜브 홍보영상 캡처

검색 도구로 쓰이는 인공지능(AI) 모델 가운데 가장 정확한 답을 내놓는 도구는 구글의 ‘AI 모드’라는 외신 보도가 나왔다.미 워싱턴포스트(WP)는 미국 내 공공·대학 도서관 사서들과 함께 진행한 AI 검색 도구 테스트 결과를 지난 27일(현지시간) 보도했다.이번 테스트 대상에 포함된 모델은 ▲AI 모드 ▲AI 오버뷰(이상 구글) ▲GPT-4터보 ▲GPT-5(이상 오픈AI) ▲클로드(앤스로픽) ▲메타 AI(메타) ▲그록(xAI) ▲퍼플렉시티 ▲빙 코파일럿(마이크로소프트) 등 9개다.연구 진행자들은 이들 AI 도구에 30개의 까다로운 질문을 던지고, AI가 내놓은 답변 900건을 점수화했다. 모든 AI 도구는 무료 기본 버전(7~8월 기준)으로만 테스트했다. 질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향, 이미지 인식 등 5가지 요소에 집중해 구성했다.최고 점수를 받은 도구는 100점 만점에 60.2점을 얻은 구글의 AI 모드였다. AI 모드는 퀴즈와 최신 사건 부문에서 가장 정확한 답을 제시해 좋은 성적을 거뒀다.오픈AI의 GPT-5(55.1점)가 2위를, 퍼플렉시티(51.3점)가 3위를 차지해 AI 모드의 뒤를 이었다. GPT-5는 전반적인 성능이 개선됐지만 일부 영역에서는 이전 세대인 GPT-4보다 낮은 점수를 받았다. 퍼플렉시티는 특히 이미지 인식에서 상대적으로 높은 점수를 따냈다. 가장 낮은 점수를 받은 AI 도구는 33.7점만을 얻은 메타 AI였다.xAI가 개발한 AI 모델 그록3는 40.1점을 얻어 8위에 그쳤다. 그록3는 잡다한 지식을 묻는 말에 정확한 답을 내놓지 못해 최종적으로 낮은 점수를 받았다. xAI는 일론 머스크 테슬라 최고경영자가 설립한 기업으로, 소셜미디어(SNS) 엑스(X)도 운영하고 있다. 그록의 최신 모델인 그록4는 무료 버전이 없어 테스트 대상에서 제외됐다.WP는 “이번 테스트 질문이 AI 도구의 약점을 의도적으로 공략하기는 했지만, 현재 어떤 AI 도구도 일상적인 질문에 제대로 답하지 못한다는 것을 분명히 보여줬다”고 평했다. 이어 “AI 도구의 검색 기능을 활용하면서도 사서처럼 출처 확인, 최신성 검증, 비판적 사고 과정을 거쳐야 한다”고 강조했다.정회하 인턴기자