
🔎 핵심만 콕콕
- 오픈AI의 신모델 'GPT-5'의 출시가 늦어지고 있습니다.
- xAI와 구글은 각각 '그록4'와 '제미나이 5'를 내세워 빠르게 추격 중인데요.
- 생성형 AI 경쟁의 생존자가 누가 될지 관심이 집중됩니다.
늦어지는 오픈AI, 빨라지는 경쟁사
😥 출시 늦어진 GPT-5: 지난 2월 샘 올트먼 오픈AI CEO가 상반기 출시될 것이라 알렸던 신모델 'GPT-5'의 공개 시기가 지연됐습니다. 추가 테스트와 기능 통합 과정을 거치느라 늦어진 것으로, 시기는 이르면 오는 8월 중으로 예상되는데요. 이에 GPT-5가 새로운 시대를 여는 모델이 아니라, 오히려 경쟁사와의 격차를 좁히기 위한 추격형 모델로 전락했다는 분석도 나옵니다.
🏃 속도 내는 경쟁사들: GPT-5의 출시가 지연되는 사이, 구글과 일론 머스크의 xAI는 발 빠르게 신모델을 선보이며 존재감을 키웁니다. 구글은 '제미나이 2.5', xAI는 '그록4'를 각각 공개했는데요. 특히 그록4는 최근 다양한 AI 벤치마크 평가에서 선두를 차지하는 등 성능 향상이 눈에 띕니다. 오픈AI는 아직 GPT-4 계열 모델을 중심으로 대응하다 보니 한때 AI 시장의 절대강자였던 위상에 금이 가는 분위기죠.
🔙 기술력도 밀리나: AI 성능을 비교하는 '아티피셜 애널리시스'의 최신 지표에 따르면, 그록4가 종합 점수 73점으로 1위를 차지했습니다. GPT-o3 Pro는 71점으로 2위에 올랐지만, 멀티모달이나 실시간 처리 등 최신 기술 요구사항에서는 부족하다고 평가받는데요. GPT-4o는 70점으로 5위권에 머물렀으며, GPT-4.1은 53점, GPT-4o 초기 버전은 41점에 그쳐 하위권으로 밀려났습니다.
성능 차이, 어떻게 달라?
🥇 제일 빠른 건 구글 제미나이: AI 모델의 응답 속도를 가늠하는 핵심 지표는 토큰 생성 속도입니다. 구글의 제미나이 2.5 플래시는 초당 304토큰을 생성하며 1위를 기록했습니다. 그록3은 209, 메타의 Llama 4 Maverick은 173으로 그 뒤를 이었죠. 반면 GPT-4.1은 162, GPT-4o는 153에 그쳐 격차가 꽤 큰 편입니다. 빠른 속도는 사용자 경험은 물론 API 이용 효율에도 직결되기 때문에 기업 고객에게는 중요한 선택 기준이 됩니다.
토큰: LLM(대형 언어 모델)에서 사용되는 토큰은 우리가 쓰는 단어보다 더 작은 언어의 단위입니다. 모델은 텍스트를 그대로 이해하는 게 아니라, 이 토큰 단위로 나누어 숫자 벡터로 변환해 처리하는데요. 일반적으로 영어에서는 단어 단위, 또는 단어를 쪼갠 음절이나 철자 조각이 하나의 토큰이 되죠. 예를 들어 'ChatGPT'는 하나의 단어처럼 보이지만, 모델 내부에선 보통 2~3개의 토큰으로 분해됩니다.
API: 다른 소프트웨어가 AI 모델을 불러와 쓰는 통로로, 속도가 곧 처리 효율과 비용에 영향을 줍니다. 초당 생성 토큰 수가 많을수록 더 빠르고 경제적인 응답이 가능하죠.
📚 지식·추론에서는 그록 4: GPT-o3 Pro는 대학 수준의 일반 지식 문제를 다룬 MMLU에서 88% 정답률로 가장 높은 성과를 냈습니다. 그러나 과학 개념 추론을 평가하는 GPQA에서는 그록4(88%)가 GPT-o3 Pro(85%)를 넘어섰는데요. 실시간 코드 생성력을 보는 LiveCodeBench 평가에서도 그록4(82%)가 GPT-o3 Pro(80%)를 앞질렀습니다. 종합 추론력 테스트인 'AI의 마지막 시험'에서도 그록4는 23.9% 정답률을 기록하며 GPT 계열보다 높은 수치를 보였죠.
📽 영상 생성은 구글 비오: 구글은 최근 영상 생성 AI 모델 '비오 3'(Veo 3)에 사진 한 장만으로도 고해상도 영상을 만들 수 있는 기능을 도입하며 앞서나갑니다. 유튜브 학습 데이터를 바탕으로 최대 8초 분량의 영상과 음향, 애니메이션까지 생성할 수 있는데요. 이 모델은 생성 속도와 결과물의 품질 면에서 일반 사용자가 사용하기에 가장 직관적이고 우수한 영상 생성 툴로 평가받습니다. 현재는 제미나이 앱에 통합돼, 누구나 손쉽게 영상 콘텐츠를 만들 수 있도록 지원하죠.
☝ 국내 LLM도 비상 중: 한편 국내 LLM인 업스테이지의 '솔라 프로 2'도 글로벌 AI 벤치마크에서 종합 12위에 올랐습니다. 국내 기업 중 유일하게 순위권에 들며, 'Magistral small'(55점), 'GPT-4.1'(53점), 'Llama 4 Maverick'(51점) 등 주요 모델을 앞섰는데요. 중국 문샷의 최신 모델 'Kimi K2'보다도 높은 점수를 기록했습니다. 310억 매개변수 규모의 솔라 프로 2는 매개변수가 훨씬 많은 모델과의 경쟁에서 경쟁력을 입증하며 비용 대비 효율성도 인정받았는데요. 업스테이지는 앞으로 1,000억 매개변수 급 차세대 모델 개발로 글로벌 시장에서 더 큰 도약을 준비 중입니다.
시장 반응도 달라진다
🇯🇵 일본 앱 1위는 그록4: 기술 성능 차이는 사용자 반응에도 영향을 미칩니다. 일본 애플 앱스토어 기준으로 최근 그록4가 전체 1위를 기록하며 챗GPT를 밀어낸 것이 대표적인 예시인데요. 오픈AI가 아시아 시장 중에서도 일본에 가장 공을 들이는 점을 감안하면 꽤 상징적인 결과입니다. 최근에는 일본에 첫 지사를 설립하는 등 노력을 이어가지만, 정작 다운로드 수나 실사용자 측면에서는 xAI에 주도권을 내준 것이죠.
🤑 제미나이도 빠르게 추격 중: 한국에서도 구글 제미나이의 확산세가 눈에 띕니다. 모바일인덱스에 따르면 지난달 국내 신규 설치 수는 33만 8,957건으로, 전월 대비 약 5배 증가했는데요. AI 앱 월간활성이용자 순위에서는 아직 챗GPT가 앞서지만, 제미나이가 국내 집계 기준 처음으로 10위권에 진입한 점이 눈에 띕니다. 향후 오픈AI가 국내 시장에서도 마케팅 전략을 재정비해야 할 수 있다는 분석이 나오죠.
😰 딥시크는 난항 속: 한편, 저비용 고성능 AI 모델로 선풍적인 인기를 끌었던 중국 인공지능 딥시크(DeepSeek)는 출시 반년 만에 이용률과 다운로드 수가 급감했습니다. 딥시크의 월평균 다운로드 수가 1분기 약 8,111만 건에서 최근 약 2,258만 건으로 72% 이상 줄어든 건데요. 이에 대해 량원펑 창업자는 딥시크의 수익화나 단기 이용률보다 장기적인 기술 완성도를 우선하겠다는 입장을 밝혔죠.
🤔 앞으로 어떤 기술 나올지 주목: 이에 전문가들은 모델 성능을 벤치마크 점수로만 평가하긴 어렵다고 말합니다. 고려대 강재우 교수는 후속 모델들은 기존 벤치마크를 기준으로 최적화되기 때문에 점수가 유리할 수밖에 없다고 지적했는데요. 또 GPT-5 출시가 미뤄지는 건 단지 전략 때문이 아니라, 기존 LLM 수준을 압도하는 성능을 확보하기 어렵기 때문일 수도 있다고 평가했죠. 지금은 혁신보단 점진적 개선의 단계라는 분석이 이어집니다.