© Unsplash

제미나이 3.0부터 키미 K2 씽킹까지, LLM 업데이트 현황

산업 한입2025-11-25

🔎 3줄 요약

중국의 AI 스타트업 문샷AI가 '키미 K2 씽킹'을 출시하는 등 글로벌 AI 기업이 앞다퉈 차세대 AI 모델을 출시하고 있습니다.
그중에서는 특히 성능과 사용성 모두 향상된 구글의 '제미나이 3'가 호평받는데요.
딥시크에 이어 중국의 오픈소스 모델이 기존 AI 생태계를 전환하고 있는 시점에서 한국 AI 업계의 약진이 필요한 시점입니다.

최근 글로벌 인공지능(AI) 시장 내 경쟁에 다시 한번 불이 붙었습니다. 중국 AI 스타트업 문샷AI가 차세대 모델 '키미 K2 씽킹'을 공개해 주목받았고, 오픈AI, 구글, xAI 등 주요 빅테크 기업도 업그레이드 모델을 내놓았는데요. 지난 1월 중국 스타트업 딥시크의 등장 이후 또다시 중국 AI 모델이 시장을 뒤흔드는 상황입니다. 오늘 <테크 한입>에서는 최근 출시된 새로운 AI 모델들을 알아보고, 변화하는 AI 모델의 경쟁 구도를 알아보겠습니다.

제2의 딥시크 모멘트? 11월 AI 모델 경쟁

🇨🇳 저비용 AI 모델의 재등장, 키미 K2 씽킹

지난 6일 문샷 AI가 오픈소스 대형언어모델(LLM) 키미 K2 씽킹을 공개했습니다. 이전 모델보다 추론·계획 능력이 강화된 것으로 알려졌는데요. 여러 개의 작은 전문가(Expert) 신경망으로 구성돼 입력 데이터에 따라 일부만 선택적으로 활성화하는 MoE(Mixture-or-Experts) 구조를 채택했습니다. 덕분에 용량은 늘리고, 연산량도 효율적으로 관리할 수 있죠. 모든 파라미터가 동시에 작동하는 기존의 LLM과 달리 입력할 때마다 가장 잘 맞는 전문가 모델만 선택적으로 사용하기 때문입니다.

키미 K2 씽킹의 낮은 훈련 비용도 눈길을 끌었습니다. 미국 경제 매체 CNBC는 키미 K2 씽킹의 훈련 비용이 약 460만 달러(약 67억 원) 수준이라고 전했는데요. 딥시크의 V3 훈련 비용이 560만 달러(약 82억 원)였던 것과 비교하면 현저히 낮아진 수준이죠.

그럼에도 키미 K2 씽킹은 오픈AI의 'GPT-5', 앤트로픽의 '클로드소넷 4.5'를 성능에서 제치는 성과를 냈습니다. AI 모델의 능력과 사고력, 문제 해결 능력을 평가하는 HLE(Human-Level Evaluation, 인간수준평가) 테스트에서 44.9점을 받아 GPT-5(41.7점), 클로드소넷 4.5(32점)을 뛰어넘은 건데요. 웹 검색 능력을 평가하는 '브라우즈콤프'에서도 키미 K2 씽킹은 60.2점으로 GPT-5(54.9점)와 클로드소넷 4.5(24.1점)를 앞섰습니다. 키미 K2 씽킹은 중국 모델이 프론티어급 모델과 충분히 직접 경쟁할 능력이 된다는 것을 보여줬다는 점에서 의미가 있습니다. 올해 초 글로벌 AI 업계를 긴장시켰던 딥시크에 이어서 또 하나의 중국발 충격이 시작됐다는 평가가 나오는 이유죠.

프론티어급 모델: 광범위한 범용 지능을 보유한 최고 수준의 AI 능력을 갖춘 초거대 AI 모델입니다. 반면 오픈소스 모델은 가중치와 코드가 공개돼 누구나 재학습과 개량이 가능한 모델로, 범용성과 성능, 안전성은 프론티어급보다 떨어집니다.

🤖 오픈AI, 더 똑똑한 GPT-5.1로 맹추격

오픈AI는 키미 K2 씽킹 발표 일주일 후인 13일 GPT-5.1을 공개하며 맞불을 놨습니다. GPT-5.1은 GPT-5의 대화 품질, 수학 연산 능력을 업데이트 한 버전인데요. 특히 수학 연산과 코딩 능력의 안전성이 개선됐습니다. 개발자용 모델인 'GPT-5.1 코덱스맥스'를 발표하면서 원하는 작업을 실행하기 위한 코드 작성, 코드의 문제를 찾아주는 디버깅, 코드의 효율성을 향상하는 리팩토링 작업의 수행 능력이 향상됐는데요. 복잡한 코딩 벤치마크인 SWE-벤치-베리파이드에서도 77.9%의 높은 정확도를 보였습니다. 이는 '제미나이 3 프로'의 76.2%보다 높은 수준이죠.

SWE-벤치-베리파이드(SWE-bench-Verified): 실제 소프트웨어 개발 문제를 해결하는 AI의 능력을 정확하게 측정하기 위해 사람이 직접 검토해 해결 가능한 것으로 확인된 데이터셋입니다.

☝️ 성능·사용성 모두 업그레이드 된 제미나이 3

한편 지난 19일, 구글은 맥락과 분위기를 읽는 수준으로 진화한 차세대 모델, '제미나이 3'를 발표했습니다. 정확히 얼마나 많은 데이터를 사용했는지 밝히지는 않았지만, 웹 크롤링, 라이선스 콘텐츠 등으로부터 다양한 데이터를 확보했다고 알려졌습니다. 이를 기반으로 여러 겹으로 구성된 복잡한 질문이나 아이디어 속의 세밀한 단서까지 이해할 수 있고, 최소한의 질문에도 요청과 의도를 더 정확하게 파악할 수 있도록 개선했죠. 코드 전용 데이터셋을 확장해 더 정교한 코드 작동 방식을 구현하고, 수학 문제 풀이용 데이터를 학습시켜 수학 문제에 특화된 모델 능력을 키웠는데요. AI 모델 벤치마크 지표인 '인류의 마지막 시험' 2,500개 문항에서 GPT-5는 26.5%의 정답률을 보였으나, 제미나이 3 프로는 37.5%의 정답률을 보이기도 했습니다.

텍스트, 이미지, 오디오 등 다양한 종류의 데이터를 종합적으로 인식하는 멀티모달 능력도 향상됐습니다. 사용자가 학위 논문 PDF를 올리면 모델이 내용을 파악해 주요 개념을 3차원(3D)으로 시각화한 인터랙티브 앱 형태로 자동 생성하는 기능 등이 대표적입니다.

💬 창의성 UP, 그록 4.1

일론 머스크의 xAI는 지난 19일 새 AI 모델 '그록 4.1'을 발표했습니다. 새 모델은 정서 지능과 창의적 표현 능력을 개선한 것으로 알려졌는데요. GPT-5.1처럼 즉각적인 응답을 제공하는 그록 4.1과 심층적 사고를 지원하는 '그록 4.1 씽킹'으로 구성돼 있습니다. 두 모델은 여러 벤치마크에서 오픈AI, 앤트로픽, 구글 등 경쟁 모델들을 잠시고 잠시 1~2위에 오르기도 했는데요. 그러나 곧장 출시된 제미나이 3에 주도권을 빼앗기며 출시 후 얼마 안 돼서 관심에서 멀어진 상황입니다.

AI 시장, 기능 경쟁으로 전환 중

🤝 AI 비서 현실화, 에이전트 기능 향상

지금까지의 AI 경쟁이 모델 크기 중심이었다면, 이제는 모델이 제공하는 기능으로 경쟁의 흐름이 바뀌고 있습니다. 새로 발표된 AI 모델에서는 비서처럼 사람의 일을 돕는 에이전트 기능이 빠질 수 없는데요. 키미 K2 씽킹, 그록 4.1, 제미나이 3 모두 에이전트 역량을 강화했습니다.

키미 K2 씽킹은 사용자의 목표 달성을 위해 스스로 여러 단계의 작업을 계획하고 실행하는 '사고 에이전트 설계'가 탑재돼 있습니다. 자율 추론 방식으로 사용자가 복잡하게 지시하고 설정할 필요가 없도록 돕는 것이죠. 그록 4.1은 개발자를 위한 '도구 호출 에이전트'와 개발자들이 실제 운영 환경에서 사용할 수 있는 에이전트를 구축하도록 '에이전트 툴 API'를 함께 내놓기도 했습니다. '제미나이 3'은 구글 앱인 지메일, 드라이브, 구글 캘린더 등과 연계해 AI 에이전트가 스스로 이메일과 일정을 정리하는 기능을 새로 도입했죠.

🤩 협업부터 디자인까지, 기능 다양해지는 AI

챗GPT는 GPT-5.1부터 그룹채팅 기능을 도입해 협업 기능을 강화했습니다. 그룹채팅 기능은 최대 20명의 사용자가 하나의 챗GPT와 동시에 대화하면서 협업할 수 있는 시스템인데요. 개인용 챗봇을 넘어서 팀 단위의 AI 대화 도구를 활용하는 것이죠. 이는 한국과 일본, 뉴질랜드, 대만 등 일부 국가에 시범 도입 될 예정입니다.

구글의 이미지 생성 기능 '나노 바나나 프로'도 주목받습니다. 구글은 제미나이 3 프로의 최신 추론 능력을 토대로 나노 바나나 프로에 아이디어를 시각화하고 디자인하는 기능을 구축했다고 밝혔는데요. 이를 통해 이미지 생성과 편집뿐만 아니라 화질 향상, 카메라 앵글, 조명, 초점 조절 등 세밀한 카메라 효과를 AI로 구현할 수 있게 됐습니다. 포토샵이 필요 없을 정도의 이미지 AI 도구라는 긍정적인 평가가 나올 정도로 반응도 뜨겁죠. 한글 텍스트도 깔끔하게 출력돼 사용성이 높다는 이야기가 나옵니다. 일관성 유지 성능도 향상됐습니다. 구글은 "최대 14장의 이미지를 쓰면서도 최대 5명의 인물에 대한 일관성과 외형적 특성을 유지할 수 있다"고 소개했습니다. 최근 모델의 신기능을 보면, AI 모델이 언어에 국한되지 않고, 이미지나 영상 중심 생성 툴로 확장되는 흐름을 보여줍니다.

👍 제미나이, 챗GPT 앞설까?

차세대 AI 모델이 쏟아져 나오는 가운데, 현재 반응이 가장 좋은 건 제미나이 3입니다. 제미나이 3은 구글의 기술력을 바탕으로 AI 모델 성능을 높인 것에서 그치지 않고, 구글 자체 앱과 연동해서 AI 에이전트 기술을 매우 효율적으로 구현한다는 평가를 받고 있죠. 나노 바나나 프로 공개 이후엔 개발자뿐만 아니라 디자이너 업계, 스타트업 등지에서도 호평이 이어집니다. 월스트리트저널(WSJ)은 제미나이 3 프로를 두고 "챗GPT는 대규모 모델 업데이트 때마다 AI 역사를 새로 썼지만, 최근 강력해진 제미나이의 반격에 독보적 위상이 흔들리고 있다"라고 언급하기도 했습니다.

프론티어 모델 위협하는 오픈소스 모델

🙌 AI 생태계 전환 초읽기

오픈AI, xAI, 구글과 같은 프론티어 AI 기업은 성능과 안전성 평가 등에서 우위를 점해왔습니다. 방대한 컴퓨팅 자원, 고급 연구 인프라 등을 바탕으로 고성능 LLM을 유지했는데요. 최근 딥시크에 이어 문샷AI와 같은 AI 스타트업이 오픈소스를 기반으로 그 입지를 바짝 추격하고 있습니다.

키미 K2 씽킹은 누구나 자유롭게 수정·배포할 수 있는 오픈 라이선스로 제공됩니다. 때문에 상업적 사용이나 파생 모델 개발에도 상대적으로 자유롭죠. 기업들은 오픈소스 모델을 내부 애플리케이션이나 연구용 에이전트로 활용해서 비용 절감과 사용자 맞춤 설정, 자율성 확보를 동시에 달성할 수 있습니다. 딥시크의 V3 역시 오픈소스를 기반으로 합니다. 이런 오픈소스 모델의 등장은 고사양 추론 모델이 반드시 막대한 연구개발 예산과 독점 생태계에서만 성과를 내는 게 아님을 증명하죠.

🌏 AI 모델, 미·중 기술 패권 경쟁의 핵심

프론티어 모델과 오픈소스 모델의 경쟁은 미·중 기술 패권 경쟁의 일부로도 해석해볼 수 있습니다. 미국은 엔비디아를 중심으로 AI 반도체 시장에서 막대한 영향력을 행사합니다. 특히 엔비디아에서 생산하는 그래픽처리장치(GPU)는 AI 모델의 대규모 학습·출력에 핵심 부품으로 작용하는데요. 대규모 연산을 빠르게 처리할 수 있는 덕에 기존 프론티어 모델의 초거대 학습에 필수적인 인프라에 가깝죠. 미국은 일찍이 오픈AI, 구글 등을 통해 프론티어 AI 모델 주도권을 확보해 왔습니다. 막대한 컴퓨팅 자원과 고급 연구 생태계를 기반으로 '최고 성능 모델' 경쟁을 선도해 왔고, 여전히 우위를 지키고 있습니다.

반면 중국은 다른 방향에서 경쟁력을 끌어올립니다. 문샷AI를 비롯한 중국 AI 스타트업들은 오픈소스를 기반으로 프론티어 모델에 못지않은 고성능 모델을 출시하며 존재감을 키우는데요. 이는 미국 중심의 컴퓨팅 생태계를 벗어나려는 '탈엔비디아'(De-NVIDIA) 전략의 일부입니다. GPU 공급이 제한되고 제재 압력이 이어지는 상황에서 오픈소스 모델의 성능이 높아질수록 중국 기업은 자체 기술을 구축하거나 해외 공급망 의존도를 낮출 수 있기 때문입니다. 결과적으로 중국은 오픈소스 모델을 기반으로 기술 주권을 강화하고, 글로벌 모델 경쟁의 판도를 흔들 수 있는 여지를 남기는 셈이죠.

글로벌 AI 시장에 새로운 모델들이 쏟아져 나오는 시점입니다. 동시에 프론티어 모델과 오픈소스 모델의 경쟁이 치열해지고, 기술 패권 경쟁도 계속되는데요. 이런 변화 속에서 한국 역시 입지를 확보하기 위한 전략을 적극적으로 모색해야 합니다. 이재명 정부가 AI 3대 강국을 목표로 인공지능 산업 육성에 집중하는 만큼, 정부의 적극적인 지원을 바탕으로 국내 AI 생태계 경쟁력을 높일 필요가 있어 보입니다.