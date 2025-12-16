AI에 수능 수학·논술 풀게 했더니… 국대 모델, 해외 대비 점수 반토막

방금 들어온 뉴스

AI에 수능 수학·논술 풀게 했더니… 국대 모델, 해외 대비 점수 반토막

민나리 기자
민나리 기자
입력 2025-12-16 00:09
수정 2025-12-16 00:09
국가 AI 도전 5곳 해외 빅테크 비교

구글·오픈AI 등 최저 70점대 후반
국내산 최고점 50점대 후반 그쳐
한국 모델 설계는 언어에 중점 둬
﻿LG “자체 테스트에선 92점” 반박
이미지 확대


국가대표 AI에 도전 중인 국내 기업들의 인공지능(AI) 모델들이 수학능력시험 수학 문제와 공대 입시 수리논술 문제 풀이에서 해외 최상위 AI와 비교해 크게 낮은 성적을 기록했다.

●김종락 서강대 수학과 연구팀 공개

김종락 서강대 수학과 교수 연구팀은 국내의 국가대표 AI 도전 5개 팀이 만든 주요 대형언어모델(LLM)과 해외 AI 모델 5종을 대상으로 수능 수학 20문항과 수리논술 30문항을 풀게 한 결과를 15일 공개했다. 수리논술 문항은 국내 주요 대학, 일본 도쿄대 공대 대학원, 인도 대학 입시에서 출제된 수학 서술형 문제였다.

실험 결과 구글의 ‘제미나이 3 프로 프리뷰’를 비롯해 오픈AI의 ‘GPT-5.1’, 앤트로픽의 ‘클로드 오퍼스 4.5’ 등 해외 모델들은 70점대 후반에서 90점대 초반을 기록했다. 반면 국내 모델 중 업스테이지의 ‘솔라 프로-2’는 50점대 후반을 기록했고, 네이버의 ‘HCX-007’, LG AI연구원의 ‘엑사원’, SK텔레콤의 ‘A.X’ 등은 20점대에 머물렀다. 연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워, 계산 과정을 코드로 실행할 수 있는 파이썬 도구 사용을 허용했지만 정답률은 크게 개선되지 않았다고 설명했다.

국내 AI 모델의 저조한 점수는 모델 설계 방향과 개발 환경의 차이에서 비롯됐다는 분석이 나온다. 미국 빅테크들은 최신 AI 모델 개발에 수십억 달러 규모의 자금을 투입하고, 전용 GPU 인프라와 대규모 연구 인력을 동시에 확충하고 있다. 반면 국내 모델들은 언어 이해나 효율성을 중시한 구조가 상대적으로 많아, 수학 문제 풀이에 필요한 다단계 추론과 계산 과정을 처리하는 데 한계가 있다는 것이다.

●업계 “국내 모델 최종 성능은 아냐”

다만 정부 주도의 국가대표 AI 프로젝트가 초기 단계인 만큼 이번 결과를 국내 기업을 대표하는 모델의 최종 성능으로 보기는 어렵다. 엔씨소프트 관계자는 “이번 실험에 사용된 모델은 2년 전 공개된 (메타의) 라마 기반 경량 모델로, 현재 개발 중인 파운데이션 모델과는 성격이 다르다”고 말했다.

또 LG AI연구원 관계자는 이날 자체 평가를 했다며 “엑사원이 올해 수능 수학 기준 자체 테스트에서 92.11점을 기록했으며, 킬러 문항만 놓고 보면 88.75점을 획득했다. (해당 연구는) 모델의 특성을 고려하지 않고 성능을 측정했다”고 했다.

한편 국가대표 AI 프로젝트는 5곳의 컨소시엄이 경쟁 중이고, 1차 평가 결과가 내년 1월 15일에 발표되면서 4곳으로 압축된다.
민나리 기자
2025-12-16 16면
위로