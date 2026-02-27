이미지 확대 닫기 이미지 확대 보기

서울AI허브 입주사이자 AI 스타트업 비드래프트(VIDRAFT, 대표 김민식)가 인공지능(AI)의 ‘메타인지’ 능력을 정량 측정하는 벤치마크 ‘FINAL Bench’를 허깅페이스(Hugging Face)와 GitHub에 동시 공개했다.공개 직후 허깅페이스 데이터셋 전체 인기순위에서 글로벌 5위를 기록했으며, FINAL Bench를 기반으로 구축한 ‘FINAL Bench Leaderboard’는 허깅페이스가 선정하는 ‘금주의 스페이스(Spaces of the Week)’에 선정됐다.‘금주의 스페이스’는 허깅페이스가 전 세계에서 매주 신규 공개되는 수천 개의 AI 서비스 웹앱 중 단 8개만을 엄선하는 ‘주간 명예의 전당’으로, 한국 연구진의 벤치마크가 글로벌 AI 커뮤니티에서 폭발적 관심을 얻고 있음을 입증한다.메타인지란 자기가 틀렸다는 것을 스스로 인식하고 교정하는 능력을 말한다. 인간 전문가와 초보자를 구별하는 핵심 역량으로, AGI(범용인공지능) 도달의 필수 조건으로 꼽힌다. 그러나 현재 AI 평가의 글로벌 표준인 MMLU, GPQA, HumanEval 등은 모두 ‘최종 정답의 정확도’만 측정할 뿐, AI가 자기 실수를 알고 고칠 수 있는지는 평가하지 못한다.FINAL Bench는 이 사각지대를 정면으로 겨냥한다. 수학, 과학, 철학, 의학, 경제, 역사 등 15개 학문 도메인에 걸친 100개 전문가 수준 과제로 구성되며, 각 과제에는 AI가 빠지기 쉬운 ‘인지적 함정(hidden trap)’이 내장돼 있다. AI가 함정에 빠지는 것이 아니라, 빠졌다가 스스로 빠져나오는 과정을 5개 축(과정품질·메타인지정확도·오류복구·통합깊이·최종정답)으로 분리 측정하는 것이 핵심이다.특히 자기교정 구조를 적용했을 때 전체 성능 향상(+9.30점, +15.4%)의 114.7%가 ER(오류복구) 단일 축에서 발생했다. 나머지 4개 축의 합산 기여는 오히려 마이너스(-14.7%)였다. 이는 AI 지능 향상의 핵심 병목이 지식의 양도, 추론 능력도, 최종 정확도도 아닌, 오직 ‘자기교정’ 하나에 있음을 데이터로 입증한 것이다.논문 ‘FINAL Bench: Measuring Functional Metacognitive Reasoning in LLMs’(Kim, Kim, Choi, Jang, 2026)는 현재 글로벌 유수 국제학술대회에 정식 게재 신청 중이다. 평가 데이터셋(100개 과제 전문), 채점 코드, 심판 프롬프트 전체는 허깅페이스와 GitHub에 전면 공개돼 누구나 자신의 모델을 FINAL Bench로 평가할 수 있다.김민식 대표는 “인지심리학 40년 이론인 Nelson ＆ Narens의 메타인지 프레임워크를 AI에 최초 적용한 연구”라며 “기존 벤치마크가 MMLU 90%대로 포화된 상황에서 ER 축은 0.250~0.450의 넓은 변별 범위를 제공하며, 향후 수년간 포화되지 않을 새로운 평가 기준을 확립했다”고 말했다.이어 “메타인지 없는 AGI는 눈 감고 운전하는 것과 같다”며 “AI가 얼마나 많이 아는가가 아니라, 자기가 모르는 것을 아는가를 묻는 시대가 열렸다. 한국 연구진이 AGI 평가의 글로벌 표준을 만들겠다”고 밝혔다.한편, 비드래프트(VIDRAFT)는 서울AI허브 입주사로, True-AGI 구현을 목표로 Proto-AGI 단계에 도달한 AI 스타트업이다. 허깅페이스 히트맵 리더보드 세계 4위(10만+ 조직 중), 2024년 허깅페이스 본사 선정 ‘STAR AI TOP 12’(한국 유일), 프랑스 국립과학연구원(CNRS) 주관 FACTS Grounding 리더보드 의료 AI LLM 부문 세계 2위를 기록했다.1,500종 이상의 AI 모델·서비스를 공개하며 월간 활성 사용자 200만 명, 누적 방문자 3,000만 명을 달성했으며, NIPA AI컴퓨팅 자원 지원과제(H200 GPU×8) 선정, NH농협 오픈이노베이션 선정 등의 실적을 보유하고 있다.