우리는 매일 포털사이트를 통해 검색을 하며 원하는 정보를 얻고, 언어 장벽을 느낄 때 기계번역기를 사용한다. 일상 속 모든 인공지능 시스템은 크게 ‘데이터’와 ‘코드’로 나누어져 있다. 이들 중에서 코드 즉 모델링을 통한 성능 개선이 아닌 데이터의 품질을 향상시키고 모델의 구조 변경 없이 어떻게 하면 모델의 성능을 향상시킬 수 있을지에 대해 고민하는 분야가 바로 ‘데이터 중심 AI’다.
기업들은 대표적으로 데이터가 자동으로 선순환 구조를 그리는 ‘데이터플라이휠’이라는 방법을 통해 데이터 중심 AI를 적용하고 있다. 기업 간 거래(B2B)든 기업 대 소비자 거래(B2C)든 상관없이 AI 기반 서비스를 하다 보면 데이터 기록이 쌓인다. 예를 들어 유튜브 추천 모델이 사용자의 니즈를 잘 반영해 주는 것은 수집한 사용자 데이터를 모델에 반영했기 때문이다. 즉 지속적으로 쌓이는 데이터를 모델의 학습용으로 가공하고 지속적으로 추가학습을 진행하면서 자연스레 모델의 인식 성능이 높아지는 것이 바로 데이터플라이휠이다.
데이터플라이휠의 핵심은 모델 성능이 안 좋으면 데이터의 양을 늘리는 등의 일방향적인 개선 방식이 아니라 모델의 결과에 따라서 데이터 생성 과정과 공정 등도 점진적으로 개선되는 양방향 선순환 구조라는 점이다. 즉 단순히 데이터를 더 늘리는 양적인 팽창이 아니라 질적인 팽창이 필수다.
서비스 중 발생하는 오류 데이터를 수집하고 데이터의 모호한 분류를 일관되게 수정하는 공정이 모델 성능을 크게 향상시키며 그 가치는 시장이 모델을 통해 평가한다. 결국 AI 기업 중에서도 데이터 전문, 모델 전문을 넘어서서 모델과 데이터 모두를 잘하는 기업이 앞으로 살아남게 된다.
연료가 있어야 자동차가 움직이며 재료가 있어야 음식을 만들 수 있다. 이와 마찬가지로 인공지능 시스템도 연료와 재료가 필요하며 이는 바로 데이터다. 생성 AI를 필두로 AI의 신시대가 열리며 많은 사람이 자동차에 해당하는 모델 그 자체에만 관심을 가지고 있지만, 그 연료인 데이터의 중요성은 앞으로 계속 높아질 것이다.