하드웨어부터 서비스앱까지 다중화
데이터센터 3개 연동하는 삼중화로
IT 엔지니어링 전담 조직도 신설
지난 10월 15일 SK C&C 판교 데이터센터 화재로 발생한 서비스 장애 원인을 분석한 카카오는 문제의 핵심인 시스템 다중화와 관련, 이중화를 넘어 데이터센터 3개가 연동되는 삼중화 이상으로 고도화하겠다고 7일 밝혔다. 또 앞으로 5년 간 기존 대비 3배에 이르는 대규모 투자와 대대적인 쇄신 계획도 내놓았다.카카오는 전체 시스템에서 다중화를 설계·구축하고, 서비스 간 중요도 등을 고려해 복구 우선순위를 지정, 관리할 방침이다. 특히 고우찬 비상대책위원회 재발 방지대책 공동소위원장(카카오엔터프라이즈 부사장)은 “서비스 안정화를 위한 인재 확보와 기술 개발, 삼중화 이상의 재난복구(DR) 구현 등에 지난 5년간 투자한 금액의 3배 이상을 앞으로 5년간 투입하겠다”고 말했다.
DR 시스템을 삼중화 이상으로 고도화하면 데이터센터 한 곳이 무력화된 상황에서도 이중화가 담보되는 안정성을 갖춘다고 카카오는 설명했다. 카카오톡 메시지 전송 기능을 전담하는 원격지 DR 데이터센터도 구축하는 방안을 검토 중이다.
국내 최고 정보기술(IT) 엔지니어링 전문가들을 영입, 대표이사(CEO) 직할의 IT 엔지니어링 전담 조직도 편성하기로 했다. 재해복구위원회도 만들어 대규모 장애에 대한 즉각 대응력을 강화하고, 대비 훈련도 강도 높게 시행하겠다고 카카오는 밝혔다.
2024년 완공을 목표로 구축 중인 안산 데이터센터는 전력·냉방·통신 등 3개 영역에서 ‘24시간 무중단 운영’을 위한 이중화 인프라를 구축하고 있다고 설명했다. 배터리실과 무정전전원장치(UPS)를 방화 격벽으로 분리, 배터리실에서 불이 나도 삼중의 진화 방식이 작동하게 해 SK C&C 판교 데이터센터와 같은 상황을 방지한다.
외부인인 이확영 원인조사소위원장(그렙 최고경영자)는 당시 복구 지연 원인으로 데이터센터 간 이중화와 서비스 운영 관리 도구 이중화가 미흡했으며, 이중화 이후 가용 자원과 인력 부족 등을 꼽았다. 이 소위원장은 특히 이중화에 필요한 상면(데이터센터 내 공간) 부족이 가장 치명적이었다고 판단했으며, 사태 발생 초기 복구와 대응을 총괄할 컨트롤타워도 없었다고 설명했다.
김민석 기자