Just Do It

정부 IT 시스템 사고와 RTO·RPO 개념, 그리고 내가 느낀 점 본문

IT 기술을 배워보자

정부 IT 시스템 사고와 RTO·RPO 개념, 그리고 내가 느낀 점

everything0325 2026. 1. 18. 15:51
반응형

2025.9월 발생한 '대전 국가정보자원관리원 화재 사고'는 단순한 뉴스가 아니었다.

여러 원인이 있었는데, 베터리를 납입한 LG에너지솔루션의 제품 문제, BMS 관리 솔루션을 납입한 LG CNS, 그리고 제품 변경 기한이 지났음에도 제품을 교체하지 않은 정부 관계자,,, 안전불감증 일까? 아니면 지식이 부족해서 였을까? 아니면 인력이 부족했던 것일까? 이 일로 나를 포함한 대한민국 대부분의 국민들은 불편함을 겪었고, 한 때 IT 강자라 불렸던 대한민국에서 이런일이 발생했다는 사실이 나를 놀라게 했다. 

그날을 잊을 수 없었다. 대한민국에서 이렇게 빠른 인터넷 속도를 보장 받는 전 세계  유일한 대한민국에서 이러한 어의 없는 IT 사고가 발생생했었다. 나는 집 등기 서류를 기다리다 정말 많은 불편을 겪었고(집 계약과 등기는 몇억이 왔다갔다 하는 정말 큰 사건 이었다. 이 일은 다음번에 작성하기로 하고 이번은 IT관점으로 작성해 본다.) 

IT 관련 일을 하다 보니 머릿속에 바로 'BCP', 'RTO', 'RPO' 같은 용어가 떠올랐다. 누군가, 무언가, 어떤 큰 사건이 발생했다는 것을 느낌으로 알 수 있었다.

이번 글에서는 이 사고를 계기로 내가 다시 공부하게 된 IT 재해 복구 개념과, 현장에서 느끼는 현실적인 문제점들에 대해 이야기해보려 한다.

등기 서류가 안 온 이유를 뉴스를 보고 알게 되었을 때

하필이면 그날, 대전 정부청사에 화재가 난 그다음날 갑자기 우편물 도착이 지연되고, 동사무소에선 행정업무 처리가 안 된다는 이야기를 듣게 되었다. 나도 마침 급하게 받고 처리해야 할 집 등기 서류가 있어서 매일 우체통을 들여다보던 중이었다.

너무 궁금해서 동사무소에 전화했더니 담당자도 모르겠다는 말뿐이었다. 그러다 네이버 뉴스에서 본 제목 하나. ‘국가정보자원관리원 화재, 정부 민원 시스템 마비’ 그제서야 모든 퍼즐이 맞춰졌다. 내 서류가 도착하지 않은 이유, 동사무소가 먹통인 이유.

놀랍게도 우리나라의 주요 정부 시스템이 모여 있는 국가정보자원관리원에 화재가 났고, 이중화 시스템도 제대로 준비되어 있지 않아 전국적으로 행정이 마비되었던 것이다.

잠시 아래 그림으로 장애가 발생되는 흐름을 이해해 보자.

 

RTO, RPO, BCP... 용어 뒤에 숨어 있는 진짜 의미들

웹에서 개념을 찾아보면 다음과 같다.

- RTO(Recovery Time Objective): "복구까지 걸리는 최대 허용 시간" 이건 책에 나오는 정의라 많이 딱딱하다. 조금더 풀어서 이해해 보자. "재해로 인하여 서비스가 중단되었을 때, 서비스를 복구하는 데까지 필요한 최대 허용 시간, 예) 장애 발생 후 5시간 까지 복구 해야 해~ RTO는 5시간

- RPO(Recovery Point Objective): "복구 시점 기준의 데이터 손실 허용 범위" 좀더 풀어서 설명해 보면 "재해로 인하여 중단된 서비스를 복구하였을 때, 유실을 감내할 수 있는 데이터의 손실 허용 시점" 

즉 어떤 시스템이 멈췄을 때 얼마나 빨리 다시 돌아올 수 있는가(RTO), 그리고 얼마 전의 상태까지 되돌릴 수 있는가(RPO)를 이야기 하는 IT 용어이다. 

그리고 이 두 개념을 포함하는 BCP(Business Continuity Plan)는 말 그대로 '사업 연속성 계획'이다.

우리가 24시간 행정업무를 볼 수 있는 그 시스템(요즘은 인터넷으로 기본적 행정 서류는 언제든 확인 다능하다. 영화관, 쇼핑도 마찬가지 언제든 어디서든 무엇이든 가능한 IT 세계, 이것을 가능하게 해 주는 BCP 체계인 것인다.)

내가 일하는 OO회사에서는 해마다 실제 상황을 가정한 BCP 훈련을 한다. 예를 들어, "A라는 서비스가 사이버 공격으로 마비된다면 어떻게 대처할 것인가?"라는 시나리오 아래, DR센터(Disaster Recovery Center)에 있는 백업 시스템으로 전환하고, 실제 운영자들이 각자의 역할을 제대로 수행할 수 있는지를 테스트한다.

이런 현실을 알기에, 그 당시 정부의 화재 사고를 보고서도 나는 "어느 정도 예견된 사고가 아니었을까?" 라는 생각을 하게 되었다.

 

정부 시스템도 이제는 ‘실전처럼’ 준비되어야 한다

기업들도 현실적인 제약 때문에 훈련을 형식적으로 하는 경우가 많다.

그런데 정부 기관이라면 이야기가 달라야 하지 않을까? 대국민 서비스를 다루는 만큼, 시스템이 몇 시간 멈추는 것만으로도 국민의 불편과 불신은 걷잡을 수 없다. 정부가 디지털 전환을 외치고 클라우드 도입을 확대한다고는 하지만, 정작 중요한 건 시스템을 도입하는 것보다 ‘운영’하고 ‘복구’하는 능력이다.

기술보다 더 중요한 건 대응이다. 이런 상황을 보며, 나는 또 한 가지 개인적인 바람을 갖게 됐다.

민간 전문가들에게 더 많은 기회가 생겼으면 좋겠다는 것!!. 기업에서 실전 경험을 쌓은 사람이라면, 형식적인 시나리오보다 실질적인 리스크 대응 전략이 뭔지 잘 알고 있다. 정부 조직에 실무형 민간 전문가들이 들어가 시스템을 점검하고, 위기 대응을 함께 한다면 분명 지금보다는 더 나아질 수 있을 것이다.

‘위기를 가정한 준비’가 결국 우리 일상을 지키는 최선의 방법이라는 것, 이번 경험을 통해 깊이 새기게 되었다.

벌써 시간이 일어난지 6개월 정도가 지났는데 아직 정부의 이렇다할 행동은 없는 것 같다.

그러는 사이 SKT, KT, LG 유플러스의 통신사 보안사고 발생과 쿠팡의 Data유출을 보며 내가 어떤 걸 할 수 있을지에 대해 많은 생각을 하게 되었다. 생각이 많아지는 요즘이다. 

반응형