'7.19일 윈도우 서버와 윈도우 PC에 다운로드된 보안 패치(크라우드 스트라이크사 보안 소프트웨어 구매 고객의 기기에만 해당)의 오류로 MS 운영체제와 충돌, 윈도우 서버와 PC 사용 불가 장애가 발생하였다. 이 장애로 MS 클라우드 내의 윈도우 서버에서 서비스 하던 LCC의 승객 서비스 시스템이 12시간 동안 사용이 불가능하였다. LCC 3사 외에 다른 국내 항공사는 윈도우가 아닌 UNIX 서버로 운영하거나 윈도우를 사용하더라도 다른 보안 소프트웨어를 사용하고 있어 운영에 차질이 없었다.



이번 사태는 LCC 3사가 사용하는 윈도우 서버에 크라우드 스트라이크사의 보안 소프트웨어에 패치가 다운로드 되면서 시작되었다. 이 패치는 윈도우 서버에 다운로드 되어 설치된 후 MS 운영체제와 충돌하여 장애를 일으켰다. 이로 인하여 윈도우 서버에서 실행되는 승객 서비스 시스템을 사용할 수 없었다.'

좋은 기사는 독자가 읽고 쉽게 이해할 수 있어야 한다. 그래야 어디에서 무슨 일이 일어났는지, 무엇이 문제인지, 대응을 어떻게 해야 할지 명확하게 알 수 있다. 이번 'IT 대란'을 다룬 오마이뉴스에 실린 연합뉴스 기사( 'MS발 IT 대란' 국내 LCC 3개사 시스템 복구완료…총 92편 지연 https://omn.kr/29i3m)를 보면서 아쉬움이 있어 지적하고자 한다.이 기사의 주요 부분을 발췌해 보면 "1) MS 클라우드발 IT 대란의 여파로 마비되었던 일부 국적 LCC의 IT서비스가 12시간 만에 모두 복구됐다. 2) LCC 3사 외에 다른 국내 항공사와 공항은 자체 클라우드를 구축하고 있어 운영에 차질이 없었다. 3) 이번 사태는 LCC 3사가 사용하는 승객 서비스 시스템 나비테어(Navitaire)에 문제가 생기면서 시작됐다. 나비테어는 MS의 클라우드 서비스 에저를 통해 서비스 되는데, MS의 운영체제(OS)와 보안업체 소프트웨어의 충돌로 에저에 장애가 나타났다"이다.하지만 몇가지 지적하자면 1번의 사건 개요는 영향은 잘 파악하여 작성되었는데 인과관계가 명확하지 않다. 대란의 여파는 무엇을 말하는 것인가? 대란의 여파로 LCC의 IT 서비스가 중단되었다는 말인가? 그것은 잘못 파악한 것이다. 명백한 직접적인 원인이 따로 있다. 1번에서 원인을 클라우드발 여파로 두루뭉술하게 기술하니 2번에서 언급한 다른 항공사의 서비스가 정상이었던 것은 윈도우 서버가 아니어서 가능했는데도 자체 클라우드가 정상이어서 가능했다는 황당한 논리로 이어졌다.그렇게 논리가 전개되다 보니 아무런 문제가 없었던 나비테어에 문제가 생기면서 시작되고 결론적으로 MS 클라우드인 애저에 장애가 나타났다고 잘못된 결론으로 가버렸다. MS 클라우드 내에서 발생한 특정 윈도우 서버 장애이지 클라우드의 체계나 네트워크 전반에 대한 장애가 아닌데 말이다. 그래서 기사는 다음과 같이 고쳐져야 한다.이렇게 기사가 나가야 MS 클라우드에서 어떤 것은 되고 어떤 것은 안 됐는지, 어떤 윈도우 PC가 문제가 되는지, 이 사건 직전에 발생한 MS 클라우드의 오피스365 서비스 문제와 이것과는 왜 연관성이 없는지 정확히 알 수 있어서 불필요한 대응으로 시간을 허비하는 일도 없을 것이다.원인의 기술적인 내용은 독자에게 중요하지 않으나 원인이 어디에 있었는지는 문제 대응, 향후 대책 등에 영향을 끼치므로 이것을 다루는 기사는 매우 중요하다. 클라우드 문제가 아닌 것을 클라우드로 오인하게 하여 엉똥한 해결 방안을 찾으면 안 된다.지난번 정부24 장애 때도 2일이나 서비스가 중단된 원인을 GPKI 인증시스템의 일부인 네트워크 장비(L4스위치)의 이상으로 발표하고 대기업의 공공프로젝트 참여 제한이 근본적인 원인인 것처럼 언론이 보도했다. 정부 발표를 언론이 일말의 의심도 없이 받아 적어서 기사를 내보냈는데 L4스위치(서버의 부하 분산을 위해 데이터를 받으면 서버에 나누어 주는 네트워크 장비, 그래서 로드 발란서라고도 함)에 대하여 조금만 아는 사람이라면 이것이 장애조치에 2일이나 지체될 수 있는 성질이 아니라는 것을 단박에 알 수 있다.다른 분야의 사건 원인에 대해서는 별별 의심을 다하고 집요하게 원인을 추적하면서 온 국민의 생활에 정말 밀접한 IT에 대해서는 언론이 왜 이런지 궁금했는데 이번에도 제대로 보도한 곳이 거의 없으니 안타깝다.다시 이번 사건으로 돌아와서 보면 장애의 원인은 MS의 운영체제인 윈도우의 문제이다. 인간이 컴퓨터로 사용하기 위하여 프로그래밍한 기본 프로그램인 운영체제의 장애이다. 일차적으로 보안 소프트웨어 패치가 잘못된 것은 맞지만 이것 때문에 운영체제가 문제가 생겨서는 안되는 것이다. 따라서 MS에서 운영체제의 허점을 보완해야 할 일이다.이 사건은 우리가 일반적으로 완벽하다고 여기는 윈도우 운영체제-실제로 완벽하지도 않고 완벽할 수도 없는-의 문제점을 보여준다. 국산·외산 클라우드니 클라우드 보안이니 이런 문제가 아니다. 백업시스템이 있다고 해서, AI가 아무리 발전한다고 해서, 완벽하게 해결될 수 있는 문제가 아니다.앞으로 점점 우리의 모든 생활과 생명에 관련된 부분까지도 IT시스템 및 AI로 채워질텐데 이럴수록 최소한으로 업무 수행 가능하고 인간이 수작업 대응할 수 있는 체계를 만들어 놓아야 한다는 것을 이번 사건에서 큰 교훈으로 삼았으면 한다.