디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

”제2의 카카오 먹통 사태 막아야”…해법은 철저한 ‘이중화’

IT동아갤로그로 이동합니다. 2022.10.20 18:55:46
조회 159 추천 0 댓글 0
[IT동아 김동진 기자] 일상을 무너뜨린 ‘카카오 먹통 사태’의 원인이 무엇일지 관심이 뜨거운 가운데 철저한 재발 방지책을 세워야 한다는 목소리가 높다. 모든 국민이 한 회사의 플랫폼에 종속될 경우, 국가 재난 사태가 발생할 수 있음을 경험했기 때문이다. 카카오 먹통 사태의 재발 방지를 위해 필요한 사항과 추정되는 화재 원인을 데이터센터 구성과 함께 살펴봤다.


SK C&C 판교 데이터센터 지하 3층 전기실 내 비상 축전지가 불에 탄 모습(왼쪽), 합동감식반이 1차 현장 감식을 위해 건물로 향하는 모습. 출처=윤영찬 더불어민주당 의원 페이스북·사진공동취재단



데이터센터가 뭐길래

카카오 먹통 사태는 지난 15일, SK C&C 판교 데이터센터 지하 3층 전기실 화재에서 시작됐다. 그렇다면 ‘데이터센터가 무엇인지’, ‘현장에 화재를 막을 장치들은 없었는지’ 의문이 남는다.


출처=엔바토엘리먼츠



데이터센터는 기업 정보 또는 기업의 고객 정보 등 각종 데이터를 모아 놓은 시설이다. 인터넷과 연결된 데이터를 저장하려 수만 대의 서버를 24시간 가동해야 하므로, 전기 먹는 하마로 불린다. 데이터센터 기업은 대형 빌딩에 중앙 네트워크를 설치한 뒤 입주기업의 인터넷 서버를 대신 관리하며 수익을 창출한다. SK C&C는 이번 화재가 발생한 데이터센터의 운영사이고, 카카오는 해당 데이터센서의 입주사다.


데이터센터 장비 구성. 출처=한국전자통신연구원



데이터센터는 데이터 저장을 위한 서버와 스토리지, 데이터 전송을 위한 네트워크, 해당 장비들을 유지하기 위한 발전기와 항온·항습기, 무정전 전원장치(UPS Uninterruptible Power Supply, 전자 기기의 전원이 끊겼을 때 일시적으로 전원을 유지해주는 장치. 정전 등에 대비해 전력을 일정 시간 계속해서 공급하는 역할.) 등으로 구성된다. 온도나 습도에 민감한 전자기기 특성상 약 22℃~24℃ 사이 적정 온도 유지를 위해 항온·항습기를 구성에 포함한다.

화재를 막을 수 없었나

데이터센터는 찰나라도 전기가 끊어지면 안 되는 특성이 있어, 화재나 정전 등에 대비한 예비 전력(발전기, UPS)을 필수로 포함한다.

업계 관계자는 “UPS는 소방수를 사용해야 할 정도의 화재를 대비하기 위한 것은 아니다. 쉽게 말해 노트북이라면, 코드가 빠져도 배터리가 있으니 전력이 유지되는 방식이다”라며 “전기가 끊어지면 예비 발전기로 넘어가야 하는데 이 과정에서 30초에서 5분 정도의 빈틈이 생긴다. UPS는 그 빈 시간을 채워주는 역할인데 전원이 모두 차단되면, 이 마저도 소용이 없어 화재 시 초기 진화가 매우 중요하다”고 말했다.

이번 데이터센터 화재가 UPS용 리튬이온배터리에서 시작됐을 가능성이 제기된다. 다만, 배터리관리 시스템(BMS)이나 전선 단락 등도 원인으로 지목되고 있어, 합동감식반의 조사 결과에 관심이 쏠리는 상황이다. SK C&C 측은 “데이터센터 전체 전력을 차단하면서 UPS 또한 작동을 멈췄다”고 밝혔다.

그렇다면 전체 전원을 꼭 차단해야만 했을까. 데이터센터에는 소화 시스템이 갖춰져 있다. 화재가 발생하면, 스프링클러에서 물이 아닌 하론 가스(Halon Gas, 산소를 차단해 불을 끄는 방식.)가 자동으로 살포된다. 수많은 전기 장치를 보호하기 위함인데, 문제는 이 가스를 다 소진해도 불이 꺼지지 않을 경우다. 이번 화재가 이에 해당한다.

소방당국은 판교 데이터센터 스프링클러에 담긴 하론 가스가 모두 소진되자, 물을 쓰기 위해 전체 전원 차단을 요청했다. 전기로 가득한 공간에 물이 흐르면 누전 위험이 있기 때문이다.

혹자는 불이 난 층의 전원만 차단할 수는 없었는지 의문을 제기하지만, 전력망이 촘촘하게 연결돼 있어 불가능하다. 데이터센터 운영사인 SK C&C 측이 화재 초기 관제와 빠른 조치를 취했는지, 그간 화재 초기 진압을 위한 소방 훈련에 충실했는지 의혹이 제기되고 있어 추가 검증이 필요한 상황이다.

먹통 사태 막을 이중화 조치 충분했나

플랫폼 기업은 이번 화재처럼 예비 전력 조치가 작동하지 않을 경우를 대비해 서버와 데이터를 또 다른 데이터센터에 분산하는 이중화 조치를 취한다. 원칙은 평소 운영하는 데이터센터와 이중화를 한 데이터센터를 최소 15km 이상 떨어뜨리는 것이다. 같은 도시에 재난이나 화재가 발생할 경우, 이중화가 무용지물이 되는 것을 막기 위함이다.

일례로 마이크로소프트(MS)는 스코틀랜드 오크니섬 인근 바다에 데이터센터를 구축하는 ‘나틱 프로젝트’를 2015년부터 추진 중이다. 화재로부터 안전한 바닷속에 데이터센터를 구축해 먹통 사태를 막기 위한 조치에 일찌감치 나선 것이다.


컨테이너 형태의 데이터센터를 구축해 해저에 나틱 프로젝트를 진행하는 MS. 출처=MS



MS는 2020년 나틱 프로젝트 2단계 실험 결과를 발표했다. 실험은 총 864대의 서버와 27.6PB(페타바이트) 용량의 스토리지, 냉각 시스템 등을 장착한 약 12미터 길이의 데이터센터 ‘나틱 노던아일(Natick Northern Isles)’을 활용해 진행됐다. 스코틀랜드 오크니섬(Orkney Island) 해저 약 117피트(약 36.5 미터) 지점에 조력, 파력 발전기와 함께 데이터센터를 배치하는 방식이다. 그 결과 MS는 해저 데이터센터가 지상보다 더 안정적이라는 사실을 확인했다고 밝혔다. 고장률이 지상과 비교해 8분의 1 수준이었다고 덧붙였다.

온라인 동영상 서비스(OTT) 기업 넷플릭스는 글로벌 12개 지역에 서버를 분산하고, 해당 인프라가 멈췄을 경우를 가정해 훈련을 주기적으로 진행한다. 이른바 카오스 고릴라 훈련이다.

카카오가 이들 기업처럼 이원화 조치를 충실히 이행했을까. 카카오는 먹통 사태 당시 “이중화 조치를 했지만 데이터의 양과 복잡도, 복구 장비의 특수성 등으로 인해 핵심 서비스의 복구가 지연되고 있다”고 해명했다. 하지만 업계 전문가들의 생각은 달랐다. 김승주 고려대 정보보호대학원 교수는 “이중화 조치를 했다 안했다로 따지기보다는, 어느 정도로 했느냐로 접근해야 할 문제”라며 “이렇게까지 복구가 지연되는 것을 보면, 이중화 조치가 최고 수준은 아니었던 것 같다”고 말했다.

또 다른 업계 관계자는 “카카오가 데이터와 서버를 이중화했지만, 자체 툴 서버가 대부분 판교에 있었던 것으로 알려졌다”며 “이 때문에 전체 서버나 네트워크 장비들의 구성 정보 등에 접근할 수 없는 상태였고, 개발자가 출근해서 복구할 수밖에 없는 상황이었을 것”이라고 추측했다.

홍은택 카카오 각자대표도 대국민 사과 기자회견에서 이중화 조치의 미흡함을 시인했다.


남궁훈(왼쪽)·홍은택 카카오 각자대표가 19일 경기 성남시 카카오판교아지트에서 대국민 사과를 하는 모습. 남궁훈 각자대표는 사퇴 의사를 밝혔다. 출처=사진공동취재단



홍 대표는 "주요 데이터와 서비스 응용프로그램 이중화 조치는 했으나 개발자들의 주요 운영 도구를 이중화하지 못해 복구가 지연됐다"며 "해당 조치는 판교 데이터센터가 정상화된 후 시작할 계획이다. 2개월 안에 유사 사고를 방지할 환경을 마련하겠다"고 말했다.

카카오는 경기 안산시에 내년 7월, 자체 데이터센터를 준공할 예정이지만, 그간 수차례 서비스 장애를 일으킨 탓에 이용자들은 여전히 우려를 제기한다.

정부는 방송통신발전 기본법을 개정해 카카오, 네이버 등 주요 온라인 서비스와 이들 업체의 데이터센터를 국가 재난관리 체계에 포함해 직접 관리하겠다는 계획을 밝혔다.

글 / IT동아 김동진(kdj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 카카오 먹통에 무너진 일상…원인과 전망은?▶ 유료 이용률 정체, 만족도 하락...OTT 옥석은 ‘콘텐츠’와 '가격'이 가린다▶ [농업이 IT(잇)다] 카카오패밀리 “카카오·바닐라빈, 제주도를 상생과 기회의 섬으로”



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
2002 [스케일업] 카파바이오사이언스 [1] 신소재 합성 기술로 원료의약품 혁신 이끈다 IT동아갤로그로 이동합니다. 22.11.11 186 0
2001 AMD, 4세대 에픽 프로세서 공개··· '115조 서버 시장 놓고 경쟁' [7] IT동아갤로그로 이동합니다. 22.11.11 1116 6
2000 [가상자산 제대로 알기] 5. 전자지갑의 이해와 사용 실례 IT동아갤로그로 이동합니다. 22.11.11 113 0
1999 [모빌리티 인사이트] 보다 안전한 세상을 만든다, 생명을 수호하는 '인간형 로봇'의 등장 IT동아갤로그로 이동합니다. 22.11.10 103 0
1998 스웨덴 볼보 ‘EX90’ 공개 현장…첨단 기술과 전동화에 담은 미래 청사진 [3] IT동아갤로그로 이동합니다. 22.11.10 824 0
1997 더 나은 세상을 만들 수 있는 제품을 찾아서, 서울과기대 해커톤 개최 IT동아갤로그로 이동합니다. 22.11.10 116 0
1996 스마트한 교통 관리 체계의 완성, 해답은 클라우드? IT동아갤로그로 이동합니다. 22.11.10 112 0
1995 시놀로지, 데이터 관리 토털 솔루션 기업으로 영역 넓혀 IT동아갤로그로 이동합니다. 22.11.09 126 0
1994 [스타트업-ing] 주식회사 쉼 김희진 대표, “1인 창업가를 위한 공간을 마련했습니다” [1] IT동아갤로그로 이동합니다. 22.11.09 150 0
1993 [스케일업] 코스모블라썸 [1] 비건 화장품 전도사, 무엇을 앞세울까? IT동아갤로그로 이동합니다. 22.11.09 119 0
1992 [월간 자동차] 지난 10월, 국산 신차 등록 증가…수입차·중고차는 감소 [4] IT동아갤로그로 이동합니다. 22.11.09 1935 1
1991 복잡한 건강검진 비교·예약...앱으로 해보니 IT동아갤로그로 이동합니다. 22.11.09 135 0
1990 마드라스체크 ‘flower 2022’ 개최… “K-일 문화의 좋은 협업툴 사례 공유하는 축제가 될 것” IT동아갤로그로 이동합니다. 22.11.09 117 0
1989 [2022 창구] 피어코퍼레이션 “누구나 나만의 스토리 게임 만들 수 있는 플랫폼을 만듭니다” IT동아갤로그로 이동합니다. 22.11.09 110 0
1988 [고려대 스타트업 2022] 아이노클 “단일세포 유전체 멀티오믹스 분석, 의료·진단 혁신으로” IT동아갤로그로 이동합니다. 22.11.09 102 0
1987 [기고] 비즈니스 자동화 전략이 실패하는 5가지 이유와 예방법 [1] IT동아갤로그로 이동합니다. 22.11.09 2814 1
1986 마드라스체크의 'flower 2022' 페스티벌, 혁신적인 협업툴 사례 공유한다 IT동아갤로그로 이동합니다. 22.11.08 111 0
1985 자동차 외장 스크래치/흠집, 한번에 모아서 수리하면 좀더 저렴할까? [2] IT동아갤로그로 이동합니다. 22.11.08 3473 4
1984 독일·스웨덴·영국·프랑스의 최신 스타트업 지원·육성 정책은? IT동아갤로그로 이동합니다. 22.11.08 177 0
1983 [리뷰] 문턱 낮춘 넷기어 공유기, 오르비 RBR350 [1] IT동아갤로그로 이동합니다. 22.11.08 170 0
1982 [기고] 국내 미술시장 더 높이 날려면 ‘미술품 가치 평가 시스템 구축’에 힘 모아야 IT동아갤로그로 이동합니다. 22.11.08 124 0
1981 AMD, RDNA 3 아키텍처 기반의 라데온 RX 7900 시리즈 발표 [6] IT동아갤로그로 이동합니다. 22.11.08 889 4
1980 [2022 창구] 엔돌핀커넥트 "많이 도전하고 제작 노하우 쌓아야 좋은 게임이 나온다" IT동아갤로그로 이동합니다. 22.11.07 101 0
1978 스윗 이주환 대표 “OKR 도입으로 기업과 조직의 목표를 연결할 수 있습니다” IT동아갤로그로 이동합니다. 22.11.07 103 0
1977 샤오미·라이카 컨셉 스마트폰 12S 울트라, 혁신일까 실패일까? [19] IT동아갤로그로 이동합니다. 22.11.07 2635 3
1976 거장과의 Q&A부터 멘토링, 네트워킹까지…콘진원 ‘콘텐츠인사이트’ 성료 IT동아갤로그로 이동합니다. 22.11.07 105 0
1975 [스케일업] 스페이스앤빈 [1] “전자파, 방사선 차폐는 이제 현실 속 이야기입니다” IT동아갤로그로 이동합니다. 22.11.07 159 0
1973 [리뷰] 데스크톱에 견줄 성능의 미니 PC, 인텔 NUC 12 프로 [10] IT동아갤로그로 이동합니다. 22.11.04 474 0
1972 신체 건강까지 위협하는 '스마트폰 중독', 이때만큼은 사용하지 말아야... [1] IT동아갤로그로 이동합니다. 22.11.04 381 0
1971 [농업이 IT(잇)다] 송아지 폐사 막을 정밀 사육 솔루션 개발 기업 ‘바딧’ [1] IT동아갤로그로 이동합니다. 22.11.04 207 0
1970 초기 창업자의 동반자, 성북구 1인 창조기업 지원센터 (2) IT동아갤로그로 이동합니다. 22.11.04 138 0
1969 [스케일업] 엘포박스 [1] 차세대 스마트 홈스쿨 ‘톡톡박스’의 차별화 콘텐츠는? IT동아갤로그로 이동합니다. 22.11.04 115 0
1968 [스케일업] 아시안푸드컨넥트 [3] “투자자에게 매력적인 아이템은?” IT동아갤로그로 이동합니다. 22.11.04 137 1
1967 어도비, 팬톤 색상 지원 중단 논란…"색상을 인질로 잡았다" [102] IT동아갤로그로 이동합니다. 22.11.04 15155 55
1966 [박진성의 블록체인 바로알기] 12. NFT 구매 전 알아 할 필수 지식 IT동아갤로그로 이동합니다. 22.11.04 120 1
1965 글로벌 농축산업 ‘탄소중립’ 활발…우리 농가는 ‘걸음마’ 단계 IT동아갤로그로 이동합니다. 22.11.03 121 0
1964 AI 판사는 정말로 '공정한 판결'을 내릴 수 있을까? [233] IT동아갤로그로 이동합니다. 22.11.03 9420 20
1963 2022 농식품 창업 콘테스트 후속 데모데이 “미래 농업 이끌 스타트업 오라” IT동아갤로그로 이동합니다. 22.11.03 203 0
1962 [스타트업in과기대] 심퓨 서근혁 대표 "성장하는 식물등 시장에서 주역 될 것" IT동아갤로그로 이동합니다. 22.11.03 136 0
1961 실적 먹구름 낀 카카오 "사고 수습과 신뢰 회복이 우선" [41] IT동아갤로그로 이동합니다. 22.11.03 7400 2
1960 [디지털콘텐츠로 자녀와 소통하기] 2. 지식착각과 디지털콘텐츠의 갈등 [1] IT동아갤로그로 이동합니다. 22.11.03 187 1
1959 [스케일업] 휴로틱스 [1] “더 멀리 더 빠르게 걷고 뛸 수 있는 옷이 있습니다” [1] IT동아갤로그로 이동합니다. 22.11.03 1000 2
1958 엔카닷컴, "인공지능으로 차량 진단해 신뢰와 효율 모두 잡아" IT동아갤로그로 이동합니다. 22.11.03 152 1
1957 [시승기] ‘제로백 4초’ 스포츠카 수준 SUV…’재규어 뉴 F-페이스 SVR’ [1] IT동아갤로그로 이동합니다. 22.11.02 255 0
1956 [리뷰] 3D 아바타·원격 제어가 강점인 화상회의, 알서포트 '리모트미팅' IT동아갤로그로 이동합니다. 22.11.02 133 0
1955 일본·중국·이스라엘의 최신 스타트업 지원·육성 정책은? IT동아갤로그로 이동합니다. 22.11.02 120 0
1954 코로나 19로 성장한 헬스케어 산업, 그 배경에 기술기업 협력 있었다 [8] IT동아갤로그로 이동합니다. 22.11.01 1941 1
1953 초기 창업자의 동반자, 성북구 1인 창조기업 지원센터 (1) IT동아갤로그로 이동합니다. 22.11.01 148 0
1952 '이태원 참사' 소식과 영상..."과하게 접하면 트라우마 위험있어" [96] IT동아갤로그로 이동합니다. 22.11.01 5832 15
1951 [스케일업] 프롬차일드 [3] 구자근 한양대 에리카 교수 “자사몰 활성화 비법, 데이터 속에” IT동아갤로그로 이동합니다. 22.11.01 119 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2