귀사의 데이터 센터는 얼마나 안전합니까?

생산현장에서 발생하면 안 되는 최악의 시나리오는 바로 생산정지이다. IT 고장은 바로 기업을 감당할 수 없는 상황으로 몰아 넣을 수 있다. 이를 예방하기 위해 TÜV 라인란드가 데이터 센터를 위한 „엘크 테스트“를 개발하였다.

롤프 발터(Rolf Walter): Teams Data Center Services데이터 센터 서비스 팀 시니어 리더

비즈니스 프로세스의 디지털화가 급속히 진행 중이다. 제조 산업에서도 이러한 변화가 감지되고 있다. 산업 사물 인터넷에서 서버와 데이터 센터의 가용성은 제조 기업의 핵심적인 성공요소이다. TÜV라인란드는 데이터 센터의 운영 안전성과 신뢰성을 객관적으로 평가하기 위해 자체적인 표준요구사항을 개발하였다. 데이터 센터 표준인 DIN EN 50600뿐만 아니라 자체적인 우수사례, 국제 표준과 지침을 바탕으로 한 카탈로그에는 다섯 가지 카테고리에서 보안성과 가용성을 분석할 수 있는 물리적 인프라스트럭쳐에 대한 고려사항을 포함하고 있다.

TÜV라인란드가 분석하는 일반적인 기본사항에는 고객 데이터, 가용성 요구사항, 위험 분석(Risk Management), 보안 컨셉트가 포함된다. 구조적 디자인에는 환경과 위치, 건물 구조, 확장 레이아웃 그리고 IT 구조가 중요하다. 기술 카테고리에서는 화재 감지 및 소화 시스템 그리고 접근 보안성이 중요한 역할을 하며, 건물 제어 기술, 연속적인 전원 공급, 공조 장치, IT 및 네트워크 배선과 이중 바닥(raised floor)도 마찬가지이다.

일반적인 조직의 요소도 중요하다. 운영 매뉴얼이 있는가? 조직 프로세스는 어떻게 구성되는가? 물류와 운송은 어떻게 규제되는가? 정기적인 기능 테스트가 있는가? 직원들의 작업은 어떻게 할당하는가? 운영 측면에서 유지 보수 및 서비스와 관련된 교육, 훈련, 자격, 비상 상황 훈련이 중요한 역할을 한다. 감사 프로세스는 조직의 개별적인 보호 요구에 맞게 조정된다. TÜV라인란드의 데이터 센터 서비스 팀은 다양한 산업의 기업들과 데이터 센터 운영자를 감사하였으며, 또한 기존 데이터 센터와 서버룸을 철저히 검사하였다.

국제 가이드라인 및 표준

TÜV라인란드는 기초, 구조적 디자인, 기술, 조직 및 운영의 카테고리에서 물리적 인프라의 안전 및 가용성을 분석한다.

가장 흥미로운 요구 사항은 에너지와 냉장 및 안전 기술의 통합 테스트이다. 데이터 센터의 „엘크 테스트“라고 하는 이 테스트 절차로 데이터 센터의 기술을 철저히 검사한다. 이 테스트가 없다면 운영자는 데이터 센터에 장애가 발생한 경우에도 데이터센터가 안정적으로 작동하는지 확신할 수 없다. 하지만 이 테스트는 많은 표준을 요구한다. TÜV라인란드가 데이터 센터 서비스의 품질을 보장하기 위해 병행하는 수많은 프로젝트에서, 통합 테스트는 고객의 최종 인수를 위한 전제조건이 된다.

통합 테스트는 시운전 이후 복잡한 기술적 건물 설비가 기능을 잘 하는지 그렇지 않은지를 평가한다. 이는 새로 만든 데이터 센터의 준공을 위한 핵심적 전제 조건이 된다. TÜV라인란드의 엘크 테스트는 다양한 장애와 전환 시나리오를 시뮬레이션하면서 전기 기술, 냉기 공급, 안전 기술과 관련된 해당 구성 요소들을 점검한다. 예를 들어 메인 전류 공급이 중단되는 블랙 빌딩 테스트에서는 다음과 같은 사항을 체크한다. 비상 전류가 자동으로 인가되는가? 스위칭 절차가 오류 없이 잘 실행되는가? 메인 전류를 다시 복귀하면 시스템이 즉시 정상 모드로 전환하는가? 이러한 질문에 하나라도 ‚아니오‘라고 대답하는 경우 신속한 대응조치가 필요하다. 또 다른 테스트로 2개의 중복 공조 시스템 중 하나가 고장 나면, 다른 공조 시스템이 지정된 온도를 유지하는지 확인한다. 만일 그렇지 못하다면 긴급한 개선이 필요하다.

조기에 오류 발견하기

TÜV라인란드는 시운전에서 숨겨져 있다가 정규 작동에서 막대한 손해를 입힐 수 있는 오류를 데이터 센터 엘크 테스트를 통해 사전에 발견할 수 있다. 이는 반가운 부수적인 기능이다. 데이터 센터 운영업체의 인력들은 효과적인 훈련을 받고 시스템에 대한 지식을 확장할 수 있다. 결국 TÜV라인란드의 테스트는 있을 수 있는 고장 시간을 미리 예방하고 가용성을 개선하는 데에 기여하고 있다. 더불어 기업의 미래를 보장한다.

MM 서비스 팁
운영 안전에 필요한 조치 식별 방법

데이터 센터 운영 안전에 필요한 조치를 보여줄 수 있는 몇 가지 지표들이 있다.

다음은 퀵 체크를 위한 짧은 질문이다.

데이터 센터의 위험 요소가 명확하게 정의되어 있는가? (발전기를 통한 하중 전달을 정기적으로 테스트하는가?)

과거에 진행 과정과 그 원인을 명확하게 밝힐 수 없었던 사건이 있었습니까?

장애 상황에 대한 행동 지침이 있으며 이를 정기적으로 훈련하고 있습니까?

책임자가 데이터 센터와 관련된 정비 계약 내용을 정확하게 알고 있습니까?

익명의 장치가 언제 수명이 종료 상태에 도달하는지 모니터링을 하고 있습니까?

데이터 센터 책임자가 어떤 조치를 통해 에너지를 절감하는지 알고 있습니까?

직원이 기술 운영에 대해 적절한 훈련을 받았습니까?

작동 매개 변수들이 서로 가장 적합하게 조정되어 있다고 확신합니까?

하나 이상의 질문에 부정적으로 답변해야 하는 경우, 바로 조치가 필요하며 의문사항이 있는 경우 전문가에게 조언을 구해야 한다. 신축 공사 시에는 초기 단계에 이러한 점검이 가장 잘 이루어진다. 전형적인 오류 원인을 적합한 노하우로 쉽게 식별하고 제거할 수 있기 때문이다. 그에 비해 추가의 구조적 변경은 번거로운 경우가 많다.