일본산업뉴스요약

AWS, 1년 이내에 '액냉 데이터센터' 개설 -- AWS 인프라 책임자의 예측을 분석
  • 카테고리스마트카/ 항공·우주/ 부품
  • 기사일자 2024.2.22
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2024-03-04 22:13:03
  • 조회수44

Nikkei X-TECH_2024.2.22

AWS, 1년 이내에 '액냉 데이터센터' 개설
AWS 인프라 책임자의 예측을 분석

“차세대의 인공지능(AI)용 GPU(화상처리반도체)는 소비전력이 1,000와트가 넘기 때문에 데이터센터로의 액냉 방식 도입이 필요하게 된다. 그 시기는 12개월 이내가 될 것이다”. 미국 아마존웹서비스(Amazon Web Services, AWS)의 IT 인프라 책임자는 이렇게 예측한다.

필자는 AWS에서 IT 인프라를 통괄하는 칼리아나라만 바이스프레지던트(VP)에게 AWS의 데이터센터 전략 등을 인터뷰할 기회가 있어, 그 내용을 소개하겠다.

2011년 3월, ‘도쿄리전(Tokyo Region)’을 구축해 일본에 진출한 AWS는 2022년까지 1조 5,100억 엔을 일본의 데이터센터와 네트워크 등에 투자해왔다. 향후에는 투자 피칭을 가속화해, 2027년까지 5년간 2조 2,600억 엔을 일본에 투자할 계획이라고 한다. 그 이유에 대해 칼리아나라만 VP는 “일본 고객의 왕성한 수요에 대응하기 위해서이다”라고 말했다.

AWS는 현재, 일본에서 도쿄뿐만 아니라 오사카에도 AWS 리전을 구축하고 있다. 리전은 지역적으로 떨어져 있는 3곳 이상의 AZ(Availability Zone)으로 구성되며, AZ에는 복수의 데이터센터가 소속되어 있다. 즉, AWS는 일본에서 적어도 12곳 이상의 데이터센터를 운용하고 있다는 계산이 나온다.

-- 데이터센터를 직접 설계하고 건설하는 AWS --
AWS의 데이터센터에는 두 종류가 있다. 하나는 외부의 데이터센터 사업자로부터 플로어 등을 빌려 운용하는 것. 다른 하나는 AWS가 직접 설계한 데이터센터를 자체적으로 건설·소유해 운용하고 있는 것이다. 칼리아나라만 VP는 필자와의 인터뷰에서 일본에도 AWS가 자체 설계·건설한 데이터센터가 있다고 밝혔다.

AWS가 자체적으로 데이터센터를 설계·건설하는 것은 “가용성 및 전력효율을 추구하기 위해서”(카리아나라만 VP)라고 한다. AWS가 운용하는 데이터센터는 “규모가 큰 전형적인 데이터센터로, 40메가와트에서 50메가와트의 수전 용량을 필요로 한다”(카리아나라만 VP). 그러한 대규모 데이터센터를 외부에 요구하는 것은 용이하지 않기 때문에 AWS는 자체적으로 데이터센터의 설계·건설을 추진하고 있는 것이다.

AWS가 자체 설계하는 것은 데이터센터 건물만이 아니다. 그 내부에서 사용되는 전원장치나 냉각장치, 서버랙, 네트워크기기, 서버, CPU에 이르기까지 자체 개발하고 있다.

정전이나 전원장치 등의 고장에 대비하는 무정전 전원장치(UPS)도 AWS가 자체 설계하고 있다. 기존형의 데이터센터에서는 수십 대의 랙에 전력을 공급하는 대형 UPS를 사용하는 것이 일반적이었다. 이에 반해 AWS는 각 랙에 설치되는 소형 UPS를 자체 개발. UPS 내부에서 가동되는 소프트웨어도 자사 제품으로 함으로써 “시스템의 복원성을 향상시킬 수 있었다”(카리아나리만 VP)

-- 생성 AI 시대의 데이터센터에 필요한 3가지 도전 --
자체적으로 데이터센터 설비를 설계·개발하는 것은 향후, 더욱 중요해질 것이다. 생성 AI의 수요 급증에 부응하기 위해 데이터센터 구조를 근본적으로 바꿔나갈 필요가 있기 때문이다. 칼리아나라만 VP는 여기에 3가지 도전이 필요하다고 한다.

첫 번째는 서버의 발열을 액체 냉매로 냉각하는 ‘액냉’에 대한 도전이다. 생성 AI에 빠질 수 없는 GPU는 현시점에서 공랭으로 대처할 수 있지만 “차세대 GPU는 소비전력이 1,000와트 이상으로, 액냉 방식이 필요하게 될 것이다.

향후 12개월 이내에 데이터센터에 액냉 방식이 도입될 것이라고 예측하고 있다”(카리아나라만 VP)라고 한다. AWS는 몇 년 전부터 액냉 데이터센터에 대한 연구개발을 추진. 액냉에 대한 준비는 갖추어져 있다고 한다.

하지만 데이터센터에 액냉 방식을 도입하는 것은 쉽지 않다. 액냉 방식은 공랭에 비해 기기 코스트나 운용 코스트가 증가하기 때문이다. “생성 AI에 특화된 데이터센터의 경우에도 전체의 60~70%의 기기만이 액냉을 필요로 한다.

나머지 30~40%인 네트워크기기나 스토리지 장치, 데이터베이스 등에 사용되는 일반적인 서버에는 공랭을 사용한다”(칼리아나라만 VP). 이처럼 액냉과 공랭을 혼합한 데이터센터 설계가 필요하기 때문에 “자체 설계가 중요하다”(칼리아나라만 VP)

-- 저지연 네트워크도 자체 개발 --
두 번째 도전은 GPU나 GPU가 탑재된 서버간을 접속하는 저지연 네트워크의 실현이다. 대규모언어모델(LLM)의 트레이닝에는 대량의 GPU와 대용량의  GPU 메모리가 필요하기 때문이다. 저지연 네트워크를 실현하기 위해서 “독자적인 네트워크 스위치 개발을 위해 칩의 레이어부터 추진해왔다”(칼리아나라만 VP)

세 번째 도전 역시 저지연 네트워크에 관한 것이다. AWS는 독자적인 네트워크 스위치와 함께 독자적인 네트워크 프로토콜, 서버 상에서 가동되는 독자적인 네트워크 처리 소프트웨어 등도 개발하고 있다. 현재, Amazon EC2에서 ‘Elastic Fabric Adapter(EFA)’라는 명칭으로 제공되고 있는 고속네트워크 기능을 말한다.

지금 크게 바뀌려고 하고 있는 AWS의 데이터센터이지만, 카리아나라만 VP는 “고객으로부터의 보안상의 요망에 대응하기 위해, 데이터센터의 장소 등은 공개하고 있지 않다. AWS의 대부분의 직원도 출입이 허용되지 않는다”라고 한다. 그 내부를 꼭 보고 싶지만, 그 바램을 이루기는 어려울 것 같다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록