니케이 네트워크 2025/11 GPU 서버 간 원격통신이 6배속으로
Nikkei Network요약
日経NETWORK_2025.11 (p18-19)
GPU 서버 간 원격통신이 6배속으로
NTT 도코모 비즈니스 실증 성공, IOWN의 AI 활용 탄력
NTT도코모비즈니스(구 NTT커뮤니케이션즈)가 원격지에 있는 다수의 GPU(Graphics Processing Unit) 서버를 초고속으로 연계하는 기술 개발에서 성과를 올렸다. 약 40km 떨어진 2개의 데이터센터에 분산 배치한 GPU 서버들을, 800Gbps(bit per second, 비트/초) 회선으로 연결해 데이터를 전송. 일반적인 파일 전송 프로토콜 대비 6배 빠른 속도로 전송하는 실증실험에 성공했다.
NTT 그룹은 차세대 정보통신 기반 ‘IOWN(Innovative Optical and Wireless Network)’에서 원격 데이터센터 간 광회선을 이용한 초고속 통신을 유력한 용도로 보고 있다. 그 중에서도 대용량 데이터를 취급하는 AI(인공지능) 시스템에 대한 적용을 유망하게 평가하며 관련 기술 개발에 주력하고 있다. 이번 실증도 그 일환으로, 얻은 성과를 실용화로 연결할 계획이다.
-- 데이터 전송 시간이 약 6분의 1로 단축 --
이번 실증실험의 성과는 2025년 8월 27일에 발표했다. 실증에서는 주로 2개의 기술을 검증했다.
하나는 장거리에서 800Gbps 통신을 실현하는 소형 광 트랜시버(광통신용 모듈)이다. IOWN의 광통신 인프라 ‘APN(All-Photonics Network)’의 요소 기술이기도 하다. 다른 하나는 데이터 전송을 효율화하기 위해 자체 개발한 소프트웨어다.
실증실험의 구성은 다음과 같다. 약 40km 떨어진 도쿄도 지요다구와 도쿄도 미타카시에 위치한 2개의 데이터센터에서 GPU 서버를 가동시켰다. 각 서버는 미국 NVIDIA의 SmartNIC(Network Interface Card)인 'NVIDIA Connect X-6 Dx100Gbps NIC' 8장을 통해 거점 간 접속용 라우터와 접속한다.
라우터에는 광통신 전송 규격 '800G-ZR'을 지원하는 광 트랜시버를 장착해, 상대편 라우터와 800Gbps 광섬유 회선으로 연결한다. GPU 서버 간 데이터 전송에는 RDMA(Remote Direct Memory Access)를 기반으로 한 자체 개발 소프트웨어를 이용했다. RDMA는 컴퓨터끼리 서로의 메모리에 직접 접근해 데이터를 주고받는 프로토콜이다.
이 구성에서 1600GB의 데이터를 전송하고 소요시간을 확인하였다. 그 결과, 일반적인 UNIX 계열 파일 전송 프로토콜이나 전송 소프트웨어에 비해 약 6분의 1로 데이터 전송 시간을 단축했다.
-- RDMA의 과제를 극복 --
전송 시간의 단축에 기여한 것은 이번에 개발한 소프트웨어다. RDMA의 장점을 살리면서, 장거리 통신에 활용할 때의 과제를 해결하는 2개의 메커니즘을 도입했다.
이해를 돕기 위해 전제를 설명하면, TCP/IP(Transmission Control Protocol/Internet Protocol) 통신에서는 일반적으로 데이터를 교환할 때 카피 작업이 필요해 CPU(Central Processing Unit) 자원을 소모한다. 이것이 통신 속도를 높이는 데 장애요인이 된다.
RDMA는 CPU 처리를 줄여 고속화를 가능하게 한다. 다만 장거리 통신에 적용하면 스루풋이 저하되기 쉽다. RDMA에는 통신 신뢰성을 보장하지 않는 규격과 보장하는 규격이 있는데, 전자는 패킷 손실이 발생하면 재전송에 많은 시간이 걸린다.
후자의 신뢰성을 보장하는 규격은 수신 측이 데이터를 정상 수신했음을 송신 측에 알리는 메커니즘을 갖는다. 그러나 이때 송신 측은 응답을 기다리는 시간이 필요하다. 이 대기 시간은 일반적으로 거리가 길어질수록 늘어나 대용량 데이터 통신에서는 무시할 수 없는 규모가 된다.
그래서 2개의 메커니즘을 도입했다. 첫 번째는 NIC가 송수신하는 큐를 병렬화하는 것이다. 개별 데이터 교환 시 발생하는 대기 시간을 줄였다.
두 번째는 회당 데이터 전송량을 늘려 확인 응답 횟수를 줄인 것이다. 이를 통해 데이터 전송 효율을 높였다.
예를 들면 파일 전송 프로토콜의 ‘SCP(Secure Copy Protocol)’에서는 데이터 전송에 389.9초 걸린 반면, 이번 소프트웨어를 사용하면 68.8초로 끝났다. 도쿄대학이 개발한 고속 데이터 전송 프로토콜 ‘multi-threaded scp(mscp)’를 사용한 경우(131.7초)와 비교해도 더 빨랐다.
CPU에 대한 부하도 줄었다. mscp에서는 CPU 사용률이 항상 약 20%였던 데 비해, 이번에 개발한 소프트웨어를 사용했을 때는 5% 전후로 유지됐다.
-- 피자박스 크기의 장치는 불필요 --
향후 실용화를 염두에 두면, 이번 실증에서 주목해야 할 성과가 또 하나 있다. 라우터에 장착한 800G-ZR 대응 광 트랜시버가 제대로 작동한 것이다.
NTT 도코모 비즈니스의 이노베이션 센터 IOWN 추진실의 기무라(木村) 담당 과장은 “별도의 광전송 장치를 따로 준비할 필요가 없어졌다”라고 설명한다. 기존의 광통신용 모듈은 ‘피자 박스 사이즈’라고 표현될 정도로 대형 장비여서, 라우터와는 별도로 준비할 필요가 있었다.
그러나 반도체 기술의 진화로 800G-ZR 대응 광 트랜시버가 소형화되면서, 라우터나 스위치에 장착해 정상적으로 사용할 수 있음을 이번 실증으로 확인되었다. 이에 따라 시스템 구성이 단순해지고, 전기신호와 광신호를 변환하는 공정이 줄어 소비전력 절감도 전망할 수 있다. 운용 비용이 떨어지면 실용화에도 탄력이 붙는다.
NTT도코모비즈니스는 각지에 분산한 GPU 인프라를 APN으로 연결해 하나의 GPU 클러스터처럼 운용하는 ‘GPU over APN’이라는 구상을 제시하고 있다. 이번에 실증한 2개 기술도 GPU over APN의 핵심을 이룬다.
NTT도코모비즈니스는 이 GPU over APN 검증 환경을 2026년도 중에 제공할 예정이다. 생성형 AI 수요 확대를 뒷받침하는 기술로서 진화하는 APN의 활용과 기술 개발은 앞으로도 주목을 받을 전망이다.
-- 끝 --
Copyright © 2025 [Nikkei Network] / Nikkei Business Publications, Inc. All rights reserved.
목차


목차_닛케이 NETWORK_2511호
특집 1
<Back to the Basics!>
네트워크 명령어의 초(超)기본
<인트로덕션>
관리자에게 필수인 툴, 네트워크 명령어 어렵지 않아
<ping>
상대와의 소통 확인, 네트워크 명령어의 기본 ‘키’
<tracert>
수신인까지의 경로 파악, 어디까지 도달하는지 확인할 수 있어
<pathping>
상대방까지의 경로를 확인하는 또 다른 명령어
<arp>
이더넷과 IP 연결, ARP 테이블 관리
<ipconfig>
단말기의 IP 주소 관리, DHCP에서 재취득도 가능
<nslookup>
도메인 이름에서 IP 주소 알기, DNS에 등록된 정보 취득
<netstat>
포트는 데이터의 출입구, 그 작동 상태를 확인
<route>
루트 테이블을 관리, 수동으로 경로 추가 및 변경도 가능
뉴스로 이해
<NEWS close-up 1>
NTT서일본의 통신 장애 원인 판명
<NEWS close-up 2>
생성 AI를 악용한 랜섬웨어 출현
<NEWS close-up 3>
GPU 서버 간 원격통신이 6배속으로
<piyokango의 월간 시스템 트러블>
도쿄도의 위탁 사업에서 부정 액세스, 사기 사이트의 지시에 따랐다
<월간 랜섬 리포트>
세계 랜섬 피해가 3개월 연속 500건 이상, 새롭게 등장한 '시노비'의 피해 급증
현장을 알다
<당사자가 말하는 트러블로부터의 탈출>
사내 시스템에 연결되지 않는 VPN 장치를 노리는 랜섬 피해
<엔지니어의 옆모습>
트러블 대응을 위한 '서랍'을 늘려 성장, 아버지를 따라 전기통신 공사 길로
<엑시오 그룹 조사이기술센터의 우메야마 센터장>
<인터넷은 왜 연결되는가?>
데이터 송수신의 핵심이 되는 통신 기기를 배운다
<말웨어 철저 해부>
정규 기능의 빈틈을 노리는 'BYOX'
특집 2
<스테디셀러부터 최신까지 얼마나 알고 있나?>
차이를 알 수 있는 중요 보안 용어
특별 리포트
<생성 AI로 인해 높아지고 있는 조작 리스크>
‘무방비 PDF’가 표적으로
네트워크 스페셜리스트 시험을 통해 배우는 네트워크 기술의 기본
로그관리
기초부터 배운다
<전문가에게 듣는 초급자의 질문>
라우터와 스위치의 차이점은?
<그림으로 알 수 있는 네트워크 필수 키워드>
방화벽
<테크놀로지 온고지신>
최신 헤드폰을 사용해 보니 35년 전의 명작이 생각났다
-- 끝 --
Copyright © 2025 [Nikkei Network] / Nikkei Business Publications, Inc. All rights reserved.

