~/network/infiniband
HPC

InfiniBand

InfiniBand(IB)는 서버, 스토리지, GPU 같은 컴퓨팅 자원을 매우 높은 대역폭과 매우 낮은 지연으로 연결하기 위해 설계된 고성능 인터커넥트 기술이다. 이름 그대로 "끝없는 대역(infinite band)"을 지향하며, 일반 사무용 LAN에서 사용하는 이더넷과는 전혀 다른 시장을 겨냥한다.

이더넷이 사용자 PC와 사무실 네트워크를 잇는 범용 LAN 기술이라면, InfiniBand는 데이터센터 안에서 서버 사이를 잇는 백엔드 패브릭에 가깝다. 슈퍼컴퓨터, AI 학습 클러스터, 고성능 스토리지처럼 노드 간 통신이 시스템 성능을 좌우하는 환경에서 사실상 표준으로 자리잡았다.

백엔드 패브릭: "백엔드"는 사용자 트래픽이 닿지 않는 서버끼리의 내부 통신 영역을 의미하고, "패브릭"은 다중 경로로 촘촘히 엮여 단일 시스템처럼 동작하는 네트워크 구조를 의미한다. 즉 외부에 노출되지 않으면서 노드 간 통신을 빠르고 균등하게 처리하기 위해 짜인 데이터센터 내부망을 가리킨다.

등장 배경

InfiniBand는 1999년 Intel, IBM, HP, Sun, Microsoft 등이 모인 IBTA(InfiniBand Trade Association)에서 표준화되었다. 원래 의도는 PCI 버스를 대체할 차세대 시스템 I/O 패브릭이었다. 즉 서버 내부의 메모리/CPU/디스크를 잇는 버스부터, 서버 간 통신까지 하나의 기술로 통합하려는 야심찬 시도였다.

PCI 대체라는 본래 목표는 PCIe가 표준화되면서 무산되었지만, 서버 간 인터커넥트 분야에서는 살아남아 HPC(High Performance Computing) 시장의 사실상 표준으로 발전했다. 이후 가상화, 분산 스토리지, AI/ML 학습 클러스터로 영역이 확장되면서 다시 한 번 주목을 받게 되었다.

주요 특징

InfiniBand가 일반 이더넷과 차별화되는 지점은 다음과 같다.

  • 고대역폭: 한 링크당 200Gbps(HDR), 400Gbps(NDR), 800Gbps(XDR)까지 지원한다.
  • 저지연: 스위치 한 단을 통과하는 데 100~200ns 수준. 이더넷 스위치(수 µs) 대비 한 자릿수 차이가 난다.
  • RDMA 기본 지원: 원격 노드의 메모리에 CPU 개입 없이 직접 접근할 수 있다.
  • 무손실(Lossless) 패브릭: 링크 레벨에서 크레딧 기반 흐름 제어를 사용해 패킷 드롭이 거의 발생하지 않는다.
  • 중앙 집중식 관리: 네트워크 전체를 관장하는 Subnet Manager가 토폴로지와 라우팅을 책임진다.

이 특징들은 모두 노드 간 통신이 곧 성능 병목이 되는 환경을 위한 것이다. 슈퍼컴퓨터나 AI 학습 클러스터에서는 여러 서버가 하나의 작업을 나눠 처리하기 때문에, 서로 중간 결과를 주고받는 속도가 전체 처리 속도를 좌우한다. CPU나 GPU가 아무리 빨라도 노드 사이의 통신이 느리면 그 자원이 통신 대기 시간 동안 놀게 된다. 사용자 단말이 수만 개 연결되는 캠퍼스 LAN과는 설계 철학이 다른 이유이다.

RDMA

InfiniBand를 이야기할 때 빠질 수 없는 개념이 RDMA(Remote Direct Memory Access)이다. 원격 노드의 메모리를 CPU와 운영체제 커널을 거치지 않고 직접 읽고 쓸 수 있는 기술로, InfiniBand 표준의 핵심 기능 중 하나이다.

덕분에 InfiniBand는 같은 대역폭의 이더넷 대비 CPU 사용률이 훨씬 낮고, 지연도 한 자릿수 µs 수준으로 떨어진다. AI 학습에서 GPU 간 그래디언트를 동기화하거나, 분산 스토리지에서 노드 간 데이터를 복제할 때 결정적인 이점이 된다.

RDMA의 동작 방식, Verbs API, Queue Pair 모델, 구현 방식별 비교는 별도 글 RDMA에서 자세히 다룬다.

아키텍처

InfiniBand 패브릭의 구성 요소는 크게 네 가지이다.

HCA (Host Channel Adapter)

서버에 꽂히는 InfiniBand 어댑터 카드이다. 이더넷의 NIC에 해당하지만, RDMA 엔진과 자체 프로세서를 내장하고 있어 CPU 부담 없이 패킷 처리, 메모리 접근, 큐 관리를 직접 수행한다.

Switch

InfiniBand 스위치는 패킷을 포워딩하는 역할만 한다. 라우팅 결정이나 토폴로지 관리는 스위치가 아니라 Subnet Manager가 담당하기 때문에, 스위치 자체는 단순하고 빠르게 동작한다.

Subnet Manager (SM)

InfiniBand의 가장 독특한 요소이다. 네트워크 전체를 한 곳에서 통제하는 컨트롤러로, 다음과 같은 일을 한다.

  • 토폴로지 디스커버리 - 어떤 노드가 어디에 연결되어 있는지 파악
  • LID(Local Identifier) 할당 - 각 포트에 고유한 주소 부여
  • 경로 계산 및 포워딩 테이블 배포
  • 링크 상태 모니터링

이더넷이 STP, OSPF처럼 분산 프로토콜로 토폴로지를 학습하는 것과 달리, InfiniBand는 SM이라는 단일 주체가 패브릭 전체를 SDN처럼 통제한다. 보통 한 패브릭에 1개의 SM이 활성화되고, 이중화를 위해 여러 개를 띄우되 마스터/스탠바이 구조로 운영한다.

Cable

QSFP 계열 광/구리 케이블을 사용한다. 같은 폼팩터라도 InfiniBand 모드와 이더넷 모드를 구분해서 사용해야 한다.

속도 등급

InfiniBand는 세대를 거치면서 링크 속도를 꾸준히 끌어올렸다. 한 링크는 보통 4개의 lane을 묶은 4x 구성이 기본이다.

세대1 lane4x 링크등장 시기
SDR2.5 Gbps10 Gbps2001
DDR5 Gbps20 Gbps2005
QDR10 Gbps40 Gbps2008
FDR14 Gbps56 Gbps2011
EDR25 Gbps100 Gbps2014
HDR50 Gbps200 Gbps2018
NDR100 Gbps400 Gbps2022
XDR200 Gbps800 Gbps2024

이름은 SDR(Single), DDR(Double), QDR(Quad)처럼 lane당 데이터 레이트가 두 배씩 증가하는 패턴에서 시작했다. 이후 FDR(Fourteen), EDR(Enhanced), HDR(High), NDR(Next), XDR(eXtreme)로 명명 규칙이 다소 자유로워졌다.

InfiniBand vs Ethernet

두 기술은 겨냥하는 시장이 다르기 때문에 우열을 가리기보다 용도에 맞춰 선택하는 편이다.

구분InfiniBandEthernet
주 용도HPC, AI 학습, 백엔드 패브릭사용자 LAN, 일반 데이터센터
대역폭400 ~ 800 Gbps (NDR/XDR)400 ~ 800 Gbps (최신 사양)
지연(스위치 1단)100~200 ns수 µs
손실무손실 (크레딧 기반)기본은 손실, PFC로 무손실 가능
RDMA기본 지원RoCE/iWARP로 별도 지원
관리중앙 집중 (Subnet Manager)분산 (STP, OSPF 등)
생태계사실상 NVIDIA(구 Mellanox) 단일멀티 벤더
가격상대적으로 비쌈상대적으로 저렴, 표준화

요약하면 InfiniBand는 성능과 단순함을, Ethernet은 범용성과 비용 효율을 취한다. 일반적인 웹 서비스 인프라에는 Ethernet으로도 충분하지만, 노드 간 통신이 시스템 성능을 좌우하는 HPC/AI 클러스터에서는 InfiniBand의 이점이 크다.

RoCE (RDMA over Converged Ethernet)

InfiniBand는 성능이 뛰어나지만 별도의 전용 패브릭을 요구한다는 부담이 있다. 데이터센터 운영자 입장에서는 "기존 이더넷 인프라와 운영 노하우를 그대로 활용하고 싶다"는 요구가 자연스럽게 생겼고, 그래서 등장한 것이 RoCE 이다. 이더넷 위에 InfiniBand의 RDMA 전송 계층을 그대로 얹은 형태이다.

비슷한 목적의 기술로 TCP 위에서 RDMA를 구현하는 iWARP도 있지만, 성능 측면에서 RoCE에 밀려 점차 사용이 줄고 있다. 현재 데이터센터 RDMA의 주류는 RoCE v2이다.

RoCE의 v1/v2 차이, 무손실 이더넷(PFC, ECN, DCQCN) 요구사항, InfiniBand와의 트레이드오프, 운영 시 주의사항은 별도 글 RoCE에서 자세히 다룬다.

사용 사례

InfiniBand가 압도적인 점유율을 보이는 영역은 다음과 같다.

  • 슈퍼컴퓨터: TOP500에 오르는 시스템의 다수가 InfiniBand 기반이다. MPI(Message Passing Interface) 같은 병렬 처리 프레임워크가 RDMA의 이점을 직접 활용한다.
  • AI 학습 클러스터: GPU 간 All-Reduce 통신이 학습 시간의 큰 비중을 차지하므로, 노드 간 대역폭과 지연이 곧 학습 처리량으로 이어진다. NVIDIA의 DGX SuperPOD가 대표적인 InfiniBand 기반 아키텍처이다.
  • 분산 스토리지: Lustre, GPFS, BeeGFS 같은 병렬 파일 시스템과 Ceph, NVMe-oF 같은 차세대 스토리지가 RDMA를 적극 활용한다.
  • 금융권 트레이딩: 마이크로초 단위의 지연이 수익으로 직결되는 HFT(High Frequency Trading) 환경.
  • HPC가 결합된 데이터베이스: Oracle Exadata처럼 백엔드 노드 간 통신에 InfiniBand를 사용하는 어플라이언스.

반대로 일반적인 웹 서비스, 사용자 트래픽이 주를 이루는 캠퍼스 LAN, North-South 트래픽 중심의 일반 데이터센터에서는 InfiniBand를 거의 쓰지 않는다.

벤더

InfiniBand 시장은 사실상 NVIDIA가 단독으로 주도한다. 2019년 NVIDIA가 Mellanox를 인수하면서 HCA, 스위치, 케이블, 관리 소프트웨어까지 거의 전 라인업이 한 회사로 통합되었다.

대표 제품 라인은 다음과 같다.

  • ConnectX 시리즈: HCA. 최신 ConnectX-7은 NDR 400Gbps를 지원한다.
  • Quantum 시리즈: InfiniBand 스위치. Quantum-2는 NDR, Quantum-X는 XDR 세대이다.
  • BlueField DPU: HCA에 ARM 코어와 가속기를 결합한 데이터 처리 유닛. RDMA, 보안, 스토리지 가속을 호스트 CPU 대신 처리한다.
  • UFM(Unified Fabric Manager): Subnet Manager 역할에 더해 모니터링, 텔레메트리, 정책 관리까지 통합한 관리 플랫폼.

과거에는 Intel(QLogic 인수)이 Omni-Path라는 InfiniBand 호환 기술로 경쟁했으나 사업이 Cornelis Networks로 분사되면서 영향력이 크게 줄었다. 사실상 NVIDIA 단일 벤더 종속이라는 점이 InfiniBand 도입의 가장 큰 위험 요소이며, 그래서 RoCE 기반 이더넷 패브릭으로 대체하려는 시도가 꾸준히 이루어지고 있다.