클루닉스 홈페이지가 리뉴얼 오픈했습니다.

VIEW

Insight

800G·1.6T 시대, 네트워크가 아니라 스케줄링이 병목이 되는 순간

빨라진 네트워크가 곧바로 성능 향상으로 이어지지는 않는다

AI 인프라 시장에서는 800G를 넘어 1.6T급 광 인터커넥트가 빠르게 부상하고 있습니다.
하지만 이 변화의 핵심은 “더 빠른 전송 속도” 자체보다, 그만큼 방대한 데이터를 지속적으로 이동시켜야 하는 AI 워크로드의 구조에 있습니다. McKinsey는 AI 데이터센터 확산에 따라 800G 광 트랜시버 공급이 2027년까지 수요 대비 40~60% 부족할 수 있고, 1.6T 역시 2029년까지 30~40% 수준의 공급 부족이 이어질 수 있다고 분석했습니다. 이는 네트워크가 이제 보조 인프라가 아니라, AI 인프라 전체 설계와 운영 전략을 좌우하는 핵심 요소가 되었음을 보여줍니다.


중요한 점은 네트워크 속도가 높아질수록 오히려 운영 난이도도 함께 높아진다는 사실입니다. 전송 대역폭이 커져도, 어떤 작업이 어떤 자원군에 배치되는지, 데이터가 몇 번의 홉을 거쳐 이동하는지, 분산된 노드 간 통신이 얼마나 효율적으로 조직되는지에 따라 실제 체감 성능은 크게 달라집니다. 결국 800G·1.6T 시대의 경쟁력은 회선 스펙 자체보다, 그 스펙을 실제 업무 성능으로 연결하는 운영 정교함에 좌우됩니다.

 

AI 인프라의 병목은 이제 ‘연결 장비’가 아니라 ‘배치 전략’으로 이동하고 있다

Uptime Institute는 최신 AI 인프라가 더 높은 성능을 위해 가속기와 메모리를 더욱 촘촘하게 결합하고, 더 짧은 거리와 더 적은 홉으로 데이터를 이동시키는 방향으로 진화하고 있다고 설명합니다. 지연 시간을 줄이기 위해 밀도를 높이는 것은 자연스러운 선택이지만, 그만큼 전력·냉각·공간·운영 리스크도 함께 커집니다. 즉, “가깝게 묶으면 빨라진다”는 단순한 논리는 맞지만, 그 배치를 어떤 기준으로 설계하고 운영할지는 훨씬 복잡한 문제입니다.

이 지점에서 AI 플랫폼의 역할이 중요해집니다. 이제 인프라 운영의 핵심 질문은 “더 빠른 네트워크를 도입했는가”가 아니라, “어떤 워크로드를 어떤 지연 조건과 자원 토폴로지에 맞춰 배치할 것인가”입니다. 대규모 학습, 실시간 추론, 실험성 검증 작업은 요구하는 통신 패턴이 서로 다르기 때문에, 이를 동일한 방식으로 큐잉하고 배치하면 고속 네트워크를 도입해도 병목은 반복될 수밖에 없습니다. 따라서 AI 인프라는 네트워크 성능을 높이는 것만으로는 부족하고, 워크로드 특성을 이해한 배치 전략을 함께 갖춰야 합니다.

 

국내 시장에서도 ‘학습’과 ‘추론’은 다른 네트워크 전략을 요구하고 있다

AI 학습과 추론은 전력, 냉각, 입지, 지연시간 요구조건이 서로 다르기 때문에 데이터센터 전략도 이원화되는 흐름을 보이고 있습니다. 대규모 AI 학습은 초고밀도 GPU 클러스터를 기반으로 200MW 이상 전력이 필요한 경우가 많아, 전력망 여유가 크고 확장성이 높은 비수도권 거점이 유리합니다. 반면 AI 추론은 응답 지연 최소화가 중요하기 때문에 이용자와 기업 수요가 집중된 수도권 중심의 엣지·미드사이즈 인프라 수요가 확대되고 있습니다. 

이 시사점은 분명합니다. 이제 네트워크는 단순히 “속도가 빠른가”의 문제가 아니라, “어떤 워크로드를 어느 위치에서 운영할 것인가”의 문제와 직결됩니다. 학습은 전력과 확장성이 우선인 반면, 추론은 지연시간과 사용자 근접성이 더 중요합니다. 즉, 같은 AI 워크로드라도 모두 동일한 클러스터와 동일한 네트워크 정책으로 처리할 수 없으며, 플랫폼은 이런 차이를 반영해 자원을 배치하고 운영해야 합니다. 고속 네트워크는 필요조건이지만, 실제 성능과 효율은 워크로드별 운영 전략에 좌우됩니다.

 

그래서 AI 플랫폼은 무엇을 더 잘해야 하나

첫째는 어떤 작업을 어떤 자원에 배치해야 가장 효율적인지를 판단하는 능력입니다.
AI 네트워크는 크게 scale-up과 scale-out으로 구분됩니다. scale-up은 가속기 간 초근거리·초저지연 연결에 가깝고, scale-out은 클러스터 전체를 확장하는 보다 넓은 연결 구조에 가깝습니다. 이 둘은 역할이 다르기 때문에, 플랫폼이 워크로드의 성격을 구분하지 못하면 고속 인터커넥트를 보유하고도 기대한 성능을 얻기 어렵습니다.


둘째는 분산 추론 운영을 위한 정책 기반 스케줄링입니다.
AI 서비스가 실시간화될수록 중요한 것은 단순 처리량보다 예측 가능한 응답성과 안정성입니다. 특정 추론 작업은 지연시간이 민감하고, 어떤 작업은 데이터 지역성이나 노드 간 통신 비용이 더 중요할 수 있습니다. 따라서 선착순 배치나 고정 자원 할당만으로는 효율적인 운영이 어렵습니다. 플랫폼은 작업 우선순위, 자원군 특성, 데이터 위치, 지연 민감도 등을 반영해 배치 정책을 세밀하게 설계할 수 있어야 합니다.


셋째는 운영 가시성입니다. 이제 플랫폼이 보여줘야 하는 것은 단순한 네트워크 사용률이 아닙니다. 어느 워크로드가 어떤 자원군에 배치됐는지, 어디에서 홉이 늘어나는지, 어떤 구간에서 대기시간이 누적되는지, 분산 추론 시 어떤 자원 조합이 비효율을 만드는지까지 파악할 수 있어야 합니다. 장비 성능만 높일 것이 아니라, 전체 시스템을 함께 설계하고 실시간으로 상태를 보며 제어할 수 있어야 합니다.

 

800G·1.6T 시대일수록 더 중요한 것은 ‘증설보다 운영’이다

AI 인프라는 계속 더 빨라질 것입니다. 800G에서 1.6T로, 다시 그 이상으로 연결 기술은 발전할 가능성이 높습니다. 그러나 기업이 체감하는 성능 향상은 회선 속도 자체보다, 그 속도를 실제 업무 효율로 전환하는 운영 체계에 더 크게 좌우됩니다. 더 빠른 네트워크를 도입했는데도 대기시간이 줄지 않고, 분산 추론 효율이 개선되지 않으며, 특정 자원군만 반복적으로 혼잡해진다면 문제의 본질은 장비가 아니라 운영 설계에 있습니다.

결국 핵심은 분명합니다. 고속 네트워크 시대일수록 병목은 장비보다 운영에서 먼저 드러납니다. AI 플랫폼은 단순한 연결 인프라 위에 올라가는 관리 도구가 아니라, 워크로드 배치, 자원 정책, 지연시간 관리, 분산 추론 운영을 하나의 체계로 묶어주는 운영 기반이어야 합니다. 800G·1.6T 시대에 필요한 것은 더 빠른 연결만이 아니라, 그 연결을 제대로 활용하게 만드는 더 정교한 운영입니다.