포스코홀딩스
vGPU 최적화 기반 통합 딥러닝 환경 구현
포스코홀딩스는 클루닉스의 아렌티어 시뮬레이션을 기반으로 연구조직의 고성능 컴퓨팅 환경을 구축하여 운영하고 있었다. 그러나 2022년 들어AI 및 딥러닝 워크로드에 대한 수요가 급격히 증가하면서, 기존 시스템의 복잡성과 비효율성이 새로운 과제로 떠오르고 있었다.
이에 포스코홀딩스는 클루닉스와의 전략적 협업을 통해 아렌티어 딥러닝을 추가 도입하였고, 전체 컴퓨팅 시스템을 보다 효율적이고 사용자 중심적인 환경으로 전환하는데 성공하였다. 이는 단순한 시스템 업그레이드를 넘어, 포스코홀딩스의 AI 역량 강화와 디지털 트랜스포메이션을 가속화하는 핵심 기반이 되고있다.
포스코홀딩스의 핵심 요구사항과 혁신적 솔루션 구현
vGPU 최적화딥러닝환경요구ㅣ포스코홀딩스는 2022년 AI 및 딥러닝 워크로드를 위한 고성능컴퓨팅(HPC)에 대한 수요가 증가함에 따라, vGPU 기능을 탑재한 리눅스 기반 가상머신(VM) 시스템을 구성하고자 하는 요구가 있었다. 포스코홀딩스가 제시한 핵심요구사항은 단순한 성능중심의 시스템을 넘어, 운영시 확장성과 효율성을 보장할수있는 기술적 과제들을 포함하고 있었다. 특히 기존 아렌티어 시뮬레이션 환경과의 원활한 통합과 AI 워크로드에 특화된 고성능 처리능력이 중요한 요구사항으로 제시되고 있었다.
효율적인 vGPU 리소스 할당 및 모니터링– 생산성과 효율성 확대ㅣ포스코홀딩스는 GPU 리소스의 효율적인 할당과 모니터링을 통해 생산성과 운영효율성을 높이고자 하는 요구가 있었다. 기존 시스템에서는 GPU 리소스의 비효율적 활용과 복잡한 관리 프로세스로 인해 연구진들이 실제AI 모델 개발보다 시스템 관리에 더 많은 시간을 투입해야 하는 문제가 있었다. 클루닉스는 이러한 요구에 대응하여, 여러 VM에 vGPU 리소스를 동적이고 효과적으로 할당할 수 있는 아렌티어 딥러닝 기반 시스템을 구축하였다. 이를 통해 리소스 집약적인 딥러닝 작업에 대해 최적의 성능을 보장하고, 사용자 경험을 유지하면서 컴퓨팅 기능을 최대화할 수 있는 환경을 제공하고 있다.
특히 동적 할당 시스템은 복잡성이나 규모에 관계없이 워크로드가 원활하게 실행되도록 보장하고 있으며, 아렌티어 딥러닝의 실시간 모니터링 기능을 통해 사용자와 관리자 모두가 작업 현황을 즉시 파악하고 추가 업무 프로세스를 수립할 수 있는 환경을 제공하고 있다.
사전 구성된 VM 템플릿 및 사용자 관리 기능 제공 – 업무 몰입도 향상ㅣ포스코홀딩스는 리소스 효율성 외에도 사전 구성된 VM 템플릿과 사용자 관리 기능의 중요성을 강조하고 있었다. 연구진들이 각기 다른 환경 설정으로 인해 발생하는 비효율성을 해결하고, 표준화된 개발 환경을 통해 협업 효율성을 높이고자 하는 요구가 있었다.
클루닉스는 이러한 요구에 맞춰, 사용자를 관리하고 표준화된 VM 템플릿을 배포할 수 있는 강력한 프레임워크를 아렌티어 딥러닝에 구현하였다. 배포 프로세스를 간소화하고 환경 전반에 걸쳐 일관성을 제공함으로써, 증가하는 수요를 수용하기 위한 리소스 확장도 용이하게 구성되어 있다. 이를 통해 포스코홀딩스의 연구진들은 배포 및 구성에 필요한 시간과 노력을 대폭 줄이고, 지연이나 복잡함 없이 프로젝트에 온전히 집중할 수 있는 환경을 확보하고 있다.
안전하고 원활한 협업 시스템 마련ㅣ포스코홀딩스는 대규모 연구 조직 내에서 다양한 프로젝트가 동시에 진행되는 상황에서, 보안을 유지하면서도 효율적인 협업이 가능한 시스템을 필요로 하고 있었다.
클루닉스는 아렌티어 딥러닝을 통해 다중 사용자 환경과 분산된 워크플로를 효과적으로 운영할 수 있도록 지원하고 있으며, SSH 인증 등을 통해 VM 간의 보안 상호 작용을 포함한 안전한 공동 작업 환경을 구축하였다.
이러한 보안 협업 시스템은 포스코홀딩스의 공유 프로젝트를 진행하는 팀들이 데이터 보안이나 작업 흐름 효율성을 저해하지 않고 원활하게 의사소통하고 협업할 수 있도록 하는 데 핵심적인 역할을 수행하고 있다.
포스코홀딩스의 혁신적 성과: 최대 170명 동시 사용 가능한 확장 가능한 AI 인프라
아렌티어 딥러닝 도입을 통해 포스코홀딩스는 최대 170명이 동시에 AI 및 딥러닝 개발 작업에 착수하더라도 부담 없는 시스템을 성공적으로 구축하였다. 이는 단순한 기술적 성과를 넘어, 포스코홀딩스의 AI 역량을 조직 전체로 확산시키는 전략적 기반이 되고 있다.
또한 이러한 통합 시스템을 통해 포스코홀딩스는 향후 GPU 및 시스템 투자에 대한 전략적인 인사이트를 확보할 수 있는 기틀을 마련하였으며, 데이터 기반의 의사결정을 통해 더욱 효율적인 AI 인프라 운영이 가능해지고 있다.




