AI 최적화가 데이터 센터 설계에 미치는 영향
콜린 라이언
2일 전
테이트 캔트렐. 이미지: 파웰 스위더
Verne Global의 Tate Cantrell은 복잡한 냉각 요구 사항부터 NATO 수준 보안 프로토콜에 이르기까지 AI가 데이터 센터 설계에 미치는 영향에 대해 논의합니다.
최근 Meta는 AI에 최적화된 데이터 센터 설계를 포함한 AI 발전 계획의 세부 사항을 공유하면서 새로운 설계가 "수냉식 AI 하드웨어와 데이터 센터용 수천 개의 AI 칩을 연결하는 고성능 AI 네트워크를 지원할 것"이라고 밝혔습니다. - 규모의 AI 훈련 클러스터”.
회사는 또한 새로운 설계가 더 빠르고 비용 효율적으로 구축될 것이라고 밝혔습니다. 그러나 AI 최적화는 실제로 데이터 센터 설계의 복잡성에 어떤 영향을 미칠까요?
이를 알아보기 위해 Verne Global의 최고 기술 책임자인 Tate Cantrell과 이야기를 나눴습니다. 그는 적절한 AI 운용성을 수용하기 위해 데이터 센터 설계가 변경되는 다양한 방식에 대한 통찰력을 제공했습니다.
Cantrell은 "데이터 센터 설계는 전력 수요, 냉각 요구 사항, 높은 보안, 최고 수준의 신뢰성 및 고속 네트워크 액세스의 균형을 맞추는 복잡한 작업입니다."라고 말했습니다.
"AI 모델에는 훨씬 더 높은 강도와 밀도의 컴퓨팅이 필요하므로 기존 데이터 센터 설계의 과제에 새로운 차원의 복잡성이 추가됩니다."
Cantrell에 따르면 AI 모델 호스팅에 영향을 받는 핵심 매개변수 중 일부는 전원과 안정성입니다. 더 높은 밀도의 서버 랙에 대한 필요성; 그리고 확장성.
“이러한 극한 조건에 맞게 설계되지 않은 기존 데이터 센터는 안정적인 성능을 제공할 수 없습니다. 궁극적으로 데이터 센터 업계는 AI 기술의 요구 사항을 충족하려면 수정된 데이터 센터 설계가 필요합니다.”
그런데 왜 AI 모델에 고밀도 컴퓨팅이 필요한가요? Cantrell은 AI 컴퓨팅이 "데이터 센터 내 서버 간 대기 시간이 매우 짧은 네트워크 연결"이 필요하기 때문이라고 말했습니다.
“몇 년 전 평균 랙 밀도는 랙당 5kW였습니다. 그러나 최신 세대의 AI 슈퍼컴퓨터는 데이터 센터 인프라에서 훨씬 더 많은 것을 요구합니다.
“한 랙에 있는 이러한 시스템 중 단 4개만 일반 컴퓨팅 랙 공간의 60%만 차지하면서 40kW 이상을 소비할 수 있습니다. 따라서 데이터 센터가 AI 하드웨어를 효과적으로 처리하려면 이러한 종류의 고밀도 컴퓨팅이 가능해야 합니다.”
Cantrell에 따르면 대부분의 기존 데이터 센터는 특히 냉각 측면에서 AI 신경망을 훈련하는 데 필요한 "거대한" 컴퓨팅을 처리할 수 있는 장비를 갖추고 있지 않습니다.
기존 데이터 센터는 냉각을 돕기 위해 넓은 간격의 서버 랙에 의존하는 반면, 기계 학습 애플리케이션에서는 서버 간의 대기 시간과 대역폭 용량을 최적화하는 동시에 전체 배포 비용을 최소화하므로 서로 가깝게 배치된 랙이 필요합니다.
"복잡성을 더하는 것은 공냉식 시스템이 너무 가깝게 배치되면 대용량 서버의 극심한 공기 흐름 요구 사항이 서로 부딪혀 장비 내의 냉각 팬에 역압을 생성할 수 있기 때문에 냉각 부족이 발생할 수 있다는 것입니다."라고 Cantrell은 말합니다. 추가되었습니다.
“따라서 데이터 센터는 데이터 홀의 설치 공간을 줄여야 하는 재정적 압박과 적절한 냉각을 위한 충분한 공간을 제공해야 하는 필요성의 균형을 맞춰야 합니다.
"이것이 액체 냉각 채택이 가속화되는 이유 중 하나가 될 것입니다."
복잡한 냉각 요구 사항만으로는 충분하지 않은 것처럼 Cantrell은 데이터 센터가 완전히 구성되면 무게가 1.5톤 이상 나갈 수 있는 무거운 AI 컴퓨팅 캐비닛의 이동을 허용하기 위해 "중장비를 구조적으로 처리할 수 있어야" 한다고 말합니다.
'데이터센터 보안과 관련해서는 AI 자체도 역할이 있다'
Cantrell은 AI 모델이 훈련되는 점점 더 큰 데이터 세트를 수용하고 분석할 수 있으려면 데이터 센터의 인프라가 "연결성, 민첩성 및 확장성"에 대한 요구를 충족할 수 있어야 한다고 말합니다.