Google Cloud, 가장 강력한 AI 출시 | 상하이 단조 주식회사

업데이트됨 08:00 EDT / 2023년 8월 29일

마이크 휘틀리

Google Cloud는 가장 까다로운 AI 워크로드를 처리하는 데 최적화된 새로운 텐서 처리 장치와 그래픽 처리 장치 기반 가상 머신을 추가하여 클라우드 기반 인공 지능 컴퓨팅 인프라를 강화하고 있습니다.

새로운 AI 최적화 VM은 Google Cloud Next 2023에서 네트워크 에지를 포함해 어느 위치에서나 AI 및 데이터 분석 워크로드를 실행할 수 있게 해주는 업데이트된 Google 분산 클라우드 제품 출시와 함께 발표되었습니다. 또한 Google은 컨테이너 기반 애플리케이션을 위한 새로운 엔터프라이즈급 Google Kubernetes Engine 버전을 선보였습니다.

블로그 게시물에서 Google의 기계 학습, 시스템 및 클라우드 AI 총괄 관리자인 Amin Vahdat는 고객이 생성 AI 및 대규모 언어 모델과 같이 기하급수적으로 증가하는 새로운 워크로드 수요를 처리하기 위해 더 강력한 VM을 요구하고 있다고 말했습니다. “LLM의 매개변수 수는 지난 5년 동안 매년 10배씩 증가했습니다.”라고 그는 말했습니다. "결과적으로 고객에게는 비용 효율적이고 확장 가능한 AI 최적화 인프라가 필요합니다."

이러한 요구 사항을 충족하기 위해 Google은 현재 미리보기로 제공되는 Cloud TPU v5e를 고안했습니다. 지금까지 고안한 것 중 가장 비용 효율적이고 다재다능하며 확장 가능한 클라우드 TPU라고 하며 GKE, Google의 기계 학습 프레임워크 Vertex AI 및 PyTorch, TensorFlow 및 JAX와 같은 다양한 주요 AI 프레임워크와의 통합을 제공합니다. 중대형 AI 교육 및 추론 애플리케이션용으로 설계되었으며, 이전 세대에 비해 LLM 및 생성 AI 모델에 대해 달러당 최대 2배 빠른 교육 성능과 달러당 최대 2.5배 향상된 추론 성능을 제공합니다. 클라우드 TPU v4.

좋은 소식은 고객이 이러한 비용 효율성 향상을 위해 성능이나 유연성을 희생할 필요가 없다는 것이라고 Vahdat는 말했습니다. 그는 TPU v5e 포드가 유연성 및 효율성과 성능의 완벽한 균형을 제공하여 최대 256개의 칩을 초당 400TB 이상의 대역폭과 100petaOps의 성능으로 상호 연결할 수 있다고 말했습니다. 고객은 단일 칩부터 단일 슬라이스의 250개 이상에 이르는 8가지 VM 설정 중에서 선택할 수 있습니다. Vahdat는 이를 통해 고객에게 다양한 LLM 및 AI 모델을 교육하고 실행할 수 있는 탁월한 유연성을 제공한다고 덧붙였습니다.

Cloud TPU v5e VM 출시와 함께 Google은 새로운 Multislice 기술도 미리보기로 제공하고 있습니다. 이를 통해 수만 개의 TPU v5e 칩 또는 Google의 이전 TPU v4 칩을 결합할 수 있습니다. 이전에는 고객이 단일 TPU 칩 슬라이스로 제한되었으므로 TPU v4에서는 최대 3,072개의 칩으로 제한되었습니다. Multislice를 사용하면 개발자는 칩 간 상호 연결을 통해 연결된 수만 개의 클라우드 기반 칩으로 작업할 수 있습니다.

Google은 TPU v5e VM과 함께 Nvidia Corp.의 최신 H100 GPU를 기반으로 하는 새로운 A3 VM을 발표하면서 가장 까다로운 생성 AI 워크로드를 위해 특별히 제작되었다고 밝혔습니다. Google에 따르면 이전 세대 A100 GPU에 비해 성능 측면에서 큰 도약을 제공하며 훈련 속도는 3배 더 빠르고 네트워킹 대역폭은 10배 더 높습니다. Vahdat는 대역폭이 더 크기 때문에 고객은 모델을 수만 개의 H100 GPU로 확장할 수 있다고 말했습니다.

현재 미리 보기로 제공되는 단일 A3 VM에는 2테라바이트의 호스트 메모리와 함께 8개의 H100 GPU가 포함되어 있으며, 다른 애플리케이션 작업을 오프로드하기 위한 Intel의 최신 4세대 Xeon Scalable 중앙 처리 장치도 포함되어 있습니다.

Google은 OpenAI LP의 경쟁사인 생성 AI 스타트업인 Anthropic AI가 새로운 TPU v5e 및 A3 VM을 가장 먼저 채택한 기업 중 하나라고 밝혔습니다. 이를 Google Kubernetes Engine과 함께 사용하여 가장 많은 것을 훈련, 배포 및 공유해 왔습니다. 고급 모델.