為何選擇 Amazon EC2 Trn1 執行個體?
Amazon Elastic Compute Cloud (EC2) Trn1 執行個體採用 AWS Trainium 晶片,專為生成式 AI 模型的高效能深度學習 (DL) 訓練打造,包括大型語言模型 (LLM) 和潛在擴散模型。與其他同類 Amazon EC2 執行個體相比,Trn1 執行個體可節省高達 50% 的訓練成本。 您可使用 Trn1 執行個體在各種應用程式中訓練 100B+ 參數 DL 和生成式 AI 模型,例如文字摘要、程式碼產生、問題解答、影像和影片產生、建議,以及詐騙偵測。
AWS Neuron SDK 可協助開發人員在 AWS Trainium 上訓練模型 (並在 AWS Inferentia 晶片上部署模型)。其與 PyTorch 和 TensorFlow 等架構原生整合,因此您可以繼續使用現有的程式碼和工作流程,在 Trn1 執行個體上訓練模型。若要了解目前 Neuron 對機器學習 (ML) 架構和程式庫、模型架構和硬體最佳化的支援,請瀏覽 Neuron 文件。
採用 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體簡介
優勢
功能
客戶和合作夥伴見證
以下是客戶和合作夥伴如何透過 Amazon EC2 Trn1 執行個體實現業務目標的範例。
-
Databricks
全球超過 10,000 個組織,包括 Comcast、Condé Nast 和超過 50% 的財富 500 強企業都依賴 Databricks 來統一其資料、分析和 AI。
成千上萬的客戶已在 AWS 上實作 Databricks,讓他們能夠使用 MosaicML 針對各種使用案例,預先訓練、微調和提供基礎模型。AWS Trainium 為我們提供訓練 Mosaic MPT 模型所需的規模和高效能,而且成本低廉。在我們訓練新一代 Mosaic MPT 模型時,Trainium2 能夠更快速地建置模型,讓我們能夠為客戶提供前所未有的規模和效能,以便他們可以更快地將自己的生成式 AI 應用程式帶到市場。
Databricks 生成式 AI 副總裁 Naveen Rao -
Stockmark Co., Ltd
Stockmark 以「重塑價值創造機制和推進人類發展」為使命,透過提供尖端的自然語言處理技術,幫助眾多公司建立和打造創新業務。
憑藉採用 AWS Trainium 晶片的 16 節點 Amazon EC2 Trn1 執行個體,我們已開發並發佈 stockmark-13b,這是一款具有 130 億個參數的大型語言模型,並在日本 220B 代幣庫上從頭開始進行預先訓練。該庫包括截至 2023 年 9 月的最新商業域文字。相較於其他同等模型,該模型在 JGLUE (日語通用語言理解評估) 基準上獲得最高的 JSQUAD 分 (0.813)。可在 Hugging Face Hub 獲得該模型,並且可在 MIT 授權下做為商業用途使用。相較於同等 GPU 執行個體,Trn1 執行個體協助我們降低了 20% 的訓練成本。
Stockmark Co., Ltd. 技術長 Kosuke Arima -
RICOH
RICOH 提供工作場所解決方案和數位轉型服務,旨在管理和最佳化跨企業的資訊流。
遷移至 Trn1 執行個體非常簡單。我們能夠在短短 8 天內完成 130 億個參數模型的訓練。在此成功基礎上,我們期待在 Trainium 上開發和訓練 700 億個參數模型,能夠更快、更經濟高效地訓練這些執行個體,我們激動不已。
RICOH 數位技術開發中心總監 Yoshiaki Umetsu -
HeliXon
在 HeliXon,我們為基於蛋白質的療法打造下一代人工智慧解決方案。我們的目標是開發人工智慧工具,讓科學家能破譯蛋白質功能和相互作用,查詢大規模基因組資料集以進行標靶辨識,並設計抗體和細胞療法等療法。如今,我們使用訓練分佈式程式庫 (如 FSDP) 在許多基於 GPU 的伺服器上對模型進行平行訓練,但是訓練單個模型還是需要數週時間。我們很高興能利用 AWS 中具有最高網路頻寬 (800 Gbps) 的 Amazon EC2 Trn1 執行個體來提高分佈式訓練任務的效能,減少模型訓練時間,同時降低訓練成本。
Helixon 執行長 Jian Peng -
Money Forward, Inc.
Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。
我們在 Amazon EC2 Inf1 執行個體上推出了大規模 AI 聊天機器人服務,與基於 GPU 的同類執行個體相比,推論延遲降低了 97%,同時還降低了成本。由於我們會定期微調量身定製的 NLP 模型,因此減少模型訓練時間和成本也很重要。根據我們在 Inf1 執行個體上成功遷移推論工作負載的經驗,以及在採用 AWS Trainium 的 EC2 Trn1 執行個體上的初步工作,我們預期 Trn1 執行個體將在提高端對端機器學習效能和成本方面帶來額外價值。
Money Forward, Inc. 技術長 Takuya Nakade -
Magic
Magic 是綜合性產品和研究公司,正致力於開發就像同事一樣的人工智慧,好讓世界變得更有生產力。
訓練基於自動廻歸變換器的大型模型是我們工作的重要一環。採用 AWS Trainium 的 Trn1 執行個體專為這些工作負載而設計,可提供近乎無限的可擴展性、快速的節點間聯網,以及對 16 位元和 8 位元資料類型的進階支援。Trn1 執行個體將幫助我們以更低成本,更快地訓練大型模型。我們對 Trainium 中對 BF16 隨機四捨五入的原生支援感到特別興奮,此功能可提高效能,同時數值準確度與完整精準度並無區別。
Magic 聯合創辦人暨執行長 Eric Steinberger -
Cactus Communications
CACTUS 為研究人員和組織提供了一套產品和解決方案,能改善研究獲得資金、發表、交流和發現的方式。
在 Cactus Labs,我們利用人工智慧的力量,研究重點是自然語言處理、排名和推薦、對話式人工智慧、大型語言模型、電腦視覺、擴增實境/虛擬實境 (AR/VR) 和 可解釋人工智慧 (XAI)。我們希望能更快地訓練機器學習模型,並讓我們的研究人員能在管理基礎設施成本的同時進行更多實驗,因此我們很高興對 AWS Trainium 進行評估。AWS Trainium 的開箱即用功能,如 XLA 最佳化、多工作者資料平行訓練和圖形快取等,可以減少我們的訓練時間,幫助我們更快、更便宜地執行更多實驗。
Cactus Communications 技術長暨新興產品主管 Nishchay Shah -
Watashiha
Watashiha 提供創新的互動式 AI 聊天機器人服務 “OGIRI AI”,該服務融合了幽默感,在現場提供有趣的問題答案。
我們使用大型語言模型來融合幽默感,並在 AI 服務上為客戶提供更相關和對話式體驗。這需要我們經常預先訓練和微調這些模型。我們善用張量和資料平行處理,在 EC2 Trn1.32xlarge 執行個體上預先訓練以 GPT 為基礎的日文模型。相較於我們之前的 GPU 型基礎設施,訓練在 28 天內即可完成,且成本降低了 33%。隨著模型的複雜性持續快速增加,我們有望將 Trn1n 執行個體的網路頻寬增加至 Trn1 的兩倍,以加速對大型模型的訓練。
Watashiha, K.K. 技術長 Yohei Kobashi
-
PyTorch
在 PyTorch,我們加快了將機器學習從研究原型設計轉向生產的速度,為客戶做好準備。我們與 AWS 團隊進行了廣泛合作,為採用 AWS Trainium 的全新 Amazon EC2 Trn1 執行個體提供原生 PyTorch 支援,而這些執行個體是專為訓練深度學習模型而打造。建立 PyTorch 模型的開發人員只需最少的程式碼更改即可開始在 Trn1 執行個體上進行訓練。此外,我們還與 OpenXLA 社區合作,啟用 PyTorch 分佈式程式庫,以便輕鬆地將模型從基於 GPU 的執行個體遷移到 Trn1 執行個體。Trn1 執行個體為 PyTorch 社區帶來的創新讓我們興奮不己,包括更高效的資料類型、動態形狀、自訂運算子、硬體優化的隨機捨入和即時偵錯模式。這一切都讓 Trn1 非常適合 PyTorch 開發人員的廣泛採用,我們期待未來共同為 PyTorch 做出貢獻,以進一步最佳化訓練效能。
PyTorch 應用 AI 工程經理 Geeta Chauhan -
Hugging Face
Hgging Face 的使命是將出色的 ML 大眾化,協助世界各地的 ML 開發人員解決現實世界的問題。而關鍵在於確保最新和最出色的模型,在雲端的最佳 ML 晶片上盡可能快速高效地執行。我們對 Inferentia2 的潛力感到非常振奮,這將成為大規模部署生成式 AI 模型的新標準方式。憑藉 Inf1,我們發現比傳統 GPU 型執行個體最高可降低 70% 的成本,而且使用 Inf2,相較於 Inferentia1,我們看到類似 BERT 的轉換器延遲最高可減少 8 倍。藉助 Inferentia2,我們的社群將能夠以 100B 以上的參數規模輕鬆地將此效能擴展至 LLM,以及擴展至最新的擴散和電腦視覺模型。
-
Amazon
我們正在訓練大型語言模型 (LLM),這些模型包括多模式 (文字+影像)、多語言、多地區、預先接受過多個任務訓練、跨多個實體 (產品、查詢、品牌、評論等),以改善客戶的購物體驗。與其他加速機器學習解決方案相比,Trn1 執行個體可提供最佳的效能功耗比,從而為訓練大型語言模型提供了更永續的方式,並以最低成本為我們提供了高效能。我們計劃探索新的可設定 FP8 資料類型和硬體加速隨機四捨五入,以進一步提升訓練效率和開發速度。
Amazon Search 副總裁 Trishul Chilimbi
入門
產品詳細資訊
執行個體大小 | Trainium 晶片 |
加速器 記憶體 (GB) |
vCPU | 執行個體 記憶體 (GiB) |
本機 NVMe 儲存 (TB) |
網路 頻寬 (Gbps) |
EFA 和 RDMA 支援 |
EBS 頻寬 (Gbps) |
隨需 每小時價格 |
1 年 預留 執行個體 有效率 每小時* |
3 年 預留 執行個體 有效率 每小時* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0.5 | 最多 12.5 | 否 | 最多 20 | 1.34 USD | 0.79 USD | 0.4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | 是 | 80 | 21.50 USD | 12.60 USD | 7.59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1600 | 是 | 80 | 24.78 USD | 14.52 USD | 8.59 USD |