The Key | 每天的關鍵

發表文章

目前顯示的是 3月, 2024的文章

NVIDIA 發表 Blackwell 架構 GPU，為 AI 應用提供前所未有的性能

NVIDIA 最近宣布了一個新一代的 AI 加速器，稱為 Blackwell 架構。這個新系列包括 B100、B200 和 GB200 GPU，有希望為 AI 應用，特別是生成式 AI 領域，提供前所未有的性能。在這篇文章中，我們整理了一下這些新 GPU 的細節、規格、性能以及它們對 AI 產業的可能影響。 NVIDIA Blackwell 架構 Blackwell 架構代表了 NVIDIA 在 GPU 技術上的最新進展，接替了 Hopper 架構。Blackwell 架構以著名數學家 David Harold Blackwell 的名字命名，引入了六項變革性技術，專門為了加速計算和生成式 AI。這些技術包括第二代 Transformer 引擎、第五代 NVLink、RAS 引擎、安全 AI 功能以及用於加速資料庫查詢的解壓縮引擎。 B100 和 B200 GPU B100 和 B200 GPU 是基於 Hopper 的 H100 和 H200 的繼任者。預計 B200 將包含比 B100 更大的高頻寬記憶體容量。B200 是一個 1000W 的模組，高於 H100 的 700W，功率和性能有顯著提升。B200 被稱為世界上最強大的晶片，擁有 2080 億個電晶體，提供高達 20 petaflops 的 FP4 馬力。另一方面，B100 預計將是一個較低階的加速器，TDP 為 700W，使其可以直接與 H100 系統相容。 B100 和 B200 GPU 的整體外觀相比於 H100/H200 大，是因為 Nvidia 將兩組 Blackwell 架構的 Die，號稱是最大的兩顆 Die 直接連接在一起成為一個 Blackwell GPU。 GB200 超級晶片 GB200，也被稱為 Grace Blackwell 超級晶片，是兩個 B200 GPU 和一個 Grace CPU 的組合，提供更高的性能。它是 NVIDIA GB200 NVL72 的一部分，這是一個多節點、液冷的資料中心電腦系統，專為 AI 訓練和推理任務而設計。與相同數量的 NVIDIA H100 Tensor Core GPU 相比，GB200 NVL72 系統可以為 LLM 提供高達 30 倍的性能提升，同時將成本和能耗降低高達 25 倍。超級電腦的架構 Nvidia 針對 Black...

AI 伺服器的關鍵硬體架構：GPU、TPU、記憶體、電源供應單元（PSU）、 Optical Transceiver 與 AEC

AI 伺服器是專為滿足 AI 應用程式，包括機器學習（ML）與深度學習（DL）等工作負荷的高強度運算需求而打造的專業基礎架構。這些伺服器搭載了高效率的元件，能夠有效處理及分析龐大的數據集，這對於訓練與部署 AI 模型是不可或缺的。運算晶片 AI 伺服器的核心在於其運算資源，這些資源對於 AI 模型的訓練與數據分析相當重要。這些資源通常包含高效率的 CPU，更為關鍵的是 GPU 或其他專門的加速器，例如 Tensor Processing Units（TPU），這些設備支援平行運算。特別是 GPU，由於其能同時處理多項計算，因此在需要大量運算資源的 AI 工作中，成為首選。記憶體與儲存 AI 伺服器需要大量的隨機存取記憶體（RAM），以便在模型訓練和數據處理過程中提供短期儲存。此外，持久性儲存資源對於儲存 AI 模型學習的訓練數據也是至關重要的。這些儲存解決方案必須能處理大規模數據，並提供快速的數據讀取速度，以匹配運算資源的處理速度。電源供應單元（PSU） AI 伺服器在運作時耗電量巨大，尤其是當配置了多個高效能 GPU 或其他加速器時。因此，選擇合適的 AI 伺服器電源供應單元（PSU）對於確保供電瓦數、穩定性和可靠性相當重要。PSU 必須提供充足的電力以驅動這些高效率的組件，同時還要提供額外電力，以應對負載變化並避免數據擁塞。網絡基礎設施 AI 伺服器需要強健的網絡基礎設施來支持伺服器與其他網絡組件間的數據傳輸和溝通。高速網絡對於減少延遲和確保數據能夠迅速傳輸至伺服器及從伺服器傳出是必不可少的。Ｏptical transceiver、AEC (Active Electrical Cable) 以及電纜線路在確保高速、可靠和效率的數據傳輸中扮演著關鍵角色。Ｏptical transceiver 對於超高速的數據傳輸相當重要，AEC 提供了一種高 CP 且性能卓越的連接方案，而電纜線路，包括銅線和光纖，則構成了支撐數據通訊的物理基礎。冷卻系統考量到 AI 伺服器的高耗電量和產熱量，有效的冷卻系統是不可或缺的。為了維持最佳的運作溫度並防止硬體過熱，通常會採用如液態冷卻系統等先進的冷卻方案。伺服器機殼與外殼 AI 數據伺服器的物理結構，包括伺服器機架、外殼和風道罩，都是為了適應專門硬體和冷卻需求而設計的。這些組件必須精心設計，以支撐伺服器內部組件的重量和熱...

Perplexity Pro（4）：使用不同 AI 繪圖！

延續 Perplexity Pro（1）：選擇 GPT4 跟 DALLE3 跟繁體中文回答 Perplexity Pro（2）：Chrome 插件跟 Focus Perplexity Pro（3）：Focus 的使用效果這篇小編繼續介紹 Perplexity 跟 Perplexity Pro 的相關功能。本篇將測試一下 Perplexity Pro 的 AI 繪圖功能。截至當下 Perplexity Pro 已經引入了 Claude 3 ，在各項數據上已經有比 GPT-4 表現更好的模型。目前的模型有三種截至目前為止，Perplexity Pro 提供三種 AI 繪圖模型，分別是 Playground v2.5，DALLE-3，Stable Diffussion XL。 Playground v2.5 是 Playground AI 最新版本，他是基於 Diffusion-base 的開源模型。強項在於解決增強色彩和對比度、改善多種長寬比生成、精緻化以人為中心的細節等問題。DALL-E 3 是 OpenAI 最新的 AI 影像生成器，它夠處理複雜的 Prompt 並生成連貫且詳細的影像而受到肯定。Stable Diffusion XL (SDXL) 是另一個以 Diffusion-base 的影像模型。它可以生成高品質影像，並以其對 Prompt 的遵守度而知名，可以提供跟 Prompt 需求幾乎相同的影像。 Perplexity AI 的 AI 繪圖方法有點奇怪.... Perplexity AI 的 AI 繪圖方法不是直接輸入 Prompt，而是要 Perplexity 回答出來之後再生成。小編先請 Perplexity 回答七龍珠悟空的外型描述，注意1: 請務必請 Perplexity AI 用英文回答，目前 AI 繪圖模型不容易看懂中文，注意2: 需請 Perplexity AI 將描述壓在 45 字內，目前字數限制只有 45 字可以描述再按下右邊的 Generate Image 按鈕，可以發現 Perplexity Pro 已經預設定了一些繪圖風格，按下後可以 Perplexity AI 會擷取回答文字段落根據選取的風格進行繪圖。我們不要理，按下右上角的工具按鈕，可以調整 Prompt 內容並自行設定風格。讓我們看看 Playgrou...

LPO 光模塊：低功率，低延遲，低成本的解決方案

Linear-drive Pluggable Optics (LPO) Linear-drive Pluggable Optics（LPO）是一項新技術，被視為滿足高速、高密度光通訊連接需求的新解決方案，特別是在數據中心領域。它的目的在解決光模塊的功耗和延遲問題，這些光模塊是智能計算網絡中心和數據中心基礎設施的關鍵零件。技術說明 LPO 技術的特點是從光模塊中去除數位信號處理器（DSP， Digital Signal Processors）。取而代之的是使用線性驅動策略（linear drive），用具有高線性度和集成均衡（EQ，equalization）功能的電流轉換放大器（TIA，Transimpedance Amplifiers）和驅動晶片替代 DSP。這種方法通過移除了 DSP 設計的需求，簡化了光模塊的設計，DSP 設計傳統上在將接收到的信號在發送前進行清理，穩定。應用 LPO 特別適用於需要高頻寬和低延遲的應用，如機器學習和高性能計算環境中的 switch 對 switch、switch 對 server 和 GPU 對 GPU 連接。它也適用於需要高速數據傳輸和處理、高密度布線和節能解決方案的智能計算中心。優勢 LPO 的主要優勢包括：降低功耗：與傳統可插拔光模塊相比，LPO 光模塊可以將功耗降低約 50%。降低成本：通過消除 DSP，後者在 400G 光模塊的材料清單（BOM）成本中可占 20-40%，光模塊的整體成本可以顯著降低。低延遲：消除 DSP 並使用具有 EQ 功能的高線性 TIA 和驅動晶片可以顯著減少信號恢復時間，將延遲降低到 picosecond 。缺點儘管 LPO 技術具有其優勢，但也面臨一些挑戰：通信距離短：去除 DSP 可能導致系統中的位元錯誤率（bit error rate）增加，自然縮短了可傳輸距離。由此可知 LPO PCB 製作上針對訊號完整性，特別是阻抗表現的完整性變得更為重要。市場趨勢 LPO 市場仍在發展中，預測顯示 LPO 將在 2024 年實現大規模商業化。樂觀的行業估計提出 LPO 未來可能佔據市場份額的一半，而更保守的預測預計到 2026 年 CPO/LPO 的合併份額約為 30%。然而，Cignal AI 預測，到 2027 年，使用 LPO 的 800GbE 數據中心光學預測將...

Perplexity Pro（3）：Focus 的使用效果

延續 Perplexity Pro（1）：選擇 GPT4 跟 DALLE3 跟繁體中文回答 Perplexity Pro（2）：Chrome 插件跟 Focus 這篇小編繼續介紹 Perplexity 跟 Perplexity Pro 的相關功能。本篇將比較一下 Focus mode 的差異與適用場合。題外話，小編在寫本篇的時候，Perplexity Pro 已經引入了 GTP-4 Turbo 跟 Mistral Large 模型，Mistral 的強項在於反應速度，相關介紹可以參考這篇 Mistral 7B：開源的且快速的 AI LLM 。 Focus mode 總計有六個 mode，分別是 All，Academic，Youtube，Reddit，Wolfram|Alpha，Writing。前面四個說明的搜尋資料的範圍。All 全網搜尋，Academic 學術論文搜尋，Youtube 搜尋,Reddit 論壇搜尋。這邊比較一下結果。 All 全網搜尋點選底下的圖示 → View source，可以看到回答的來源依據。我們可以發現，回答的來源主要是網頁上的資料，總計 5 個來源。 Academic 學術論文我們可以發現如果點選這個 focus 項目，那麼主要的資訊來源就是 arxiv 這個學術論文網頁。 Youtube 搜尋和 Reddit 論壇搜尋以此類推，可以發現 perlexity ai 的 All，其實不會全部包含論文，Youtube 跟 Reddit。所以若是要針對特定主題研究，建議可以把這四個 focus 的結論都看過一遍會比較全面。 Wolfram|Alpha 解題小幫手這個功能就比較有趣了，他可以利用 WA 上的資料來進行一些數學計算解題。非常可惜的，WA 查詢的網頁只支援英文，繁體中文使用者無法體會到自然語言解題的的威力。小編測試很多次，大多時間都是由 GTP-4 Turbo 直接回答問題，而不是 WA 的結果，勉勉強強弄個 sin wave 的波形出來。如果經常使用 ChatGPT Plus 的資料分析功能的朋友，perplexity ai 目前是無法滿足這個需求的。 Writing 寫作功能說是寫作功能，其實就是沒有連網的 LLM，各式語言模型任挑。從 GTP4-Turbo, Claude 2.1 到 Mistral...