![]() 「香港飛龍」標誌 本文内容: 公衆號記得加星標??,第一時間看推送不會錯過。來源:內容編譯自tesla。在大型處理器上檢測故障核心並將其禁用是一項挑戰,但特斯拉開發了 Stress 工具,該工具不僅可以在 Dojo 處理器上檢測容易出現靜默數據損壞的核心,還可以在擁有數百萬個核心的 Dojo 集羣中檢測核心,而無需將其離線。這項功能至關重要,因爲特斯拉表示,單個靜默數據錯誤就可能毀掉需要數週才能完成的整個訓練過程。特斯拉的 Dojo 是目前全球最大的兩款處理器之一。這些巨大的晶圓級芯片使用整塊 300 毫米晶圓,這意味着一次性構建更大的計算能力根本不可能。每個 Dojo 晶圓級處理器最多可容納 8,850 個核心,但其中一些核心在部署後可能會引發靜默數據損壞 (SDC),從而破壞大規模訓練運行的結果。大型處理器鑑於 Dojo Training Tile(大型晶圓尺寸芯片)的極端複雜性,即使在製造過程中也不容易檢測到有缺陷的芯片,但是當涉及到靜默數據損壞(SDC)時,事情會變得更加複雜。請記住,所有類型的硬件都不可避免地會出現 SDC,但 Dojo 處理器的電流消耗高達 18,000 安培,功耗高達 15,000 瓦,這會產生影響。不過,所有核心都應該按預期運行,否則特斯拉的 AI 訓練將變得更加複雜,因爲數據損壞導致的一箇錯誤就可能使數週的 AI 訓練付諸東流。特斯拉將每個晶圓級 Dojo 處理器稱爲“訓練塊”。每個訓練塊包含 25 個 645 平方毫米 D1“芯片”,這些芯片具有 354 個定製的 64 位 RISC-V 內核,配備 1.25 MB SRAM 用於數據和指令(特斯拉稱之爲節點,但爲了便於理解,我們將其稱爲內核),這些內核以 5×5 集羣的形式組織,並使用具有 10 TB/s 定向帶寬的機械網絡互連。每個 D1 還支持 4 TB/s 的片外帶寬。因此,每個“訓練塊”包含 8,850 個內核,支持 8 位、16 位、32 位或 64 位整數以及多種數據格式。特斯拉使用臺積電的 InFO_SoW 技術封裝其晶圓級 Dojo 處理器。需要適當的維護爲了應對核心故障風險,特斯拉首先部署了一種差分模糊測試技術。該初始版本需要生成一組隨機指令,並將相同的序列發送到所有核心。執行後,會比較輸出以查找不匹配項。然而,由於主機和 Dojo 訓練模塊之間的通信開銷巨大,該過程耗時過長。爲了提高效率,特斯拉改進了該方法,爲每個核心分配一箇由 0.5 MB 隨機指令組成的獨特有效載荷。核心不再與主機通信,而是在 Dojo 訓練模塊內相互檢索有效載荷並依次執行。這種內部數據交換利用了 Dojo 訓練模塊的高帶寬通信,使特斯拉能夠在顯著縮短的時間內測試約 4.4 GB 的指令。隨後,特斯拉進一步增強了該方法,允許內核多次運行每個有效載荷,而無需在每次運行之間重置其狀態。這項技術爲執行環境引入了額外的隨機性,使得原本可能無法檢測到的細微錯誤得以暴露。該公司表示,儘管執行次數有所增加,但與檢測可靠性的提升相比,速度下降微不足道。另一項改進是使用 XOR 運算定期將寄存器值集成到指定的 SRAM 區域,這將識別有缺陷的計算單元的概率提高了 10 倍(在已知有缺陷的核心中進行測試),而不會顯著降低性能。不僅在處理器層面特斯拉的方法不僅適用於 Dojo 訓練模塊級別或 Dojo Cabinet 級別(包含 12 個 Dojo 訓練模塊),還適用於 Dojo Cluster 級別,使該公司能夠從數百萬個活動核心中識別出故障核心。報告稱,經過適當調整後,壓力監控系統在 Dojo 集羣中發現了大量存在缺陷的核心。不過,檢測時間的分佈差異很大。大多數缺陷是在每個核心執行 1 GB 到 100 GB 的有效載荷指令後發現的,這相當於幾秒到幾分鐘的運行時間。更難檢測的缺陷可能需要 1000 GB 以上的指令,這意味着需要幾個小時的執行時間。值得注意的是,特斯拉的壓力測試工具運行輕量級且獨立於核心內部,因此它可以在後臺進行測試,而無需核心離線。顯然,只有被識別爲故障的核心纔會被禁用,即使如此,每個 D1 芯片也能容忍少數核心被禁用,而不會影響整體功能。識別設計缺陷特斯拉還提到,除了檢測到故障核心外,壓力工具還發現了一箇罕見的設計級缺陷,工程師們通過軟件調整成功解決了該缺陷。在監控系統更廣泛的部署過程中,還發現並糾正了低級軟件層中的幾個問題。目前,Stress 工具已完全集成到 Dojo 集羣中,用於在 AI 主動訓練期間對硬件健康狀況進行現場監控。該公司表示,通過此監控觀察到的缺陷率與Google和 Meta 發佈的缺陷率相當,這表明該監控工具和硬件與其他公司使用的水平相當。在後硅和前硅階段特斯拉目前計劃利用其壓力測試獲得的數據來研究硬件因老化而導致的長期性能下降。此外,該公司還計劃將該方法擴展到硅片投產前的測試階段和早期驗證工作流程,以便在生產前就能發現上述故障。儘管由於老化可能導致系統缺陷 (SDC),因此很難想象如何實現這一目標。思考開發和製造晶圓級處理器是一項極其複雜的任務,業內只有兩家公司——Cerebras 和 Tesla——完成了這項任務。與其他處理器一樣,這些設備容易出現缺陷和性能下降;然而,Tesla 開發了自己的方法,可以在不讓處理器核心下線的情況下識別故障處理器核心,這凸顯了其取得的重大進展。爲 Cerebras 和特斯拉製造這些巨型處理器的臺積電 (TSMC) 表示,未來幾年 將有更多公司採用其 SoIC-SoW 技術的晶圓級設計。顯然,業界正在爲此做準備,並積累經驗。一點一點地。https://www.tomshardware.com/pc-components/cpus/tesla-details-how-it-finds-punishing-defective-cores-on-its-million-core-dojo-supercomputers-a-single-error-can-ruin-a-weeks-long-ai-training-run*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4059期內容,歡迎關注。加星標??第一時間看推送,小號防走丟求推薦 (本文内容不代表本站观点。) --------------------------------- |