精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Flash Attention作者最新播客:英偉達GPU統治三年內將終結

人工智能 新聞
在最新播客《Unsupervised Learning》中,Tri Dao分享了對GPU市場、推理成本、模型架構以及AI未來趨勢的深度洞察,并針對上述“暴論”展開了有理有據的分。

英偉達還能“猖狂”多久?——不出三年!

實現AGI需要新的架構嗎?——不用,Transformer足矣!

“近幾年推理成本下降了100倍,未來還有望再降低10倍!”

這些“暴論”,出自Flash Attention的作者——Tri Dao

在最新播客《Unsupervised Learning》中,Tri Dao分享了對GPU市場、推理成本、模型架構以及AI未來趨勢的深度洞察,并針對上述“暴論”展開了有理有據的分析:

  • 未來2-3年內,隨著針對不同工作負載類別的專用芯片出現——包括低延遲的智能體系統、高吞吐量的批量處理以及互動式聊天機器人——AI硬件格局將從NVIDIA當前約90%的主導地位,轉向更加多元化的生態系統。
  • MoE架構、推理優化、模型量化、模型架構和硬件的協同設計等技術促成了模型推理成本的下降。
  • 未來將會出現三類工作負載模式:傳統聊天機器人、極低延遲場景、大規模批處理/高吞吐場景,硬件供應商可以針對不同的工作負載做出相應的優化。

……

Tri Dao不僅是Flash Attention的作者,而且還是Mamba的作者之一。

同時,他也是TogetherAI的首席科學家、普林斯頓大學教授。

《Semi Analysis》曾盛贊他在英偉達生態中的貢獻,是其護城河的重要組成部分。

可以說,他對硬件市場以及AI硬件未來發展的判斷極具參考價值。

接下來,就和我們一起看看吧!

訪談全文整理如下:

(注:為方便閱讀,調整了部分語氣詞和過渡)

訪談內容

Nvidia 的主導地位及其競爭者

Q:在英偉達生態體系,比如芯片層面或者GPU系統整合方面,會看到新的競爭者嗎?

Tri Dao:我確實花了不少時間思考芯片,我認為當然會有很多競爭者進入這個領域。

AMD已經在這里很久了。英偉達之所以占據主導,有幾個原因:他們設計了非常好的芯片,同時也做出了很好的軟件,這形成了一個完整的生態,讓大家在此基礎上開發更多的軟件。但我認為,隨著工作負載(work load)逐漸集中在特定架構上,比如Transformer、MoE等,設計適配這種工作負載的芯片會變得更容易。

在推理端,AMD有一些優勢,比如更大的內存,現在我們已經開始看到一些團隊在嘗試。在訓練端則更困難一些,網絡通信(networking)是主要瓶頸,而英偉達在這方面仍然領先。

但人們已經理解了:打造優秀訓練芯片的挑戰是什么,打造優秀推理芯片的挑戰又是什么。最后比拼的就是執行力。所以我會說,這是一個非常令人興奮的領域。我和很多在設計新芯片的人交流過,無論是推理還是訓練。

我預計未來幾年,部分工作負載會進入“多芯片”時代,不會像現在這樣90%都在英偉達上運行,而是會跑在不同的芯片上。

Jacob Effron:你認為當前的架構是否已經足夠穩定,可以支撐對未來兩三年推理和訓練工作負載的長期押注,還是說目前仍存在不確定性,各家初創企業和公司各自下注,最終可能只有一兩家脫穎而出?

Tri Dao:我認為在架構層面,從宏觀來看,好像已經在Transformer上趨于穩定。

但如果你仔細看,會發現其實還在發生很多變化。

最近這兩年最顯著的就是Mixture of Experts(MoE)。它讓模型變得更大,參數更多,但計算是稀疏的。

這帶來一些權衡,比如需要更多內存,但計算量可能相對更小。

對一些芯片制造商來說,這會增加難度,因為他們可能原本是針對稠密模型設計的,計算分布很均勻,而現在要面對稀疏計算,設計起來更復雜。

再比如attention已經存在十多年了,但至今仍在不斷演變,這其實會讓一些事情變得困難。

像DeepSeek就提出了一種multi-head latent attention,它和傳統的attention有些不同。比如他們使用了非常大的head dimension。

如果你的系統里矩陣乘法引擎只有某個固定大小,可能就不匹配了。

像這樣的一些問題,一旦你深入到細節里就會出現。所以這是架構上的挑戰。

在工作負載層面,人們使用這些模型的方式也在發生很大變化。

傳統的用法是聊天機器人(雖然“傳統”也不過就是過去兩三年的事),但現在出現了新的負載,比如編程工作負載——像Cursor、Windsurf這樣的工具。

這類更接近agent的工作負載,不僅僅是運行模型,還需要調用工具,比如運行Python解釋器、做網頁搜索等等。

這會帶來芯片設計上的挑戰。如果芯片只專注于讓模型本身跑得最快,就可能忽略了與主機連接去執行網頁搜索這類任務的能力。

所以我會說,雖然從高層來看架構似乎穩定了,但在底層仍然有很多變化。而且工作負載本身也在演變,所以這始終是一場“競速”,看誰能更快適應新的負載。

芯片設計中的挑戰

Q:如果說現在90%的工作負載還在英偉達芯片上運行,那么你覺得兩三年后會怎樣?

Tri Dao:我認為在推理端,會出現多樣化,我們已經開始看到像CerebrasGroqSambaNova這樣的公司帶來的挑戰。

他們強調可以做到極低延遲的推理,這對某些場景非常棒。

我們和一些客戶交流時發現,他們非常在乎盡可能低的延遲,并且愿意為此支付更高成本。同時也有客戶特別關注大批量、高吞吐量的推理,比如海量數據處理、合成數據生成、或者強化學習訓練中需要快速rollout、生成大量軌跡的場景。

所以我認為市場一定會多樣化,因為工作負載本身也會越來越多樣:低延遲、高吞吐,甚至可能是視頻生成,這都會對算力和內存提出不同的要求。

Jacob Effron:初創公司如何押注不同類型的優化?

Tri Dao:如果是創業公司,你就必須下注。你投資的時候,其實就是要做一個超出常規的押注。

你可能會賭說,聊天機器人最終會消失,人們真正關心的其實是別的東西,比如視頻模型、視頻生成模型、世界模型,或者機器人之類的。

然后你就擲骰子,說,好吧,那可能會占據50%的工作負載。

那么我們要如何為這種工作負載設計芯片呢?你只能希望自己的押注是對的。我覺得這就是創業公司的角色。

如果你不押注,而只是說我要為通用的工作負載優化,那么大廠會在執行力上完全碾壓你。

Jacob Effron:為什么不去嘗試除了英偉達以外的其他公司?硬件領域會出現巨額薪資嗎?

Tri Dao :我個人其實和很多不同公司的工程師都有合作,包括英偉達、AMD、谷歌、亞馬遜等等。

我花很多時間在英偉達的芯片上,純粹是因為這是我們現階段能用到的最普及的產品。

他們設計了非常好的芯片,也有非常好的軟件支持,這讓我能夠做很多有意思的事情,而這正是我追求的:能不能做出有意思的東西。

比如我們之前和AMD合作過一個版本的Flash Attention,并且把它集成進了公共倉庫。

所以我們確實有跟他們合作。至于最好的合作模式應該是什么,我現在還不太確定。

不過,最近我更多地在思考:我們需要什么樣的抽象?不僅是針對英偉達芯片,而是針對GPU和加速器整體。

在最低層級,我還是會花很多精力榨干這些芯片的性能。

但隨著我們在Together AI的擴張,我們必須考慮:如何讓后來加入的工程師更快上手?其中一部分就是構建能在英偉達芯片上工作的抽象,同時也可能適配其他芯片。

另一個讓我很興奮的問題是:我們能不能設計一些抽象,讓AI本身替我們完成部分工作?

我覺得答案還沒有完全清晰。但作為人類的技術負責人,我們的任務就是構建合適的抽象,讓別人能夠快速上手,這樣你做的事情才能跨芯片、跨工作負載發揮作用。

Jacob Effron:你覺得現在我們已經有那種能跨不同芯片都能用的抽象了嗎?

Tri Dao :我覺得我們有一些,對吧?

但這就是經典的權衡。比如Triton就很好用,它支持英偉達芯片、AMD GPU、Intel GPU等。這需要他們設計一個前端,然后針對不同廠商的芯片,后端由不同公司貢獻代碼。

我覺得Triton其實非常不錯,很多公司都在押注它。比如Meta的PyTorch編譯器,就會直接生成Triton代碼,然后交給Triton去為英偉達或AMD生成底層代碼。

但這仍然是一個權衡:如果你不掌控最底層,可能就會損失一些性能。

關鍵就在于損失多少。如果你只損失5%的性能,卻能換來3倍的生產力,那完全值得。

但如果損失太大,大家可能就會回到更底層、更貼近硬件的做法,尤其是在推理市場競爭激烈的情況下。

所以我會說,人為設計其實非常難。我甚至會說,硬件可移植性有點像是個神話。

就算在英偉達內部,不同代際之間差異也非常大。CPU每年可能性能只提升5%-10%,舊代碼還能跑,但GPU完全不是這樣。

英偉達幾乎每一代芯片都要重寫所有底層代碼,因為提升FLOPS的方式就是增加更多專用組件,支持更低精度,或者改寫芯片內部的同步機制。

所以即便是在英偉達內部,不同代際之間的代碼可移植性其實也很有限。

Q:抽象的價值就在于,即便只是面對同一家廠商的不同代際芯片,也能幫上忙,對吧

Tri Dao:我覺得Triton的抽象非常有吸引力。他們甚至還有一些更底層的擴展,比如最近很新的Gluon,能暴露更多硬件細節,但代價是通用性會差一些。還有Modular公司在開發Mojo語言。

Jacob Effron:你覺得他們在做的事情怎么樣?

Tri Dao:我覺得很酷。他們確實找到了部分正確的抽象。關鍵就在于執行力。

因為大家都會問:“你在英偉達芯片上到底有多快?”某種意義上,這個問題不太公平,但這就是現實。

所以他們必須在抽象之外做一些定制化,讓代碼在英偉達芯片上跑得足夠快,然后再做一些AMD的定制化。

問題就在于,你愿意做多少定制?這就是性能與通用性的權衡。

我們會看到越來越多這樣的庫或領域專用語言出現。比如斯坦福有人在做Kittens來抽象GPU編程,谷歌有MosaicGPU。

我肯定還漏掉了一些。但大家都意識到一個問題:我們目前還沒有合適的抽象。這導致訓練新人寫高性能GPU內核非常痛苦。

解決方案就是構建抽象。我覺得我們現在正處在快速迭代的階段,這也是為什么會出現這么多領域專用語言。

與此同時,隨著AI模型越來越強,我在思考:我們該如何為語言模型設計領域專用語言或抽象?因為它們的運作方式和人類有點不一樣,我們現在也不知道答案。所以我認為未來一兩年情況會清晰得多。現在就是百花齊放,大家都在嘗試不同方向。

Jacob Effron:你覺得這些抽象最有可能從哪里產生?

Tri Dao:我認為主要有兩個角度:

  • 一個是從機器學習的角度出發,思考我們有哪些工作負載,以及需要哪些原語來表達這些工作負載。比如推理本質上是內存受限問題,關鍵在于如何盡快搬運數據;或者如何最快做矩陣乘法。
  • 另一個角度是從硬件出發。芯片上有很多非常酷的專用組件,要思考如何暴露這些能力。英偉達在這方面特別強,比如設計了更多異步機制。

不過,矩陣乘法的速度太快了,反而顯得其他部分很慢。所以更重要的是如何重疊矩陣乘法和其他計算。這就需要抽象層來支持異步執行,比如流水線、同步機制等等。

所以我認為抽象會從這兩個方向出現,要么從工作負載出發,要么從硬件出發。我覺得再過一兩年就會清晰得多。

Jacob Effron:在設計抽象時,你們現在在多大程度上真的使用AI本身?你覺得未來幾年會有什么變化?

Tri Dao:是的,我覺得模型在這方面開始變得有用了。這讓我最近真的很驚訝。有些人已經在嘗試完全自動化的GPU內核編寫:你只要描述問題,LLM就能直接生成內核代碼。

這有點像我們在其他領域看到的,比如生成簡單的Python腳本、做數據分析、寫前端網頁,對吧?這些現在LLM已經能做。那么問題是:我們能不能也做到為GPU編程生成代碼?

Jacob Effron:Vibe kernel?

Tri Dao:如果你想要的是這個的話,我覺得我們還處在非常早期的階段。

這些模型現在能生成一些簡單的內核,比如逐元素的操作:你輸入一個數組,然后在每個元素上做運算。或者一些歸約操作,比如求和、歸一化之類的。

這類代碼模型能生成得還算不錯。但一旦變復雜一些,這些模型就寫不出正確的代碼了。

我覺得這主要還是因為訓練數據不足。

訓練數據在這一塊非常難搞。因為如果你在網上抓取內核代碼,你拿到的可能就是一些課堂項目,或者是GPU三代以前的文檔,而這些文檔里很多寫的都是現在完全不該再用的做法。所以訓練數據確實非常困難。我認為答案可能是要從一些專家級的數據開始,然后基于這些生成合成數據。或者把模型接到編譯器、性能分析器這樣的工具上,從中獲得大量訓練數據,構建合適的環境。我覺得一兩年之內可能會有突破,但目前確實很難。

Jacob Effron:那這些數據現在掌握在誰手里呢?

Tri Dao:我覺得這種數據不算是私有的。

確實有一些地方能找到專家級代碼,但更關鍵的是流程:怎么從少量專家數據出發,生成海量的合成數據。

比如Discord上的GPU Mode社區,他們就在嘗試做這個。

他們用編譯器,比如PyTorch編譯器,把PyTorch代碼轉換成Triton代碼,這個Triton就是更底層的內核代碼。

這樣他們就能生成大概1.5萬對這樣的程序數據——PyTorch和Triton的對應關系。

其實你得有點創造性,因為網上原始數據確實不多,所以你得想辦法創造訓練數據。所以我覺得這是一個方向:如果你想要完全自動化的內核生成,現在還非常早。另一個方向是:模型能不能和人類協同工作?我對這點的驚喜更大——這些模型現在其實已經相當有用了。

Jacob Effron:有沒有什么具體的時刻,讓你覺得AI模型真的已經有幫助了?

Tri Dao:我覺得大概有兩個重要節點。一個是o3——o3的推理能力進步很大。

有時候我會和o3或GPT-5一起頭腦風暴,比如我有個函數,該怎么優化?要注意哪些點?

它們給出的高層思路出乎意料地好。

另一個是Claude Code。它居然在寫Triton內核方面表現相當不錯,這點非常棒。

因為雖然我喜歡寫內核,但我更多的時間其實花在設計上:思考該設計怎樣的架構,才能更好利用硬件。

而具體的實現部分,雖然設計很有意思,但實現過程往往非常繁重。這時候Claude Code就幫了很大忙。我覺得它能讓我整體生產效率提升大約1.5倍。

我是ClaudeCode的重度用戶。如果讓模型和人類協同工作,而不是指望它們完全自動生成內核,那它們的作用其實非常大。

Jacob Effron:接下來你最期待的里程碑是什么以及新模型出來時,你會測試什么?

Tri Dao:我覺得ClaudeCode是個典型的質變案例,因為它變得更具備代理性了。

某種程度上,他們在后期訓練Claude時,針對這一點做得特別好。

我相信OpenAI、Google很快也會達到類似的水平。這里說的代理性(agentic)就是指它能很好地調用工具,并且知道什么時候該用工具。

比如它知道:啊,我現在可能沒有用對API,那我要怎么查API?

或者程序沒編譯過、程序不夠快,那我該怎么從profiler里拿信息?就是這種能力。

所以我覺得新模型里,我會關注它們能不能知道自己不知道,以及什么時候該去主動尋找新信息。 這雖然聽起來有點模糊,但現在已經有人開始做這種代理性能力的基準測試了,只是還非常早期。

Q:自從ChatGPT發布后,這三年到底是什么推動了成本降低和延遲改善?

Tri Dao:這幾年里,推理成本可能下降了大概100倍

至少從ChatGPT面世以來是這樣的,這點從API價格變化上也能反映出來。

一方面是在模型層面,人們在相同參數量級下訓練出了更好的模型。

部分原因是使用了更多數據,部分原因是架構改進。我認為MoE確實幫助大家發明了更高效的注意力機制等等。

所以在模型端,模型在相同參數下變得更強大。

另一方面是在推理優化上。

我們見證了一系列技術的大爆發。早期其實大家并不清楚推理的瓶頸在哪里。

后來逐漸發現,關鍵問題在于數據傳輸——比如權重在內存之間的搬移,或者KV緩存的搬運。

KV緩存是注意力機制中用于存儲歷史的部分,以便生成下一個預測。所以大量優化都是圍繞如何減少數據搬運展開的。

比如說模型量化

兩三年前,通常一個參數需要16位表示。現在8位已經很常見了,新模型里4位也被大量使用,甚至還有1–2位的嘗試,非常激進。

但實驗顯示,在量化過程中,很多情況下質量幾乎沒有損失。當然這需要相當復雜的技術,但效果非常好。

比如最近OpenAI發布的GPT-oss,大部分層都被量化到4位。他們的模型總共有1200億參數,但因為每個參數只需4位,整個模型可以放進大概60GB的空間里,這直接轉化成了非常好的推理性能。所以量化是一個方向。

另一個方向是模型架構和硬件的協同設計

隨著理解的深入,算法研究人員和硬件專家的溝通變多,大家能結合各自的知識去發現硬件上的瓶頸,并針對性地調整算法。

比如Flash Attention就是這樣:我們意識到內存訪問才是主要瓶頸,于是重新設計了注意力的實現方式,減少內存訪問。這類優化在推理領域正在不斷發生。

DeepSeek的一個例子叫multi-head latent attention。他們發現推理時很多開銷來自于KV緩存的壓縮和傳輸,于是提出通過潛在投影把KV緩存投射到更小的空間,從而大幅減小緩存規模。這在實踐中效果很好,能夠更高效地部署模型。

還有MixtureofExperts(MoE)。在MoE里,每個token的計算不需要用到模型的所有參數,而是只激活部分專家單元,這就是稀疏化。

在過去兩年里,趨勢就是讓模型越來越稀疏。比如早期Mistral的開源MoE模型是8個專家里激活2個,也就是25%。

而DeepSeek和OpenAI的最新模型里,比如GPT-oss,是在128個專家里只激活4個,也就是1/32。這種稀疏化非常適合大規模服務用戶。

總的來說,大家對推理負載的理解更深,模型架構和推理堆棧是協同設計的,這就是最近性能提升的主要來源。

推理優化技術

Q:未來的推理優化技術還會有哪些改進?

Tri Dao:我認為還會有大約10倍的提升空間。

盡管我們已經摘了許多果實,但仍有很多可做的事。

首先是硬件端:過去難以預測兩年后的工作負載,所以難以做高度專用化。

但隨著架構相對穩定,芯片設計者可以為推理做專門優化,比如加強對低精度的原生硬件支持、改進網絡通信等。

特別是在MoE場景下,模型參數增大但每次只激活一部分,模型可能分布在多塊GPU/芯片上,這時網絡就非常關鍵。我估計硬件方面一年內就能帶來2–3倍的提升。

在模型層面,會有推進架構的空間。

舉例我做的Mamba,思路是讓模型把歷史壓縮成更小的狀態向量,而不是保存完整的KV cache——這有代價但在某些大批量推理場景下(例如同時探索多條思路的推理或搜索)效果很好。

Google的Gemini Deep Think就是同時探索多路徑的思路,這類場景會讓KV cache成為更大的瓶頸,因此壓縮歷史的方向非常重要。我認為模型層面也能帶來2–3倍的提升。

在內核實現層面,越來越多人專注于高性能kernel,很多人才正加入這塊,內核優化也可能再帶來2倍的提升。把這些合起來,短期內一年左右再實現約10倍的整體改進是有可能的

專門化的AI推理

Q:你覺得生態會由單一能覆蓋所有場景的供應商主導,還是會出現專門化?

Tri Dao:我認為可能會出現三類工作負載模式,所有推理提供方都會理解并嘗試優化這些模式,但規模化也有顯著優勢。

大體上有:

  • 傳統聊天機器人:需要一定交互性但不要求極低延遲)
  • 極低延遲場景:比如代碼輔助,響應快2–3倍能顯著提升用戶效率——我愿意為此付更多錢
  • 以及大規模批處理/高吞吐場景:需要同時對大量序列做推理。

不同供應商可能在這些細分場景上做出不同權衡,有些提供廣泛覆蓋,有些則專注于某類場景做到極致。我的意思是,人們通過同時運行多個模型來解決這個問題。

比如同時跑四個Claude Code。但我個人更喜歡深度工作,當我和模型合作時,我通常只用一個——我的合作者會罵我,她說:“你應該同時開四個ClaudeCode。”

對這種工作負載,人們可能愿意為低延遲付更多錢,這就是低延遲類型的工作負載。

另一類是非常大批量的工作,我不太在意延遲,只關心盡可能高的吞吐量。這對生成合成數據等場景很重要。

正如我提到的,很多人訓練模型的方式是:先有少量專家級數據或人工標注數據。

舉個例子,你是一家航空公司,想訓練AI助理來處理客戶投訴,你手里只有少量高質量數據,然后可以從中生成大量合成數據。模型在模擬人類行為上非常出色。

你可以讓模型模擬一個來自紐約、因為航班延誤而惱火的顧客,模型竟然能表現得很像人類。

事實上,互聯網上就有大量類似數據供模型學習。

模型內部有一套世界模型,它可以基于這些生成大量數據,雖然不如人工數據精準,但量很大。

在這種推理使用場景中,你真正關心的只是吞吐量。

另一類是強化學習訓練場景。訓練一個智能體執行任務并改變策略時,你需要評估策略的好壞。

這就需要從模型中抽樣大量完成結果,也叫rollout,評估其表現。這里就需要大批量、高吞吐的推理能力。我認為這是第三種使用場景——非常大批量。

對于這三類場景,人們已經開始識別這些模式,而作為推理提供方,我們會針對不同場景做不同優化。

Jacob Effron:你們是如何在這三類場景間分配資源的?

Tri Dao:我覺得這就是大規模運行的好處——我們稱之為“艦隊級優化”。

在數千GPU上推理時,你可以動態調整集群分配。

舉個簡單例子:運行批量推理(batch API)。

OpenAI提供這個選項,我們也有類似選項。如果看到集群在處理交互式查詢時不忙,就可以調入批量查詢以充分利用算力。

結果是,我們對batchAPI通常提供約50%折扣,我想OpenAI也是這樣,DeepSeek大概也是。

AI工作負載演進與開源工具

Q:你覺得推理市場未來的發展如何?優化空間是否無限?

Tri Dao:過去確實有很多果實,如果你能寫出合理內核、搭建合適推理引擎,會比市場上已有方案好很多。

但現在開源工具已經非常成熟了,比如VLMSGLang等項目,都已經達到生產級別質量。

我們也會和這些項目合作、貢獻代碼。所以基線水平已經提高很多。

同時,工作負載也在不斷演化。客戶會提出新的需求:前綴緩存、低延遲,或者不是文本而是視頻,這些都有不同的性能權衡,我們也在應對這些客戶需求。

即便開源工具越來越好,工作負載變化也很快,總有新事情可做。模型本身越來越強,可以從中提取價值的方式也越來越多,這也是為什么有很多初創公司基于這些模型構建業務。工作負載將持續演化。Jacob Effron:快速變化的節奏下,這三大類工作負載會逐漸分化嗎?

Tri Dao:我覺得還是會有聚合。代理型(agentic)工作負載可能是殺手級用例。

就像ChatGPT是應用層面的一個躍變,它讓用戶第一次能與語言模型互動、調試代碼、查找和分析信息。

下一波應用將是代理型:AI能自主采取行動、收集信息。這需要不同的優化策略,不只是讓模型在GPU上運行得快,還要考慮如何與人類使用的工具銜接,比如Web搜索。

如果是工程師,可能希望模型能訪問設計軟件;金融分析師,則希望模型能訪問特定數據庫。這類工作負載預計會成為未來一年左右的主流。

在消費端,我的一個預測是實時視頻生成會成為趨勢

我們已經看到一些初步跡象,這會像TikTok改變內容消費方式一樣,徹底改變消費者體驗。我們合作的一些公司,比如Pika LabsHetra,正專注于實時視頻生成,這是我們的押注。

實時視頻生成也帶來全新挑戰,非常耗算力,這可能會進一步推動芯片發展和推理優化。

架構創新和專家級別的AI

Q:假如可以快進三年,得到AI基礎設施領域一個關鍵問題的答案,這個問題會是什么?哪一個問題的答案最能影響你們今天的戰略?

Tri Dao:接下來幾年,我想回答的問題是:我們如何讓AI達到專家水平?

目前,我認為模型在某些任務上,比如前端編程,處于人類中等水平。

他們已經很厲害了。實際上,這些模型在前端編程上比我強得多;或者在數據分析這類任務上,只要互聯網上有大量數據,模型就能輕松勝任。

它們在這些任務上大概達到了中等水平,甚至略高于平均水平。

但經濟上最有價值的任務仍然存在。我們為人類專家支付高額報酬,比如飛機設計、硬件設計、醫生、律師等。

這些人成為專家,是因為他們花了大量時間使用專業工具,而這些工具的數據并不等同于互聯網海量信息。

這正是他們成為專家的原因。所以我們要讓模型達到這個水平,能夠與人類專家協同工作,我認為這才是大量經濟價值的來源。

Q:你合作者Albert說過,Transformer本身不會是最終方案,你覺得我們需要架構創新才能達到那個水平嗎?

Tri Dao:我認為,要達到AGI或ASI,目前的架構可能已經足夠了。

但成本如何?如果有更好的架構,也許我們能提前一兩年達到目標,或者用10倍更低的成本實現,這可能很值得。

每年我們在AI基礎設施上大約花5000億美元——大概在這個量級。

問題是,我們是否需要花10倍的預算?還是通過更好的架構,用現有甚至更少的支出就能達到目標?

這就是架構研究的價值所在:能否通過更好架構達到AGI。我認為當前架構具備所有關鍵成分,如果不斷擴展,也可以實現目標,但成本可能是天文數字。Jacob Effron:你還在關注哪些架構?

Tri Dao:我對MoE特別感興趣,尤其是越來越稀疏。我們在探索極限:能稀疏到什么程度?

這一直是一個很有吸引力的方向。DeepSeek做了很重要的工作,證明可以讓模型非常稀疏,DeepMind早期也有相關探索。這是一種用同樣算力獲得更多智能的方法。

最終,我們想優化每分錢的推理效率。

這意味著可以量化為每浮點操作推理量(inference per flop)和每分錢的FLOPs。

前者更多依賴架構設計、數據、算法;后者更多依賴硬件和內核優化。在架構層面,我們嘗試從相同計算中提取盡可能多的智能。MoE是一個例子。

我和Albert做的一些狀態空間模型工作也很有趣。

我們與Nvidia的一些團隊合作訓練模型,他們發布了幾款模型,顯示這種架構——Transformer與Mamba的混合——可以在更低成本或更高推理性能下得到高質量模型。

所以架構對于推理非常重要。我現在非常強調“推理優先”的架構設計,因為大部分FLOPs都用于推理,我們希望架構能最大化推理效率。

Jacob Effron:你現在在研究哪些方向?未來可能有哪些重要論文?

Tri Dao:我仍然在這些領域工作,非常感興趣。同時,我也在探索一些新方向,其中之一是尋找下一波真正有影響力的應用。 我認為機器人是其中一個方向。

比如離真正優秀的家庭人形機器人還有多遠?

也許五年,也許十年,我不確定。這通常會帶來很多有趣且重要的研究問題,這是科研方向上的一個方向。

Jacob Effron:在機器人研究領域,你覺得最有趣的點是什么?

Tri Dao:關于機器人,我們可以用已有的基礎模型來初始化控制機器人。你可以用語言模型來做規劃。

比如,你讓機器人去拿咖啡杯,語言模型可以說:“去那張桌子拿咖啡杯”,等等。

但目前缺失的是在現實世界中進行交互和行動的數據,因為我們沒有這類數據。我們有語言數據,但缺少與實際世界交互的數據。對,你顯然也看到有人在嘗試擴大仿真數據的規模,他們實際上在做遙操作,但實際波動的數據問題依然存在。

另一點是,機器人必須以多分辨率、多時間尺度的方式處理信息。有些操作,比如控制關節,需要非常快速的響應;但規劃機器人的路徑,則可以慢一些。

這里需要顯式考慮時間尺度。我想做非常輕量的計算嗎?只是控制關節,還是做更重的推理來規劃最優路徑?

所以我認為最終會是一個復合系統,由語言模型、視覺模型、音頻模型、世界模型初始化,但如何把它們組合在一起,是一個大問題。

學術界與工業界的平衡

Q:你是如何考慮在學術和工業之間的選擇的?

Tri Dao:這是個很好的問題,也很個人化。對我來說,我喜歡同時做創業和做教授。

這兩種模式提供了不同的思維和執行方式。創業方面很有趣,因為節奏快。我們想做的事情,幾天、幾周、最多幾個月就能完成。團隊執行力強,可以快速實現目標,我對團隊在Together做的工作非常自豪。

學術方面,時間尺度更長,考慮的問題更具前瞻性。我們不會追求一個月內的解決方案,而是思考未來兩三年方向上的有趣問題和挑戰。和學生一起工作也非常有趣,因為我們可以深入思考這些問題。

當然有一些權衡,比如學術計算資源少。評價方式也不同,更關注思想是否有趣,而不是是否運行得快。

學術給你更多自由去深入思考長周期問題。我正好喜歡兩種模式,所以仍然在普林斯頓做教授,同時參與創業。

我認為這是一種探索與開發結合的模式:學術更偏向探索,資金通常來自政府,用于探索大量想法,也許只有5-10%的想法會成功。投資者也類似,探索大量想法,其中少數可能非常重要。

一個例子是Attention,它通過Google的論文出名,但最初來自Mila的學術研究,是Dmitry Bahdanau、Yoshua Bengio等人的工作。

當前架構的其他組成部分,如Adam優化器(JimmieBa等)和LayerNorm,也來自學術界。

很多現在的基礎都是學術探索的結果。大公司和創業公司會把這些想法商業化,快速執行,同時理解市場需求,有更多資金推動大想法落地。

比如,SSI明確說不做任何產品,但人們愿意投錢,因為他是Ilya。當AI的某些風投開始獲得回報,投資者就更愿意投入資金。

Jacob Effron:過去一年你在AI上改變的一個觀點是什么?

Tri Dao:這些模型出乎意料地有用,即便在我日常的高級和專家級工作中,它們在數學和編碼上也非常出色。比我預期的高很多,確實很厲害。

Jacob Effron:你覺得一年后開源模型和閉源模型的質量會更接近還是更遠?我認為會更接近。現在的擴展更多依賴RL,而這實際上更依賴工具鏈,而不僅僅是原始算力。所以開源在這方面會做得很好。

Jacob Effron:目前AI領域還有哪些發展被忽視了?

Tri D:數據。數據總是有點被低估。合成數據,用模型重新生成或改寫數據,會產生巨大影響,但關注的人少。Jacob Effron:你最喜歡看到的應用是什么?

Tri Dao:我們與一些視頻生成公司合作,比如Pika Labs和Hetra,他們用我們訓練的模型生成虛擬的TikTok視頻,效果非常棒。

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-05-17 10:41:14

Android平板電腦iPad

2009-07-08 09:18:01

家庭無線上網北京

2012-12-17 11:05:58

云安全IT安全

2009-03-07 18:36:29

AndroidGoogle開源

2011-01-05 15:09:13

2013-08-13 09:04:13

云計算云安全

2015-08-11 10:26:21

短期三年成長

2016-08-29 09:59:12

百度開放云視頻直播

2010-10-11 11:01:21

升職記

2014-12-11 14:04:48

埃維諾混合云

2012-09-03 14:09:35

Linus TorvaLinux 4.0

2023-10-27 14:57:57

2021-05-18 06:55:07

客戶端HTML容器

2025-02-17 08:00:00

數字化轉型

2018-06-27 10:30:30

閃存

2009-06-29 09:41:11

SaaS軟件

2014-07-01 10:15:24

英偉達GPU64位

2025-09-18 12:55:18

2021-03-13 09:22:38

T-Mobile5G網絡

2010-05-27 09:11:37

谷歌Google Apps
點贊
收藏

51CTO技術棧公眾號

久久经典综合| 中文字幕人妻无码系列第三区| 精品久久久久久中文字幕人妻最新| 春暖花开成人亚洲区| 久久大胆人体视频| 亚洲手机成人高清视频| 国产成人一区二| 欧美图片激情小说| 一二三四区在线| 免费观看久久av| 亚洲一区二区三区在线| 成人激情综合网| 99久久久无码国产精品不卡| 天天免费亚洲黑人免费| 91在线高清观看| 国外成人在线直播| 日本r级电影在线观看| 精品孕妇一区二区三区| 久久国产精品99精品国产| 一区二区三区四区视频| 国产真人无码作爱视频免费| 欧洲毛片在线| 国产日韩1区| 日韩经典中文字幕| 尤物av无码色av无码| 三级网站在线看| 99日韩精品| 日韩国产欧美区| 超级砰砰砰97免费观看最新一期 | 久久精品亚洲乱码伦伦中文 | 日韩激情电影| av在线播放不卡| 91高清在线免费观看| 手机免费看av片| 国内精彩免费自拍视频在线观看网址| 成人av在线观| 欧美亚洲国产另类| 一区二区三区伦理片| 免费高清视频在线一区| 国产精品高清亚洲| 亚洲在线一区二区| 国产一级二级三级视频| 外国成人毛片| 一区二区三区精品在线观看| 国产精品亚洲综合| 日韩色图在线观看| 第一会所亚洲原创| 欧美一区在线视频| 人妻av无码专区| 免费看男男www网站入口在线| 奇米精品一区二区三区四区| 久久精品一本久久99精品| 乳色吐息在线观看| 91精品麻豆| 午夜久久福利影院| 奇米影视首页 狠狠色丁香婷婷久久综合| 无码人妻丰满熟妇奶水区码| 国产精品x453.com| 亚洲国产精品久久精品怡红院| 农村妇女精品一二区| 99中文字幕一区| 成人免费高清在线观看| 日本一区二区在线播放| 日本黄色片免费观看| 全球av集中精品导航福利| 欧美性猛交xxxx黑人交| 97超碰国产精品| 国产探花视频在线观看| 欧美激情综合在线| 国产亚洲一区在线播放| 国产精品老熟女视频一区二区| 黄色在线成人| 中文字幕综合一区| bl动漫在线观看| 亚洲日韩中文字幕一区| 91精品国产综合久久香蕉的特点 | a视频在线播放| 久久影院视频免费| 91牛牛免费视频| 欧美黄色一级大片| 免费亚洲电影在线| 欧美自拍大量在线观看| 高h视频免费观看| 禁断一区二区三区在线| 精品国产91久久久久久久妲己| 另类小说第一页| 日韩伦理在线| 欧美日韩一二三区| 亚洲成熟丰满熟妇高潮xxxxx| 97成人超碰| 狠狠色狠狠色综合日日五| avove在线观看| 高清日韩av电影| 久久天天做天天爱综合色| 日韩欧美一区二区三区四区五区| 日韩一区二区三区在线观看视频| 黄网站免费久久| 国产精品直播网红| 波多野结衣黄色网址| 99精品视频免费观看| 国产福利精品视频| 精品国产无码一区二区| 美国三级日本三级久久99| 热久久免费视频精品| 在线观看毛片网站| 99久久精品免费看国产| 亚洲日本精品| 成a人v在线播放| 一区二区三区四区在线免费观看| 中文字幕乱码一区二区三区| av资源网站在线观看| 亚洲欧美偷拍卡通变态| 黑森林福利视频导航| 新版的欧美在线视频| 欧美日韩国产中文字幕 | 久久久久久久黄色片| 综合一区二区三区| 一区国产精品视频| 国产精品99精品| 久久国产精品99久久人人澡| 欧美精品免费观看二区| 久久精品色图| 国产欧美日韩在线| 日韩中文字幕在线免费| 极品av在线| 日韩视频免费直播| 丰满少妇xbxb毛片日本| 精品三级在线观看视频| 久久久国产精品x99av | 日本理论片午伦夜理片在线观看| 亚洲女女做受ⅹxx高潮| 亚洲美女自拍偷拍| 色女人在线视频| 欧美撒尿777hd撒尿| 3d动漫精品啪啪一区二区下载| 黄色av日韩| 99久久久精品免费观看国产| 懂色av蜜臀av粉嫩av分享吧| av资源网一区| 中文字幕在线中文| 女人让男人操自己视频在线观看 | 成人综合国产精品| porn视频在线观看| 色天使久久综合网天天| 国产高清视频网站| 国产精品1区在线| 精品国产麻豆免费人成网站| 日本一级二级视频| 夜久久久久久| 国产在线精品二区| 91超碰国产在线| 在线观看av一区| 香蕉视频在线观看黄| 91精品久久久久久久蜜月| 久久青草福利网站| 亚洲国产精品久久久久久6q| 久久久精品综合| aaa毛片在线观看| 狠狠操综合网| 成人av电影天堂| av免费在线观| 色婷婷av一区二区三区软件| 91精品人妻一区二区| 玖玖视频精品| 国产超碰91| 三区四区在线视频| 午夜精品在线视频一区| 欲求不满的岳中文字幕| 欧美第一精品| 欧美亚洲日本黄色| 户外极限露出调教在线视频| 在线国产电影不卡| 顶级黑人搡bbw搡bbbb搡| 亚洲制服av| 999国产在线| 91在线高清| 欧美一区二区三级| 日韩久久久久久久久| 韩日欧美一区二区三区| 男人天堂网站在线| 久久中文字幕导航| 国产精品久久久久久搜索| 日本激情一区二区| 色综合天天做天天爱| 精品久久久久久无码人妻| 亚洲免费播放| 亚洲国产欧美一区二区三区不卡| 免费在线小视频| 一区国产精品视频| 亚洲精品中文字幕成人片| 欧美性xxxx极品高清hd直播| 欧美夫妇交换xxx| 美女91精品| 三年中国中文在线观看免费播放| 风间由美一区二区av101| 久久夜色精品亚洲噜噜国产mv| 中文字幕免费视频观看| 久久久久久免费网| 999在线精品视频| 色狮一区二区三区四区视频| 国产精品av在线| 在线观看av免费| 国产午夜一区二区| 欧美视频xxxx| 亚洲综合视频在线观看| 国产又黄又粗的视频| 久久久人人人| 黄色成人在线免费观看| 一本一道久久a久久| 久久视频在线视频| 精品影院一区| 亚洲第一视频网站| 国产精品亚洲lv粉色| 色悠悠久久综合| 久久精品国产亚洲AV无码男同| 国产精品色眯眯| 最新国产黄色网址| 午夜精品视频一区二区三区在线看| 精品国产乱码久久久久久108| 国产免费拔擦拔擦8x高清在线人| 中文字幕日韩av综合精品| 天堂在线中文| 91九色02白丝porn| 日本免费观看视| 久久久久久综合| 国产草草浮力影院| 国产成人av影院| 国产视频九色蝌蚪| 欧美日本在线| 蜜桃欧美视频| 福利一区二区免费视频| 日韩av电影手机在线| a级大胆欧美人体大胆666| 欧美成aaa人片免费看| 日韩一级片免费观看| 日韩欧美在线一区二区三区| 艳妇乳肉豪妇荡乳av| 欧美亚洲动漫另类| 国产性生活视频| 色www精品视频在线观看| 丁香六月婷婷综合| 欧美日韩亚洲激情| 亚欧视频在线观看| 黄色一区二区在线观看| 亚洲精品91在线| 国产精品中文字幕日韩精品 | 大菠萝精品导航| 久久久久久国产| 国产视频三级在线观看播放| 亚洲精品美女在线观看| 亚洲欧美日韩精品永久在线| 欧美色倩网站大全免费| japanese国产在线观看| 欧美综合天天夜夜久久| 一区二区乱子伦在线播放| 欧美三级韩国三级日本三斤| 在线观看国产小视频| 欧美电影一区二区| 久久免费激情视频| 欧美性感美女h网站在线观看免费| 日韩精品乱码久久久久久| 黑人精品xxx一区| 极品国产91在线网站| 欧美三级电影在线观看| 国产美女主播在线观看| 一本久久综合亚洲鲁鲁五月天| 亚洲影院在线播放| 一区二区久久久久| 精品在线视频观看| 黄色91在线观看| 午夜视频网站在线观看| 欧美高清视频在线高清观看mv色露露十八 | 欧洲激情综合| 国产99视频精品免费视频36| 乱亲女h秽乱长久久久| 日本一区免费| 久久精品影视| 日韩国产一级片| 麻豆91小视频| 黄色av电影网站| 国产日本亚洲高清| 免费在线观看一级片| 欧美日韩精品在线视频| 亚洲图片欧美在线| 亚洲白拍色综合图区| 黄色小视频在线免费观看| 久久久国产影院| 成年人国产在线观看| 国产成人高潮免费观看精品| 精品国产亚洲一区二区三区大结局| 国产脚交av在线一区二区| 国产aa精品| 久久人人九九| 先锋影音国产精品| 久久99精品久久久久久久青青日本| 欧美在线电影| 精品国偷自产一区二区三区| 日韩—二三区免费观看av| 国产日韩一区二区在线观看| 狠狠色狠狠色合久久伊人| 久久久久9999| 亚洲视频在线一区观看| 日本在线播放视频| 日韩欧美一区二区三区在线| 国产高清不卡视频| 日韩欧美的一区二区| 精品美女视频在线观看免费软件| 欧美成人午夜免费视在线看片| 毛片免费看不卡网站| 日本久久久a级免费| 欧美成人精品午夜一区二区| 日韩美女一区| 一区二区三区国产在线| 日本一本在线视频| 中文字幕第一页久久| 久草福利资源在线| 欧美日韩一区二区三区 | 日韩久久免费电影| 三级毛片在线免费看| 久久97久久97精品免视看| 黄色大片在线| 国产在线a不卡| 青青国产精品| 日本精品国语自产拍在线观看| 欧美日韩亚洲一区| 99中文字幕在线| 成人va在线观看| 丝袜 亚洲 另类 欧美 重口| 在线精品视频一区二区三四| 男女视频在线观看免费| 午夜精品福利视频| 日韩免费小视频| 成人中文字幕+乱码+中文字幕| 不卡av一区二区| 男女高潮又爽又黄又无遮挡| 秋霞午夜av一区二区三区| 亚洲av无码成人精品国产| 午夜精品福利在线| 成人午夜精品福利免费| 欧美疯狂性受xxxxx另类| 亚洲涩涩在线| 久久99蜜桃综合影院免费观看| 一区免费在线| www.日本一区| 成人性色生活片| 久久免费视频播放| 精品99一区二区| 岛国在线视频网站| 久久精品综合一区| 男人的天堂成人在线| 亚洲av综合一区二区| 亚洲欧美日韩在线| 国产精品视频一区二区三区,| 久久精品人人爽| 亚洲精品观看| 国产精品12345| 91在线视频网址| 欧美一级淫片免费视频黄| 亚洲天堂av在线免费观看| 男男gaygays亚洲| 日本久久久a级免费| 成人精品久久| 波多野结衣国产精品| 一区二区三区中文字幕精品精品| 黄色aaa毛片| 日本91av在线播放| 欧美一级本道电影免费专区| 91视频这里只有精品| 亚洲精品国产一区二区三区四区在线 | 国精产品一区一区三区mba下载| 国产精品99久久久久久久| 国产亚洲在线| 日韩视频在线观看免费视频| 正在播放亚洲一区| 91视频欧美| 日本在线视频不卡| 国产一区二区看久久| 五月婷婷欧美激情| 欧美一区二区三区成人| 国产剧情av在线播放| 午夜精品短视频| 久久一二三四| 性欧美疯狂猛交69hd| 亚洲国产另类 国产精品国产免费| 高h视频在线观看| 国产偷久久久精品专区| 日本亚洲天堂网| 青青草手机在线视频| 91精品国产91久久久久久最新毛片| 爱看av在线| 亚洲精品中文字幕在线| 国产成人综合网| 久草手机视频在线观看| 精品久久久久久久久久久久久久久| 国内精品不卡| 麻豆精品蜜桃一区二区三区| 韩国理伦片一区二区三区在线播放| 精品91久久久| 久久久久北条麻妃免费看| 免费短视频成人日韩|