PyTorch 如何用 “靈活” 改寫 AI 框架格局原創

發布于 2025-10-20 13:56

瀏覽

0收藏

要是把PyTorch比作AI圈的“后起之秀”，那它的故事里藏著太多“無心插柳”和“順勢而為”的巧勁兒。從誕生時的“小透明”到如今成為頂流框架，這十幾年的路，就像看一個技術極客從車庫創業走到行業中心——帶著點叛逆，又藏著對“好用”的極致追求。

前世：從Torch到PyTorch，一場“換皮”引發的革命

故事得從2002年說起。那會兒還沒有“深度學習框架”的概念，紐約大學的楊立昆（Yann LeCun）團隊搗鼓出一個叫Torch的工具包，用Lua語言寫的，專門做機器學習。這東西在學術界小有名氣，尤其在計算機視覺領域，Facebook的AI實驗室（FAIR）早期就靠它干活。

但問題來了：Lua這語言太冷門了。程序員們對著Torch的API一臉懵，想改點代碼比解高數題還費勁。2012年，AlexNet橫空出世，深度學習爆火，大家急需“順手”的工具，而當時的主流框架是谷歌的TensorFlow（2015年開源），主打“靜態計算圖”——寫代碼得先畫好流程圖，跑起來才能看結果，像搭積木必須先畫圖紙，少一塊都不行。

FAIR的一群工程師坐不住了。為首的是Soumith Chintala（后來PyTorch的核心開發者），他覺得“寫代碼不該這么憋屈”。2016年9月，他們偷偷搞了個“大動作”：把Torch的核心邏輯扒出來，換了層Python的“皮”，取名PyTorch。

這步棋太妙了：Python當時已經是數據科學的“通用語”，科學家們閉著眼睛都能寫；更關鍵的是，它搞了個動態計算圖——你寫一行代碼，它就實時執行一行，中間結果能隨時調出來看，就像邊炒菜邊嘗味道，咸了立刻加鹽，不用等菜炒完才發現砸了。

剛出來時，沒人覺得它能成。TensorFlow背靠谷歌，文檔全、生態強，PyTorch連個穩定版本都沒有，官網還帶著“預覽版”的標簽。但學術界的教授們先“真香”了：寫論文代碼時，用PyTorch改模型比TensorFlow快3倍，調試時能一步步看 tensor 的變化，再也不用對著靜態圖猜bug。

今生：從學術圈逆襲，成了“頂流框架”

PyTorch的逆襲，靠的是“抓住痛點”和“順勢而為”的雙重buff。

2018年是個關鍵節點。這一年它發布了1.0穩定版，補上了“生產部署”的短板（以前只能在實驗室跑，沒法上生產線）。更巧的是，Transformer模型橫空出世，NLP領域迎來大爆發。訓練Transformer需要頻繁調整網絡結構，PyTorch的動態圖簡直是為這事量身定做的——當時用TensorFlow寫個Transformer要幾百行代碼，PyTorch幾十行就能搞定。

學術界徹底淪陷了。2019年NeurIPS會議（機器學習頂會）上，用PyTorch的論文占比超過60%，TensorFlow被按在地上摩擦。連谷歌內部的研究員都偷偷用PyTorch寫代碼，再轉成TensorFlow交差，成了圈內公開的笑話。

企業界也慢慢轉向。2020年以后，大模型訓練成了主流，PyTorch的“靈活”優勢被無限放大：OpenAI訓練GPT-3用的是它，Meta的LLaMA系列、DeepSeek的大模型也都基于它開發。不是說TensorFlow不好，只是在“快速迭代試錯”的AI時代，大家更需要“想改就改”的自由，而不是“按規矩辦事”的束縛。

現在的PyTorch，已經不是當年那個“小透明”了：2023年開發者數量突破400萬，GitHub星標數超70萬，穩居AI框架第一。它甚至反向“收編”了對手——2022年，PyTorch和TensorFlow的母公司谷歌達成合作，互相兼容對方的生態，有點“英雄惜英雄”的意思。