Meta萬引強化學習大佬跑路!用小扎原話作為離別寄語,扎心了
小扎在這頭瘋狂挖人,結果家里的老員工紛紛跑路了??
最新消息,Meta萬引強化學習大佬Rishabh Agarwal即將離職,還留下了一篇讓人浮想聯翩的小作文:
這是我在Meta的最后一周。
決定不加入新的超級智能實驗室并不容易,畢竟那里人才濟濟、算力爆棚。但在Google Brain、DeepMind和Meta度過了7年半之后,我更想冒險去嘗試一條完全不同的路。
Meta組建超級智能團隊的想法非常引人注目,但我最終選擇聽從扎克伯格的建議:“在這個瞬息萬變的世界里,最大的風險就是不去冒險。”

雖然表面上看起來雙方是“和平分手”,但網友們還是從中嗅出了一絲不同尋常的味道:
把小扎的原話甩回他自己臉上,這操作絕了,瑞思拜!

十億可以為你買一棟房子,但買不到你的夢想。

不過猜測也好,吐槽也罷。對于Rishabh Agarwal的離職,谷歌、Meta的同事們都清一色地送上了祝福,而且還順帶回顧了他在工作期間作出的貢獻。
據了解,他參與了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后訓練方面的重要工作,2021年還以一篇RL算法評估論文拿下了NeurIPS杰出論文獎。

所以,Rishabh Agarwals是誰?他的離職又為何在這個節骨眼掀起波瀾?
曾被Hinton勸退“不要做強化學習”,下一站未定
Rishabh Agarwals,一直以來從事強化學習和推理研究,谷歌學術論文被上萬次引用,h-index也有34。

本科畢業于印度理工學院孟買分校計算機科學與工程專業,成績屬于系前幾名那種。
2018年,他以AI Resident的身份加入Google Brain多倫多團隊,在Geoffrey Hinton團隊里工作了一年。
頗具戲劇性的是,Hinton還曾建議他“不要做強化學習(RL)”,不過話鋒一轉,老爺子也留有余地——應該做自己認為最好的事情(畢竟他本人當年做的事也不被所有人看好)。
于是,Rishabh Agarwals義無反顧地投身強化學習,并決定繼續攻讀博士學位。
第二年,他就前往蒙特利爾的Mila研究所申請PhD,由于和面試官之一Aaron Courville(和Bengio等人合著了《深度學習》這本經典教材)在強化學習領域的研究方向“完全相同”,當場就被邀請并加入其團隊。
接下來的四年時間,他在Aaron Courvilleh和Marc Bellemare兩位頂尖導師的指導下繼續深耕強化學習,同時還保留著在Google Brain的全職工作。
直到2023年,Marc Bellemare發了一條提前慶祝他通過博士畢業答辯的推文,連谷歌首席科學家Jeff Dean這樣的大佬也趕來祝賀。

在這之后,他順理成章地加入蒙特利爾谷歌DeepMind團隊,擔任研究科學家,同時在麥吉爾大學做兼職教授。
而在谷歌工作期間,他參與了Gemini 1.5(當時號稱最強多模態、上下文突破100萬)、Gemma 2 (新一代輕量級開源模型)、Gemma 3等重要模型的發布工作。
2021年,他還發表了論文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》,一舉斬獲NeurIPS杰出論文獎。
簡單來說,這篇論文分析了深度強化學習中的統計不穩定性問題,指出在有限實驗下評估算法可能產生誤導性結果。由于系統性揭示了RL中的方差問題與過擬合風險,被認為是評價RL算法的里程碑工作。

后來他才從谷歌跑去了Meta,并著手推進Meta推理模型的后訓練工作,具體包括:
- 用RL規模化訓練,把8B稠密模型推到接近DeepSeek-R1的水平;
- 在訓練中途引入合成數據,為RL提供熱啟動;
- 提出更高效的on-policy蒸餾方法。
如今隨著Rishabh Agarwals的離開,網友們也紛紛替Meta惋惜又損失了一員大將。

目前Rishabh Agarwals的下一站并未明確,不過按照他“想要嘗試完全不同的一條路”的說法,人們推測大概率會是創業。
Meta老員工開始出逃了?
其實不止Rishabh Agarwals,幾乎同一時間,一位在Meta工作了12年的老員工也宣布離職了。
而且下一站還是Anthropic的推理團隊(屬于直接擁抱曾經的競爭對手了)。

有一說一,Meta這波漸起的老員工出逃趨勢并不出人意料。
此前就有消息稱,Meta新老員工之間因薪酬待遇懸殊而產生摩擦,其中一些研究人員甚至威脅要辭職。
合理推測,招聘熱潮帶來的內部矛盾,可能是導致這些資深員工選擇離開的重要原因之一。
嗯,小扎這波也屬于一邊蓄水,一邊開閘了(doge)。


































