強化學習是否言過其實?
譯文?譯者 | 李睿
審校 | 孫淑娟?
可以想象一下,你正準備和朋友一起下國際象棋,但他并不是人類,而是一個不了解游戲規則的計算機程序。但這個應用程序卻明白自己致力實現一個目標,就是在游戲中獲勝。?
因為計算機程序不知道規則,所以開始下棋的招數是隨機的。其中有些招數完全沒有意義,而對你來說獲勝很容易。在這里假設你非常喜歡和這個朋友下國際象棋,以至于沉迷于這個游戲。?
但計算機程序最終會獲勝,因為它會逐漸學會擊敗你的方法和招數。雖然假設的這個場景看起來有些牽強,但它應該能讓你對強化學習(機器學習的一個領域)的大致工作原理有一個基本的了解。 ?

強化學習到底有多智能? ?
人類智力包含許多特征,包括獲得知識、擴展智力能力的愿望和直覺思維。當國際象棋冠軍加里·卡斯帕羅夫在輸給IBM公司的一臺名為“深藍”(Deep Blue)的電腦時,人類的智能受到了很大的質疑。除了吸引公眾的注意力之外,描繪機器人在未來統治人類的世界末日場景也占據了主流意識。?
然而,“深藍”并不是一個普通的對手。與這個計算程序下棋就像與一個千歲的老人進行比賽,而他一生一直在不停地下國際象棋。但“深藍”擅長玩一種特定的游戲,而不是其他智力活動,如演奏樂器、撰寫著作、進行科學實驗、撫養子女或修理汽車。?
這絕不是想貶低“深藍”所取得的成就。與其相反,計算機在智力能力上超越人類的想法需要仔細的檢驗,首先要分析強化學習的工作機制。?
強化學習是如何工作的?
如上所述,強化學習是機器學習的一個子集,它涉及智能代理在環境中如何行動以最大化累積獎勵的概念。?
簡單地說,強化學習機器人接受獎懲機制的訓練,它們做出正確的動作會得到獎勵,做出錯誤的動作會受到懲罰。強化學習機器人不會“思考”如何采取更好的行動,它們只是讓所有的行動成為可能,以最大限度地提高成功的機會。?
強化學習的缺點?

強化學習的主要缺點是它需要采用大量的資源來實現它的目標。強化學習在圍棋游戲中的成功就說明了這一點。這是一款流行的雙人游戲,其目標是使用棋子在棋盤上占據最大區域,同時避免丟子。?
AlphaGo Master是一款在圍棋比賽中擊敗人類棋手的計算機程序,它耗費大量的資金和人力,其中包括許多工程師,非常豐富的游戲經驗以及256個GPU和128000個CPU。?
在學習如何在比賽獲勝的過程中,需要投入大量的資源和精力。這就引出了一個問題:設計不能憑直覺思考的人工智能是否合理?人工智能研究不是應該嘗試模仿人類智能嗎? ?
支持強化學習的一個論點是,人們不應該期望人工智能系統像人類一樣行動,它用于解決復雜問題需要進一步發展。另一方面,反對強化學習的觀點是,人工智能研究應該專注于讓機器做目前只有人類和動物才有能力做的事情。從這個角度來看,人工智能與人類智能的比較是恰當的。?
量子強化學習?
強化學習是一個新興的領域,據說可以解決上述的一些問題。量子強化學習(QRL)是一種加速計算的方法。 ?
首先,量子強化學習(QRL)應該通過優化探索(發現策略)和開發(選擇最佳策略)階段來加速學習。目前的一些應用和提出的量子計算改進了數據庫搜索,將大數分解為質數,等等。 ?
盡管量子強化學習(QRL)還沒有以突破性的方式出現,但它有望解決常規強化學習的一些重大挑戰。?
強化學習的業務案例?

正如以上提到的,強化學習研究和開發至關重要。以下是來自麥肯錫公司的一份調查報告中的有關強化學習的一些實際應用示例,強化學習可以:?
- 優化半導體和芯片設計,優化制造工藝,提高半導體行業的產量。 ?
- 提高工廠產量,優化物流以減少浪費和成本,提高農業利潤。 ?
- 縮短航空航天和國防工業新系統的上市時間。 ?
- 優化設計流程,提高汽車行業的生產效率。 ?
- 通過實時交易和定價策略增加收入,改善客戶體驗,并在金融服務中為客戶提供先進的個性化服務。 ?
- 優化礦山設計,管理發電,應用整體物流調度,優化作業,降低成本,提高產量。 ?
- 通過實時監測和精確鉆井提高產量,優化油輪行進路線,實現預測性維護,防止油氣行業的設備故障。 ?
- 促進藥物發現,優化研究流程,自動化生產和優化制藥行業的生物方法。 ?
- 優化供應鏈,實施先進的庫存建模,為零售部門的客戶提供先進的個性化服務。 ?
- 優化和管理網絡,在電信行業應用客戶個性化。 ?
- 優化運輸物流的路線、網絡規劃、倉庫操作。 ?
- 使用下一代代理從網站提取數據。 ?
強化學習的反思?
強化學習的能力可能是有限的,但它不會被高估。此外,隨著強化學習研究和開發項目的增加,幾乎每個經濟部門的潛在用例也在增加。?
大規模采用強化學習依賴于幾個因素,其中包括優化算法設計、配置學習環境和計算能力的可用性。?
原文標題:??Is reinforcement learning overhyped???,作者:Aleksandras ?ul?enko?
































