強化學習是否言過其實?

作者：李睿 2023-03-09 08:00:00

以想象一下，你正準備和朋友一起下國際象棋，但他并不是人類，而是一個不了解游戲規則的計算機程序。但這個應用程序卻明白自己致力實現一個目標，就是在游戲中獲勝。

?譯者 | 李睿

審校 | 孫淑娟?

可以想象一下，你正準備和朋友一起下國際象棋，但他并不是人類，而是一個不了解游戲規則的計算機程序。但這個應用程序卻明白自己致力實現一個目標，就是在游戲中獲勝。?

因為計算機程序不知道規則，所以開始下棋的招數是隨機的。其中有些招數完全沒有意義，而對你來說獲勝很容易。在這里假設你非常喜歡和這個朋友下國際象棋，以至于沉迷于這個游戲。?

但計算機程序最終會獲勝，因為它會逐漸學會擊敗你的方法和招數。雖然假設的這個場景看起來有些牽強，但它應該能讓你對強化學習(機器學習的一個領域)的大致工作原理有一個基本的了解。 ?

人類智力包含許多特征，包括獲得知識、擴展智力能力的愿望和直覺思維。當國際象棋冠軍加里·卡斯帕羅夫在輸給IBM公司的一臺名為“深藍”（Deep Blue）的電腦時，人類的智能受到了很大的質疑。除了吸引公眾的注意力之外，描繪機器人在未來統治人類的世界末日場景也占據了主流意識。?

然而，“深藍”并不是一個普通的對手。與這個計算程序下棋就像與一個千歲的老人進行比賽，而他一生一直在不停地下國際象棋。但“深藍”擅長玩一種特定的游戲，而不是其他智力活動，如演奏樂器、撰寫著作、進行科學實驗、撫養子女或修理汽車。?

這絕不是想貶低“深藍”所取得的成就。與其相反，計算機在智力能力上超越人類的想法需要仔細的檢驗，首先要分析強化學習的工作機制。?

如上所述，強化學習是機器學習的一個子集，它涉及智能代理在環境中如何行動以最大化累積獎勵的概念。?

簡單地說，強化學習機器人接受獎懲機制的訓練，它們做出正確的動作會得到獎勵，做出錯誤的動作會受到懲罰。強化學習機器人不會“思考”如何采取更好的行動，它們只是讓所有的行動成為可能，以最大限度地提高成功的機會。?

強化學習的主要缺點是它需要采用大量的資源來實現它的目標。強化學習在圍棋游戲中的成功就說明了這一點。這是一款流行的雙人游戲，其目標是使用棋子在棋盤上占據最大區域，同時避免丟子。?

AlphaGo Master是一款在圍棋比賽中擊敗人類棋手的計算機程序，它耗費大量的資金和人力，其中包括許多工程師，非常豐富的游戲經驗以及256個GPU和128000個CPU。?

在學習如何在比賽獲勝的過程中，需要投入大量的資源和精力。這就引出了一個問題：設計不能憑直覺思考的人工智能是否合理?人工智能研究不是應該嘗試模仿人類智能嗎? ?

支持強化學習的一個論點是，人們不應該期望人工智能系統像人類一樣行動，它用于解決復雜問題需要進一步發展。另一方面，反對強化學習的觀點是，人工智能研究應該專注于讓機器做目前只有人類和動物才有能力做的事情。從這個角度來看，人工智能與人類智能的比較是恰當的。?

強化學習是一個新興的領域，據說可以解決上述的一些問題。量子強化學習(QRL)是一種加速計算的方法。 ?

首先，量子強化學習(QRL)應該通過優化探索(發現策略)和開發(選擇最佳策略)階段來加速學習。目前的一些應用和提出的量子計算改進了數據庫搜索，將大數分解為質數，等等。 ?

盡管量子強化學習(QRL)還沒有以突破性的方式出現，但它有望解決常規強化學習的一些重大挑戰。?

正如以上提到的，強化學習研究和開發至關重要。以下是來自麥肯錫公司的一份調查報告中的有關強化學習的一些實際應用示例，強化學習可以：?

強化學習的能力可能是有限的，但它不會被高估。此外，隨著強化學習研究和開發項目的增加，幾乎每個經濟部門的潛在用例也在增加。?

大規模采用強化學習依賴于幾個因素，其中包括優化算法設計、配置學習環境和計算能力的可用性。?

原文標題：??Is reinforcement learning overhyped???，作者：Aleksandras ?ul?enko?

責任編輯：華軒來源： 51CTO