你該如何理解和適應人工智能
我們每年向幾百名學生教授數據科學,他們都對人工智能很著迷,并會提出很好的問題。汽車如何學習自動駕駛?亞歷克莎(Alexa)如何理解我在說什么?聲田(Spotify)是怎樣為我選擇如此精彩的播放列表的呢?臉書如何在我上傳的照片中識別我的朋友?這些學生意識到,人工智能不是來自未來的某種科幻機器人。
它存在于此時此刻。它在通過每一部智能手機改變世界。學生們都想理解人工智能,而且都想參與其中。
我們的學生,不是唯一對人工智能產生熱情的人。和他們一樣欣喜的,還有世界上最大的公司——從美國的亞馬遜、臉書、谷歌到中國的百度、騰訊、阿里巴巴。你可能聽說過,這些大型科技公司正在發動一場針對人工智能人才的昂貴的全球“軍備競賽”,他們認為這對他們的未來非常重要。
現在,我們看到更多公司參與到人工智能領域的人才爭奪之中——比如坐擁海量數據的保險和石油公司,他們同樣可以提供可觀的薪水和獨具特色的咖啡機。
這種軍備競賽當然是真實的,但我們認為人工智能領域目前還有另一個更加強烈的趨勢——這個趨勢不是集中,而是擴散和傳播。是的,每家大型科技公司都在努力囤積數學和編程人才,但與此同時,人工智能背后的基本技術和思想正在以極快的速度擴散,被小公司、其他行業以及世界各地的愛好者、程序員、科學家和研究人員所掌握。這種民主化趨勢是最讓我們今天的學生感到激動的事情,因為他們正在考慮各種急切需要人工智能解決方案的問題。
比如,誰會想到一群大學生會對黃瓜數學如此著迷?當他們聽說日本汽車工程師小池誠(MakotoKoike,音譯)的故事時,他們的確很著迷。小池誠的父母有一座黃瓜農場。在日本,黃瓜具有各種令人眼花繚亂的大小、形狀、顏色和毛刺度——人們必須根據這些外觀特征將黃瓜分屬九種類別,這些類別具有不同的市場價格。
過去,小池的母親每天要花八個小時手工分揀黃瓜。后來,小池意識到,他可以用谷歌的開源人工智能軟件TensorFlow完成這項任務。他可以編寫一種“深度學習”算法程序,根據照片為黃瓜分類。
小池之前從未使用過人工智能和TensorFlow,但他很容易就根據現有的所有免費資源完成了自學。當他的人工智能分揀機器視頻在YouTube上出現時,小池成了深度學習和黃瓜這兩個領域的國際名人。他不僅為人們提供了一個有趣的故事,為他的母親免除了無數個小時的辛勞,他還向全世界的學生和程序員傳達了一個令人鼓舞的消息:既然人工智能可以解決黃瓜農場的問題,那么它應該可以解決幾乎所有領域的問題。
這條消息目前正在迅速傳播。醫生正在用人工智能診斷和治療癌癥。電力公司用人工智能提高發電效率。投資者用人工智能管理財務風險。石油公司用人工智能提高深海鉆井平臺的安全性。執法機構用人工智能追捕恐怖分子。科學家用人工智能獲取天文、物理和神經科學的新發現。世界各地的公司、研究人員和愛好者正在以數千種不同的方式使用人工智能,比如探測天然氣泄漏,開采鐵礦石,預測疾病暴發,避免蜜蜂滅絕,量化好萊塢電影中的性別歧視。
這僅僅是開始。
我們認為,人工智能的真實故事恰恰體現了這種擴散:從過去幾十年甚至幾百年間的幾個核心數學概念,到今天的超級計算機和講話、思考、分揀黃瓜的機器,到明天無處不在的新的數字奇跡。
我們這本書的目的就是向你講述這個故事。它在一定程度上是科技故事,但它主要講述的是思想以及思想背后的人——這些人所處的時代比現在早得多,他們只是在低調地解決他們面對的數學和數據問題,他們并不知道他們的解決方案將對現代社會起到怎樣的作用。讀完這個故事,你會理解人工智能的含義、來源、原理及其在生活中的重要意義。
人工智能到底是什么意思?
當你聽到“人工智能”時,不要想到機器人。你應該把它看成一種算法。
算法是一組帶有步驟的指令。這些指令非常清晰,就連計算機這樣頭腦簡單的事物也能遵循。(你可能聽說過下面的笑話。一個機器人卡在浴室里出不來了,因為洗發水瓶身上的算法是:“涂抹。沖洗。重復。”)算法本身并不比電鉆更加聰明,它只能把一件事情做得很好,比如為數組排序,或者在網上搜索可愛的動物照片。不過,如果你將許多算法巧妙地組合在一起,你就可以生成人工智能,使人覺得它在某個領域可以做出智能行為。例如,你可能會向谷歌Home這樣的數字助理提出“奧斯汀最好的早餐玉米卷餅在哪兒”等問題。這種詢問會引發算法的連鎖反應:
一個算法將原始聲波轉化成數字信號。
另一個算法將這個信號轉化成一串英語音素,即獨特的
聽覺感知:“brek-fust-tah-koze”。
下一個算法將這些音素劃分成詞語:“breakfasttacos”。
這些詞語被發送到搜索引擎——搜索引擎本身就是海量算法的集合,可以處理查詢,做出回答。
另一個算法將這種回答轉化成清晰的英語句子。
最后一個算法以聽上去不像機器人的方式表述這個句子:
“奧斯汀最好的早餐玉米卷餅在杜瓦爾街的胡里奧餐廳。您需要導航嗎?”
這就是人工智能。幾乎每個人工智能系統都會遵循這種“算法管道”模式,不管是自動駕駛汽車、自動黃瓜分揀機還是監測信用卡賬戶盜刷的軟件。這種管道會接收來自某個具體領域的數據,執行一系列計算,然后輸出預測或決定。
人工智能使用的算法有兩個明顯特征。首先,這些算法處理的通常不是確定性,而是概率。例如,人工智能中的算法不會直接指出某筆信用卡交易存在欺詐。相反,它會指出欺詐概率是92%,或者它根據數據得到的任何概率。第二個特征涉及這些算法是如何知道應該遵循哪些指令的。在傳統算法中,比如運行網站或處理文字的算法,這些指令是程序員提前固定下來的。不過,在人工智能中,這些指令是算法直接從“訓練數據”中學到的。沒有人告訴人工智能算法如何判斷信用卡交易是否存在欺詐。相反,算法會看到每個類別(欺詐,無欺詐)中的許多案例,它會找到區分二者的模式。
對于人工智能來說,程序員的作用不是告訴算法應該做什么,而是告訴算法如何根據數據和概率規則獲知自己應該做什么。
我們是如何走到今天的?
自動駕駛汽車和家庭數字助理等現代人工智能系統屬于新鮮事物。不過,你可能會吃驚地發現,人工智能的重要思想其實很古老——許多思想已經存在了數百年——我們的祖先一直在用它們解決問題。以自動駕駛汽車為例,谷歌第一款自動駕駛汽車于2009年首次亮相。不過,你將在第三章發現,這些汽車背后的主要思想之一是某個長老會牧師在18世紀50年代發現的——50多年前,某個數學家團隊還用這種思想解決了冷戰時期最大的轟動性謎團之一。
另一個例子是圖像分類,比如自動在臉書照片中為你的朋友做標記的軟件。圖像處理算法在過去五年取得了很大進步,但你將在第二章看到,這里的關鍵思想來自1805年——而且,一位不知名的天文學家亨麗埃塔·萊維特(HenriettaLeavitt),在一個世紀前利用這些思想幫助人類解答了歷史上最深刻的科學問題之一:宇宙有多大?
再以語音識別為例,這是人工智能近年來的偉大勝利之一。亞歷克莎和谷歌Home等數字助理在語言方面非常流利,而且它們只會變得越來越好。不過,第一個讓計算機理解英語的人是一位美國海軍少將,而且這件事發生在將近70年前。(見第四章。)
這里只舉了三個例子,但它們說明了一個驚人的事實:不管你考察人工智能的哪些方面,你都會找到一個被人們長期研究過的思想。所以,從各方面來看,最大的歷史謎團不是人工智能為什么會在今天出現,而是它為什么沒有在很久以前出現。要想解釋這個謎團,我們必須考慮將這些寶貴思想帶入新時代的三個強大的技術力量。
第一個使人工智能成為可能的力量是計算機長達幾十年的指數增長速度,通常被稱為摩爾定律。你很難直觀地理解計算機目前的速度有多快。過去的常見說法是,阿波羅宇航員登陸月球時使用的計算能力還比不上一只袖珍計算器。不過,這種說法已經無法使人產生共鳴了,因為……袖珍計算器是什么東西?所以,讓我們用汽車來類比。1951年,尤尼瓦克是速度最快的計算機之一,每秒可以進行2000次計算,而速度最快的汽車之一阿爾法羅密歐6C的時速可達180公里。之后,汽車和計算機都在提速。不過,如果汽車能像計算機那樣提速,那么現代阿爾法羅密歐的速度將達到光速的800萬倍。
人工智能的第二個助推器是新的摩爾定律:隨著人類所有信息的數字化,可用數據量出現了爆炸式增長。美國國會圖書館擁有10太字節的存儲量,但是谷歌、蘋果、臉書、亞馬遜四大科技公司2013年一年收集的數據就是這個數字的大約12萬倍。而且,從互聯網視角來看,這已經是上一代的事情了。數據積累的加速節奏比阿波羅火箭還要快。2017年,YouTube每分鐘上傳的視頻超過300小時,instagram每天貼出的照片超過1億張。更多的數據意味著更聰明的算法。
第三個支撐人工智能的因素是云計算。消費者幾乎看不到這種趨勢,但它對人工智能產生了巨大的民主化影響。為說明這一點,我們要對數據和石油進行類比。假設20世紀早期的所有公司都擁有一些石油,但是它們需要獨自建設基礎設施,以便開采、運輸和提煉石油。如果一家公司有了利用石油的新思想,它需要面對巨大的固定起步成本。因此,大多數石油都不會得到使用。同樣的邏輯也適用于數據,即21世紀的石油。如果用自己的數據打造人工智能系統需要購買所有的裝備和專業人才,大多數愛好者和小公司都會面對難以負擔的成本。不過,微軟Azure、IBM和亞馬遜WebServices等平臺提供的云計算資源將這種固定成本轉化成了可變成本,極大地改變了大規模數據存儲和分析的支出比重。今天,任何想要使用個人“石油”的人都可以租用其他人的基礎設施,以降低成本。
當你將這四種趨勢——更快的芯片、大量數據、云計算以及最重要的優秀思想——放在一起時,用人工智能解決實際問題的需求和能力就會出現爆炸式增長。
人工智能焦慮
我們已經向你講述了我們的學生對于人工智能多么興奮,以及世界上最大的公司是如何迫不及待地迎接人工智能的。不過,如果我們說每個人都對這些新技術如此看好,我們就是在說謊。實際上,許多人對于工作、數據隱私、財富集中或者制造假新聞的俄羅斯推特機器人感到焦慮。一些人——最著名的是特斯拉和太空探索技術公司背后的科技企業家埃隆·馬斯克(Elon Musk)——描繪了更加恐怖的圖景:機器人獲得了自我意識,不再愿意被人類統治,開始用硅片之拳統治我們。
讓我們先來談一談馬斯克的憂慮。他的觀點獲得了許多關注,這可能是因為擁有億萬身家的顛覆者對于人工智能的論述容易引起人們的注意。馬斯克聲稱,人類開發人工智能技術是在“召喚魔鬼”,智能機器是“對我們的存在產生最大威脅”的物種。
讀完我們這本書時,你可以自行判斷這些擔憂是否可信。不過,我們想提前警告你,你很容易落入認知科學家所說的“可得性啟發法”的陷阱,即人們根據頭腦中最早出現的任何例子來評估某種說法可信度的心理捷徑。對于人工智能,這些例子主要來自科幻小說,而且大部分是邪惡的——比如終結者、博格和哈爾9000。我們認為,這些科幻案例具有強大的錨定效應,會使許多人減少對于“邪惡人工智能視角”應有的懷疑。我們可以想象,可以拍電影,但這并不意味著我們能把它制造出來。今天,沒有人知道如何制造出像人類或者終結者那樣擁有通用智能的機器人。在遙遠的未來,你的后代子孫也許可以想出辦法,甚至可以用機器人恐嚇埃隆·馬斯克的后代子孫。不過,這將是他們的選擇和問題,因為今天的人們甚至無法確定遙遠的未來是否存在這種可能性。對于現在和可以預見的未來,“智能”機器只在其特定領域擁有智能:
亞歷克莎可以把意大利肉醬面的菜譜念給你,但她不能切洋蔥。而且,她顯然不能用菜刀攻擊你。
自動駕駛汽車可以把你帶到足球場,但它并不能充當比賽裁判,更不能根據自己的意志將你綁在門柱上,并把球踢向你的敏感部位。
此外,如果你擔心我們很快會被擁有自我意識的機器人征服,這種擔憂就會產生機會成本。現在關注這種可能性就像1952年實現首次商業飛行的德哈維蘭航空公司擔心高速星際旅行的影響一樣。也許它在未來值得擔憂,但是現在,我們有更加重要的事情值得擔憂——還是用航班作類比,比如如何為今天天空中的所有飛機制定明智的管理政策。
這個政策問題引出了另一組對于人工智能的焦慮,它們更加可信,急切。人工智能會使人們失去工作嗎?機器會毫無責任地制定關于我們人生的重要決策嗎?擁有最聰明機器人的人最終會擁有未來嗎?
這些問題非常重要,它們一直在被人們討論——在科技會議上,在全球各大報紙上,在我們同事的午餐餐桌上。我們應該提前告訴你,你無法在我們的書中找到這些問題的答案,因為我們不知道答案。和我們的學生一樣,歸根結底,我們對人工智能的未來是樂觀的。當你讀完這本書時,希望你也能擁有這種樂觀。不過,我們不是勞動經濟學家、政策專家和預言家。我們是數據科學家——同時也是學術人員,這意味著我們的本能是堅守我們的專業。我們相信我們的專業知識。我們可以讓你了解人工智能,但是不能明確告訴你未來是怎樣的。
不過,我們可以告訴你,我們知道人們對于人工智能的常見觀點,這些觀點都是不完整的。這些人強調大型科技公司的財富和力量,但是他們忽視了人工智能正在發生的、令人難以置信的民主化和擴散。他們強調機器用有偏數據制定重要決策的危險性,但是他們沒能承認人類決策中持續存在的偏差甚至惡意。最重要的是,他們強烈關注機器可能破壞的東西,但是他們沒有看到我們將會得到的東西:新的、更好的工作,新的便利,遠離重復勞動的自由,更安全的工作環境,更好的醫療保健,更少的語言障礙,新的學習和決策工具。它們將會幫助我們成為更好、更聰明的人。
以就業為例。在美國,從2010年到2017年,失業報告不斷創造新低,盡管人工智能和自動化作為經濟力量在不斷壯大。機器人自動化的腳步在中國更加迅猛,但中國的工資多年來一直在大幅上升。這并不意味著人工智能沒有威脅到個體的工作。這種威脅是存在的,而且會持續存在,就像動力織布機威脅到了織工的工作,或者汽車威脅到了馬車夫的工作。新技術總會改變經濟所需要的勞工成分,壓低一些領域的工資,提升另一些領域的工資。人工智能也不例外。我們強烈支持通過工作培訓和社會福利為那些被技術取代的人提供有意義的幫助。我們甚至可以將普遍基本收入作為解決方案,就像許多硅谷老板認為的那樣。我們承認,我們不是這方面的專家。不過,到目前為止,人工智能會使未來的人失去工作的觀點完全沒有得到事實證據的支持。
還有市場操縱問題。亞馬遜、谷歌、臉書和蘋果等大型公司擁有巨大的力量。我們必須對這種力量保持警惕,以免它被用于遏制競爭或削弱民主標準。不過,不要忘了,這些公司之所以成功,是因為它們提供了人們喜愛的產品和服務。只有保持創新,它們才能繼續取得成功,而這對于大型機構并不容易。此外,許多預測認為,今天的大型科技公司會永遠保持統治地位,但是這些預測并不能解釋過去,更不能預測未來。還記得戴爾和微軟在計算領域保持統治地位的年代嗎?或者諾基亞和摩托羅拉稱霸手機領域的年代——當時它們極為強盛,你很難想象到后來的事情。還記得每個律師擁有黑莓手機、每個樂隊在Myspace上開設賬戶、每個服務器來自太陽微系統的年代嗎?還記得美國在線、百視達、雅虎、柯達或者索尼隨身聽嗎?不同的公司來來去去,但時代一直在前進,產品一直在變得越來越先進。
我們對于人工智能的出現抱有現實的觀點:它現在已經出現了,未來還會變得越來越普遍,不管我們每個人是否喜歡它。這些技術會帶來巨大的利益,但它們也會不可避免地反映出我們這個文明的弱點。所以,我們需要警惕一些危險,比如隱私、平等、現有制度的危險以及沒有人能預見的危險——如果我們希望在即時評論和140字符的世界里制定明智的政策,我們必須在社會層面上均衡地討論這些問題,同時考慮到它們的重要性和復雜性。本書不會進行這種討論。不過,我們會告訴你,要想在這種討論中扮演明智的角色,你需要知道什么。
關于數學
在開始之前,我們要提醒你最后一點:本書將會涉及一些數學內容。即使你從不認為自己擅長數學,你也不需要擔心。人工智能的數學知識極其簡單,我們保證你能理解。我們還可以保證,這種理解是值得的:如果你懂得人工智能背后的一點數學知識,人工智能在你心中的神秘感就會大大降低。
我們當然可以寫一本關于人工智能的、不包含任何數學內容的書,因為我們一直在聽人說,你可以選擇數學或朋友,但你不能全選。我們的編輯最初懇求我們采取這種策略,并且低聲嘟囔了什么,好像是“每增加一個數學符號,就會失去三千個讀者”,也可能是“每增加一個希臘字母,就會失去五千個讀者”。不管他說了什么,我們都拒絕了,因為經驗告訴我們,你們并沒有如此怯懦。
我們兩個人已經教了40年的數據科學和概率,許多工商管理碩士和本科生在學習之前也很害怕數學,甚至討厭數學。不過,當他們知道他們聽說過的所有人工智能應用程序(比如亞歷克莎和圖像識別)的工作原理時,這些學生全都眼前一亮——說到底,這些都只是大數據的概率而已。他們開始明白,那些公式并不像他們最初想象的那么難。到了最后,他們甚至覺得數學給了他們力量。他們意識到,在合適情況下,更加接近機器的思考方式——即根據數據和概率規則制定決策——甚至可以讓你變得更加聰明。


























