開源大型語言模型給OpenAI、谷歌和微軟帶來哪些挑戰?

在過去的幾年,科技巨頭似乎能夠壟斷規模不斷增長的大型語言模型(LLM)市場。最近一些大型科技公司的財報電話會議表明,他們在人工智能開發方面仍掌握著控制權。微軟發布的公告尤其表明,該公司已經通過其人工智能服務創造了數十億美元的業務,包括通過Azure OpenAI服務和OpenAI在其云基礎設施上運行的工作負載。
然而,谷歌最近泄露的一份內部文件表明,由于大型語言模型的快速進步,大型科技公司的市場地位并不像看起來那么穩固。谷歌在這份文件指出:“我們沒有護城河,OpenAI也沒有。”
而人工智能市場的動態正在逐漸從“越大越好”轉變為“越便宜越好”、“效率越高越好”以及“越定制越好”。雖然基于云的大型語言模型和生成式人工智能產品總有自己的市場,但客戶現在也有開源的選擇可以探索。
大型語言模型的“護城河”
2020年發表的有關GPT-3論文預測了大型語言模型規模化的前景。GPT-3有1750億個參數,這個大型語言模型可以做很多它沒有訓練過的事情。GPT模型的發展表明,如果繼續創建更大的大型語言模型,并在更大的數據集上訓練它們,將能夠創建更有能力的模型。
GPT-3的成功增強了人們對創建更大語言模型的興趣。幾篇研究論文探討了大型語言模型的迷人特性,包括它們的涌現能力。與此同時,人工智能研究實驗室競相創造越來越大的模型。Gopher(280Bparams)、LaMDA(137Bparams)、PaLM(540Bparams)和Megatron-Turing(530Bparams)就是一些例子。
但與此同時,大型語言模型社區經歷了一個令人不快的變化。隨著研究重點轉向創建規模更大的大型語言模型,開發和創新的成本急劇上升。像GPT-3這樣的大型語言模型需要花費數百萬美元來訓練和運行。因此,大型語言模型的工作僅限于少數資金充足的科技公司和與之相關的人工智能實驗室。
隨著人工智能實驗室越來越依賴于營利性組織的資金支持,他們面臨著越來越大的壓力,需要將自己的技術實現貨幣化。這促使他們圍繞自己的技術創造產品。與此同時,他們需要在自己的產品周圍建造“護城河”。而“護城河”就是防止競爭對手復制企業的產品和業務的防御機制。
大型語言模型的關鍵護城河是:(1)訓練數據;(2)模型權重;(3)訓練和推理成本。大型科技公司已經在(3)中占據優勢,因為它們是能夠支付訓練和運營大型大型語言模型費用的少數幾家公司。即使是像BLOOM和OPT175-B這樣的GPT-3的開源替代品,對于那些無力購買或租用數千個GPU的資金緊張的科技公司來說,通常難以承擔其運行成本。
然而,為了也能夠獲得其他兩個領域的優勢,科技公司將這個領域推向了更加晦澀和更少共享的方向。OpenAI可能是最具代表性的例子,它從一個對外發布所有研究成果的人工智能實驗室,變成了一家向其大型語言模型出售API訪問權限的初創公司,該公司甚至不再公布有關其訓練數據和模型架構的細節。
在很長一段時間里,這似乎是一場底層競爭,大型科技公司向大型語言模型投入更多資金,使這一領域更加隱秘。
開源大型語言模型
隨著控制大型語言模型的權力集中在幾家大型科技公司手中,開源社區對此做出了回應。在ChatGPT的發布表明在不同的應用程序中遵循大型語言模型的指令越來越有希望之后,他們的努力得到了回報。在過去的幾個月,人們看到了幾款開源大型語言模型的發布,它們挑戰了大型科技公司已經建立的整個商業模式。
這些ChatGPT的開源替代品證明了幾個關鍵點。首先,如果在非常大的數據集上進行訓練,具有數十億個參數的大型語言模型可以在性能方面與非常大的模型競爭。其次,可以用很少的預算和少量的數據來微調小型的大型語言模型。最后,開源大型語言模型的發展速度比封閉生態系統要快得多,因為不同的團隊可以在彼此的工作基礎上進行構建。
這些大型語言模型中的參數大多數在70億到130億個之間,可以在強大的消費級GPU上運行。有趣的是,這場運動是由Meta開發的開源大型語言模型系列LLaMA的發布引發的。不久之后,不同的研究人員發布了Alpaca和Vicuna,這兩個模型是在LLaMA的基礎上創建的,它們經過了微調,可以像ChatGPT一樣遵循指令。
LLaMA的許可證禁止將其用于商業目的。Databricks的Dolly2通過建立在EleutherAI的Pythia模型之上解決了這個問題。Open Assistant是一個完全開放的模型,可以訪問所有內容,包括代碼、模型權重和訓練數據。
這些模型還利用了低秩自適應(LoRA)等技術,可以將訓練成本降低1000多倍。
這些模型為希望在其應用程序中使用大型語言模型的企業提供了替代方案。現在,他們可以使用低成本的模型,這些模型可以在他們自己的服務器上運行,并且可以用很少的預算經常更新他們自己的數據。
這對大型科技公司意味著什么?正如谷歌在備忘錄中所警告的那樣,“由于可以承受大型語言模型的研究費用,在技術上保持競爭優勢變得更加困難。世界各地的研究機構正在以彼此的工作為基礎,以廣度優先的方式探索解決方案空間,遠遠超出我們的能力。當外界的創新稀釋了我們開發的大型語言模型的價值時,我們努力保守自己的秘密,或者可以嘗試相互學習。”
封閉式大型語言模型的市場會發生什么變化?
顯然,大型科技公司無法壟斷大型語言模型市場。但這并不意味著基于云的語言模型市場將會消失。正如人工智能研究員Andrej Karpathy指出的那樣,開源大型語言模型生態系統仍然面臨一些問題,包括預訓練基礎模型的高成本。
與此同時,開源大型語言模型并不適合所有人。對于那些沒有內部機器學習人才,并希望通過幾個API調用快速將大型語言模型集成到其應用程序中的企業來說,無服務器黑盒解決方案仍然非常有吸引力。與此同時,像微軟和谷歌這樣的科技巨頭通過他們的應用程序和客戶群擁有非常強大的分銷渠道。
但是,開源社區的努力將擴大市場規模,使在新的環境(例如筆記本電腦)中使用大型語言模型成為可能。與此同時,它們將在一定程度上使市場實現商品化,迫使科技巨頭向客戶提供更具競爭力的價格。大型語言模型領域的發展非常迅速,拭目以待未來幾周和幾個月會發生什么將是一件有趣的事情。






























