Huggingface榜首開(kāi)源模型惹爭(zhēng)議:魔改Apache協(xié)議,達(dá)到一定門(mén)檻要收錢(qián)
我們知道,Huggingface 是 AI 領(lǐng)域著名的開(kāi)源平臺(tái),任何人和機(jī)構(gòu)都可以在該平臺(tái)上發(fā)布自己以及使用他人的模型、數(shù)據(jù)集,為業(yè)內(nèi)提供了研究便利。因此它深受 AI 圈的喜愛(ài),其最受歡迎的 Transformer 庫(kù)已在 GitHub 上收獲 102k 的 Star 量。
不過(guò)近日,由 TII 開(kāi)發(fā)并發(fā)布在 Huggingface 上的一個(gè)大模型引發(fā)了廣泛爭(zhēng)議。該大模型是 400 億參數(shù)的因果解碼器模型 Falcon-40B,它在 RefinedWeb 的 1000B token 上進(jìn)行訓(xùn)練,并使用精選數(shù)據(jù)集增強(qiáng)。它在 Huggingface 的 OpenLLM 排行榜上排首位,其性能優(yōu)于 LLaMA、MPT、RedPajama 和 StableLM 等。

排行榜地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
雖然 Falcon-40B 模型本身很強(qiáng)大,但其遵循的開(kāi)源協(xié)議卻在開(kāi)源圈引起了軒然大波。它在一個(gè)允許商業(yè)使用的許可證下可用,即如下 TII Falcon LLM License。

開(kāi)源協(xié)議:https://huggingface.co/tiiuae/falcon-40b/blob/main/LICENSE.txt
該許可證部分基于 Apache License Version 2.0。Apache License 2.0 協(xié)議來(lái)自著名的 Apache 基金會(huì),它對(duì)商業(yè)應(yīng)用友好。使用者可以在需要的時(shí)候修改代碼來(lái)滿(mǎn)足需要并作為開(kāi)源或商業(yè)產(chǎn)品發(fā)布 / 銷(xiāo)售。
但有人發(fā)現(xiàn)了 TII Falcon LLM License 的一些「貓膩」。推特用戶(hù) @natfriedman 總結(jié)了它與 Apache License 2.0 開(kāi)源許可的相似與不同之處。其中相似之處在于都授予使用、修改和分發(fā)許可作品的廣泛許可,要求在分發(fā)中包含許可文本和歸屬,并具有責(zé)任限制、擔(dān)保豁免權(quán)。
不過(guò)區(qū)別在于,TII Falcon LLM License 要求一旦達(dá)到收入門(mén)檻,需支付商業(yè)用途特許權(quán)使用費(fèi),而大多數(shù)開(kāi)源許可不需要。TII Falcon LLM License 對(duì)如何發(fā)布或分發(fā)作品也有額外限制, 比如要求歸屬于「Falcon LLM technology from the Technology Innovation Institute」。
同時(shí),TII Falcon LLM License 不允許在其他不同的許可下重新授權(quán)作品,而大多數(shù)開(kāi)源許可允許衍生作品根據(jù)不同的協(xié)議獲得許可。TII Falcon LLM License 還明確地排除了 Falcon LLM 的某些版本 / 大小的許可,而開(kāi)源許可通常適用于所有版本。
最后,TII Falcon LLM License 對(duì)修改源代碼和目標(biāo)代碼都有額外的要求,除非分發(fā)編譯的模型。總之,該許可允許開(kāi)放使用和修改,但同時(shí)又保留了很多自有權(quán)利。

@natfriedman 的觀(guān)點(diǎn)得到了很多人的附和,另一位推特用戶(hù) @_msw_直截了當(dāng)?shù)刂赋觯?span style="color: #3daad6;">將專(zhuān)有許可基于受信任的 Apache License 2.0 之上并稱(chēng)其為「開(kāi)源」(實(shí)際上不是真正的開(kāi)源),這種利用 Apache 軟件基金會(huì)來(lái)之不易的信譽(yù)和品牌的做法是不對(duì)的。
又有人問(wèn)了,這意味著 Falcon-40B 不開(kāi)源或不是免費(fèi)軟件?@_msw_回復(fù)稱(chēng)它既不開(kāi)源也不是免費(fèi)軟件。

吃瓜群眾有的同意并認(rèn)為 TII Falcon LLM License 根本不是開(kāi)源許可,但也有的指出 TII Falcon LLM License 本就是「部分」基于開(kāi)源協(xié)議。


業(yè)內(nèi)從事開(kāi)源人士發(fā)表了觀(guān)點(diǎn),認(rèn)為魔改 Apache 或其他主流開(kāi)源許可證不叫開(kāi)源,甚至算不上開(kāi)放內(nèi)核。

Falcon-40B 是否開(kāi)源但又不完全開(kāi)源呢?機(jī)器之心的讀者們,你們?cè)趺纯矗?/span>


























