27 億參數的「野生版」GPT-3 開源，GitHub 項目 2-9K Star 量

（給機器學習算法與 Python 學習加星標，提升 AI 技能）

機器之心報道

GPT-3 是 2020 年 OpenAI 推出的具有 1750 億參數的自迴歸語言模型，它在許多自然語言基準上都取得了出色的成績。GPT-3 能夠執行答題、翻譯、寫文章等任務，甚至還帶有一些數學計算的能力。

不同於 GPT-2 和 GPT-1，OpenAI 選擇不開源 GPT-3，而是通過商業 API 來提供該模型的能力及訓練數據集。該公司通過選擇將 GPT-3 獨家許可給與 OpenAI 有業務關聯的微軟來進一步限制訪問。

儘管如此，既然論文已經放出，人們對於 GPT-3「野生版」的開發沒有止步。其中開源 AI 研究機構 EleutherAI 的 GPT-Neo 項目是 GPT-3 的復現與開源中最優秀的項目之一。3 月 22 日，EleutherAI 的開源項目 GPT-Neo 宣佈放出復現版 GPT-3 的模型參數（1.3B 和 2.7B 級別），並將其更新在了 Colab notebook 上。

雖然是 1750 億參數模型 GPT-3 的復現，此次開源的模型裏較大的版本也只達到了 GPT-3 商用版裏最小模型的參數量，不過 Eleuther AI 表示未來會進一步開源 10B 版本和原始大小版本的 GPT-3 模型參數。這一項目一經發布，就受到了 AI 社區的關注，目前該項目已收穫 2.9K star 量。

項目地址：https://github.com/EleutherAI/gpt-neo/

訓練數據集

EleutherAI 承認，由於 OpenAI 決定不發佈 GPT-3 架構的一些關鍵細節，因此 GPT-Neo 與原版 GPT-3 相比必然會存在一些偏差。此外，還有一些偏差可能來自 EleutherAI 計劃使用的訓練數據集，該數據集是由來自 EleutherAI 的 10 人小組策劃的。

像 GPT-3 這樣的語言模型通常會放大數據中存在的偏見。例如，OpenAI 指出在數據集中女性和 sucked 這樣的詞彙可能會存在關聯，著名預訓練語言模型 BERT 也曾被指存在偏見。

EleutherAI 小組表示他們已對 GPT-Neo 訓練數據集進行了「廣泛偏見分析」，並做出了一些消除偏見的決定，以排除他們認爲對某些羣體或觀點「造成不可接受的負面偏見」的某些數據集。該項目使用一個 825 GiB 的多樣開源語言建模數據集，它對於大型語言模型的訓練和基準測試都很有效。

數據集：https://pile.eleuther.ai/

GPT-3 可以變得更小嗎？

EleutherAI 計劃利用項目團隊使用的架構來訓練 GPT-Neo，使其達到和 GPT-3 在相同模型大小時「相同」的性能。在未來，他們還計劃將模型減小一個數量級甚至更多。

如果這樣的模型被認爲具備實用化的條件，其效率的提高將會抵消不斷膨脹的算力需求。根據 OpenAI 的一項調查，自 2012 年以來在著名數據集 ImageNet 之上將圖像分類模型訓練成相同的識別準確度，其所需的算力每 16 個月減少兩倍。但是與更多參數的新模型相比，算力的使用仍然是個開放問題。

「要想讓性能繼續提高，模型的尺寸還會不可避免地增加」項目團隊成員之一 Leahy 說道。「大模型的能力對於小模型來說是遙不可及的，這可能就是殘酷的現實。我們看起來沒有其他解決的方法——如果更大的模型意味着更好的性能，擁有算力的公司就會具備優勢，就這麼簡單。」

EleutherAI 是一個致力於開源 AI 研究的團隊。Leahy 表示：「我們致力於允許更多資源匱乏的用戶（尤其是研究者）使用相關技術，以期在相關領域湧現更多更好的研究，並在此基礎上進行我們以安全爲重點的研究，而不是將其鎖定在行業實驗室內。畢竟，這些技術仍然在發展階段，當此類模型在生產中按原樣使用而沒有進行更廣泛的調查時，自然會產生存在偏見等問題，我們希望這些模型能夠開放更多的可用性。」

參考內容：

https://venturebeat.com/2021/01/15/ai-weekly-meet-the-people-trying-to-replicate-and-open-source-openais-gpt-3/

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/_JHEAXY4F-6doJeG_t74cA

猜你喜歡