27 億參數的「野生版」GPT-3 開源,GitHub 項目 2-9K Star 量

(給機器學習算法與 Python 學習加星標,提升 AI 技能)

機器之心報道

GPT-3 是 2020 年 OpenAI 推出的具有 1750 億參數的自迴歸語言模型,它在許多自然語言基準上都取得了出色的成績。GPT-3 能夠執行答題、翻譯、寫文章等任務,甚至還帶有一些數學計算的能力。

不同於 GPT-2 和 GPT-1,OpenAI 選擇不開源 GPT-3,而是通過商業 API 來提供該模型的能力及訓練數據集。該公司通過選擇將 GPT-3 獨家許可給與 OpenAI 有業務關聯的微軟來進一步限制訪問。

儘管如此,既然論文已經放出,人們對於 GPT-3「野生版」的開發沒有止步。其中開源 AI 研究機構 EleutherAI 的 GPT-Neo 項目是 GPT-3 的復現與開源中最優秀的項目之一。3 月 22 日,EleutherAI 的開源項目 GPT-Neo 宣佈放出復現版 GPT-3 的模型參數(1.3B 和 2.7B 級別),並將其更新在了 Colab notebook 上。

雖然是 1750 億參數模型 GPT-3 的復現,此次開源的模型裏較大的版本也只達到了 GPT-3 商用版裏最小模型的參數量,不過 Eleuther AI 表示未來會進一步開源 10B 版本和原始大小版本的 GPT-3 模型參數。這一項目一經發布,就受到了 AI 社區的關注,目前該項目已收穫 2.9K star 量。

項目地址:https://github.com/EleutherAI/gpt-neo/

訓練數據集

EleutherAI 承認,由於 OpenAI 決定不發佈 GPT-3 架構的一些關鍵細節,因此 GPT-Neo 與原版 GPT-3 相比必然會存在一些偏差。此外,還有一些偏差可能來自 EleutherAI 計劃使用的訓練數據集,該數據集是由來自 EleutherAI 的 10 人小組策劃的。

像 GPT-3 這樣的語言模型通常會放大數據中存在的偏見。例如,OpenAI 指出在數據集中女性和 sucked 這樣的詞彙可能會存在關聯,著名預訓練語言模型 BERT 也曾被指存在偏見。

EleutherAI 小組表示他們已對 GPT-Neo 訓練數據集進行了「廣泛偏見分析」,並做出了一些消除偏見的決定,以排除他們認爲對某些羣體或觀點「造成不可接受的負面偏見」的某些數據集。該項目使用一個 825 GiB 的多樣開源語言建模數據集,它對於大型語言模型的訓練和基準測試都很有效。

數據集:https://pile.eleuther.ai/

GPT-3 可以變得更小嗎?

EleutherAI 計劃利用項目團隊使用的架構來訓練 GPT-Neo,使其達到和 GPT-3 在相同模型大小時「相同」的性能。在未來,他們還計劃將模型減小一個數量級甚至更多。

如果這樣的模型被認爲具備實用化的條件,其效率的提高將會抵消不斷膨脹的算力需求。根據 OpenAI 的一項調查,自 2012 年以來在著名數據集 ImageNet 之上將圖像分類模型訓練成相同的識別準確度,其所需的算力每 16 個月減少兩倍。但是與更多參數的新模型相比,算力的使用仍然是個開放問題。

「要想讓性能繼續提高,模型的尺寸還會不可避免地增加」項目團隊成員之一 Leahy 說道。「大模型的能力對於小模型來說是遙不可及的,這可能就是殘酷的現實。我們看起來沒有其他解決的方法——如果更大的模型意味着更好的性能,擁有算力的公司就會具備優勢,就這麼簡單。」

EleutherAI 是一個致力於開源 AI 研究的團隊。Leahy 表示:「我們致力於允許更多資源匱乏的用戶(尤其是研究者)使用相關技術,以期在相關領域湧現更多更好的研究,並在此基礎上進行我們以安全爲重點的研究,而不是將其鎖定在行業實驗室內。畢竟,這些技術仍然在發展階段,當此類模型在生產中按原樣使用而沒有進行更廣泛的調查時,自然會產生存在偏見等問題,我們希望這些模型能夠開放更多的可用性。」

參考內容:

https://venturebeat.com/2021/01/15/ai-weekly-meet-the-people-trying-to-replicate-and-open-source-openais-gpt-3/

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/_JHEAXY4F-6doJeG_t74cA