實測告訴你:DeepSeek-R1 7B、32B、671B 差距有多大?
DeepSeek-R1 7B、32B、671B 差距有多大?
先說結論,相比 “滿血版”671B 的 DeepSeek-R1,蒸餾版差不多就是“牛肉風味肉卷” 和“牛肉卷”的差距…
最近 Deepseek 成爲了 AI 圈中最火爆的話題,一方面通過稀疏激活的 MoE 架構、MLA 注意力機制優化及混合專家分配策略等創新手段,實現了高效的訓練和推理能力,同時大幅降低了 API 調用成本,達到了行業領先水平。另一方面,Deepseek 更是以 7 天實現用戶數破億的速度,一舉超越了 OpenAI 的 ChatGPT(ChatGPT 爲 2 個月)。
網上關於本地部署 Deepseek-R1 的教程,更是如同雨後春筍般出現在各個網絡平臺上。然而,這些本地部署教程往往會告訴你 Deepseek-R1 有多強大,但不會告訴你本地部署的 “蒸餾版”Deepseek-R1 相比“滿血版” 究竟有多差。
值得注意的是,目前公開發布的小尺寸的 DeepSeek-R1 模型,均是通過 Qwen 或 Llama 從 R1 中蒸餾過來,尺寸有所縮小,以適應不同性能設備調用 DeepSeek-R1 模型。
換句話說,無論是 7B 還是 32B 的 DeepSeek-R1,本質上更像是 “R1 味兒” 的 Qwen 模型,差不多是 “牛肉風味肉卷” 和“牛肉卷”的差距。雖然擁有前者部分特性,但更多是後者照貓畫虎實現類似的推理功能。
毋庸置疑的是,隨着模型尺寸的縮小,其性能也會變得更差,與 “滿血版”R1 的差距也會更大。而今天,大模型之家就帶你來看看,不同尺寸的 DeepSeek-R1 與“滿血版” 差距究竟有多大?
01
語言能力測試
在語言能力測試環節,大模型之家讓 7B、32B、671B 的 DeepSeek-R1,分別用 “新年快樂萬事如意” 寫一首藏頭詩。
在這個似乎已經被各大模型 “玩爛了” 的場景下,在很多人看來是 LLM 最小兒科的場景。
然而正如那句 “如果不出意外的話,就要出意外了”。在這一環節中,7B 版本的 R1 竟然率先出現了 bug!
可以看到,左邊的 7B 版本 R1 的輸出結果既沒能 “藏頭”,也不像一首 “詩”,甚至還在文中開始說起了英語。顯然,在最基礎的文字生成能力上,7B 並沒有達到 “及格線”。
相比之下,32B 的 R1 可以正常輸出文本內容,成功完成了 “藏頭詩” 的創作。雖然從押韻方面存在些許瑕疵,但勝在七言律詩對仗工整,內容上也沒有邏輯錯誤。
當然,效果最好的還要數 “滿血版” 的 R1,不僅對仗工整,韻腳得體,同時還給出了詩詞的賞析內容。明確了 “新年快樂萬事如意” 的“藏頭詩”背後,寄寓了對新歲萬事順遂的美好祝願。
爲了探究是否是因爲小尺寸導致語言能力下降,大模型之家還採用了尺寸相近的 9B 的 GLM4 用同樣的提示詞進行測試。結果發現在語言表達能力方面,GLM4 並不輸給 DeepSeek-R1,可見,當 R1 規模小到一定程度時,其基本的文本能力方面也會受到嚴重影響。
02
聯網總結測試
在測試完語言能力之後,我們在將 R1 與網絡搜索相結合,測試一下不同尺寸下,對於網絡內容的彙總能力。
大模型之家以一首杜甫的《登高》來測試一下 R1 大模型在聯網狀態下的表現。
乍一看 7B 模型輸出的表現足夠優秀(左),但是實際測試中,大模型之家發現 7B 模型的輸出結果並不穩定。偶爾會出現右邊對於詩詞理解出現偏差的場景,由此也能夠看出,在同等的網絡搜索情況下,R1 模型因爲尺寸縮小,在語言理解與生成能力方面受到了較大的影響。
相比之下,32B 的 R1 輸出就相對穩定,雖然在輸出結果上會存在顯示 “整首詩” 和“一句詩”的左右橫跳,但對於詩詞內容理解的準確性有了較大提高。
而 “滿血版”R1 依舊是表現最爲優秀,不僅能夠完整展示詩句內容,同時還會在答案中增加一些點評與背景陳述,增加回答的知識性與專業性。
另一組測試,大模型之家選用了目前遊戲中某角色的配隊,來測試 7B 與 32B 的語言理解能力。
在這一組測試中,7B 模型出現了遊戲中不存在的角色,而 32B 則能夠準確把握角色名稱,同時,在配隊的推薦理由方面,32B 模型給出的內容也更加科學合理。
03
邏輯推理測試
而在測試的第二個環節,我們用一道經典的 “雞兔同籠” 問題來考考不同尺寸的 R1 模型。提示詞爲:一個籠子,裏頭有雞和兔子,一共有 25 個頭和 76 只腳,請問籠子裏邊雞和兔子各有多少隻?
也許是 “雞兔同籠” 的問題對於 R1 而言過於簡單,那麼換一道更難的“一個三棱柱的上底和下底爲兩個等腰直角三角形,每個等腰三角形的直角邊長爲 16。直棱柱的高度等於等腰直角三角形的斜邊長度。求直棱柱的表面積。”
比較令人驚訝的是,無論是 7B 還是 32B 的模型,都可以輸出正確的答案。可見,在數學運算能力方面,蒸餾儘可能保留了 R1 模型的數學能力。
04
代碼能力測試
最後,讓我們再來對比一下 7B 與 32B 的代碼能力。這個環節,大模型之家要求 R1 編寫一個 “可以在瀏覽器上打開的貪喫蛇遊戲”。
代碼太長,讓我們直接來看生成好的結果:
Deepseek-R1 7B 的生成的遊戲程序存在 bug,只是一張靜態的圖片,蛇無法移動。
而 Deepseek-R1 32B 的生成的遊戲程序可以正常運行,可以通過鍵盤方向鍵控制蛇的正常移動,同時面板可以正常計分。
05
本地部署門檻高,普通用戶慎嘗試
從一系列的測試看來,DeepSeek-R1 的 7B、32B,都與 “滿血版”671B 存在比較明顯的差距,因此本地部署更多是用來搭建私有數據庫,或讓有能力的開發者進行微調與部署使用。對於一般用戶而言,無論從技術還是設備門檻都比較高。
官方測試結論也顯示,32B 的 DeepSeek-R1 大約能夠實現 90% 的 671B 的性能,且在 AIME 2024、GPQA Daimond、MATH-500 等部分場景之下效果略優於 OpenAI 的 o1-mini。
而在實際體驗中,也能夠看到與官方測試結論基本吻合,32B 以上模型勉強尚有本地化部署的可用性,而再小尺寸的模型在基礎能力方面有些過於薄弱,甚至輸出結果不敵同尺寸其他模型。尤其是網絡上大量的本地部署教程所推薦的 1.5B、7B、8B 尺寸模型,還是忘了它們吧…… 除了配置需求低、速度快,用起來並不理想。
前者生成速度是後者 3.5 倍
所以,從結論上來說,如果你真想本地部署一個 DeepSeek-R1 模型,那麼大模型之家建議從 32B 起步開始搭建,纔有相對完整的大模型體驗。
那麼,部署 32B 模型的代價是什麼呢?
運行 32B 的 R1 模型,官方建議是 64GB 內存和 32-48GB 顯存,再配合對應的 CPU,一臺電腦主機的價格大約在 20000 元以上。如果以最低配置運行,(20GB 內存 + 24GB 顯存),價格也要超過萬元。(除非你買 API)
筆者所使用的設備是 M2 Max 的 MacBook Pro(12 核 CPU+30 核 GPU+32GB 統一內存),在運行 32B 模型時,每秒僅能輸出 8-9 tokens,生成速度很慢,同時整機功耗持續維持在 60-80W,這也意味着,如果用電池供電持續使用大模型,僅有 1 個小時的使用時間。
不僅如此,本地化部署 R1 大模型後,還需要附加的方式爲模型增加聯網功能或本地化數據庫,否則模型內的數據會與日新月異的互聯網脫節,體驗上多數情況遠不及目前已經全面接入聯網功能的免費大模型產品。
所以,對於大多數普通用戶而言,你費勁心力搭建的本地大模型,可能真的未必有市面上主流的免費大模型產品來得簡單、方便、效果好,更多隻是讓你過一把部署本地大模型的癮。
DeepSeek 系列模型的成功不僅改變了中美之間的技術競爭格局,更對全球範圍內的科技創新生態產生了深遠影響。據統計,已經有超過 50 個國家與 DeepSeek 達成了不同程度的合作協議,在技術應用和場景開發方面展開深度合作。
從 DeepSeek 引發的全球關注可以看出,人工智能已經成爲重塑國際格局的重要力量。面對這場前所未有的科技變革,如何將技術創新優勢轉化爲持續的競爭能力,同時構建開放包容的合作網絡,將是未來面臨的關鍵挑戰。對於中國而言,這不僅是一場技術實力的較量,更是一場科技創新話語權的爭奪。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/AHHKXUSHrhfKNArX7c8ikg