美譽度12月13日報道,昨日晚間,微軟又亮出了小模型大招!
微軟發(fā)布了27億參數(shù)規(guī)模的小語言模型Phi-2,經(jīng)研究人員測試,Phi-2在參數(shù)規(guī)模小于130億的模型中展示了最先進(jìn)性能。
從性能表現(xiàn)看,Phi-2在Big Bench Hard(BBH)、常識推理、語言理解、數(shù)學(xué)和編碼基準(zhǔn)測試中,其平均性能得分已經(jīng)超過70億、130億參數(shù)規(guī)模的Mistral和Llama 2,在部分基準(zhǔn)測試中超過谷歌的Gemini Nano 2。
Phi-2還有一大優(yōu)勢是,因為參數(shù)規(guī)模足夠小,其可以在筆記本電腦、手機等移動設(shè)備上運行。
過去幾個月間,微軟研究院的機器學(xué)習(xí)基礎(chǔ)團(tuán)隊陸續(xù)發(fā)布了小型語言模型(SLM)Phi系列。
其中,第一個模型為13億參數(shù)規(guī)模的Phi-1,官方博客稱,Phi-1在SLM中的Python編碼方面表現(xiàn)最好,在HumanEval和MBPP基準(zhǔn)測試上尤甚。第二個模型為13億參數(shù)規(guī)模的Phi-1.5,這個模型的重點為常識推理和語言理解能力。
現(xiàn)在微軟發(fā)布的Phi-2能為研究人員探索機器可解釋性、安全性改進(jìn)或?qū)Ω鞣N任務(wù)的微調(diào)實驗上提供幫助,目前,Phi-2已經(jīng)從Azure AI Studio模型目錄中開放給研究人員。
一、96塊A100 GPU訓(xùn)練14天,參數(shù)規(guī)模僅27億
一些大模型的參數(shù)規(guī)模達(dá)到數(shù)千億的量級,使得其涌現(xiàn)出眾多新興能力,那么,是否可以通過改變訓(xùn)練策略等方式讓更小的參數(shù)實現(xiàn)這些能力?微軟的小型語言模型(SLM)系列或許是這一問題的答案。
Phi-2是一個基于Transformer架構(gòu)的模型,具有下一個單詞預(yù)測目標(biāo),在用于NLP和編碼的合成數(shù)據(jù)集和Web數(shù)據(jù)集的混合上多次傳遞的1.4T tokens上進(jìn)行訓(xùn)練。
Phi-2在96個A100 GPU上訓(xùn)練了14天,作為一個基礎(chǔ)模型,其沒有通過人類反饋強化學(xué)習(xí)(RLHF)進(jìn)行對齊,也沒有進(jìn)行指令微調(diào)。
盡管如此,與經(jīng)過調(diào)整的現(xiàn)有開源模型Llama 2-7B相比,研究人員觀察到在避免生成有攻擊性、有害和內(nèi)容有偏差方面Phi-2的表現(xiàn)也不差。
研究人員根據(jù)ToxiGen的13個人口統(tǒng)計數(shù)據(jù)計算的安全評分,他們選擇6541個句子的子集,并根據(jù)困惑度和句子“毒性”進(jìn)行0到1之間的評分。分?jǐn)?shù)高就說明,模型產(chǎn)生有攻擊性、有害句子的可能性較小。
▲Llama 2與Phi-2在生成有攻擊性、有害和內(nèi)容有偏差方面性能比較(圖源:微軟官方博客)
微軟使用Phi-2打破了傳統(tǒng)語言模型縮放定律,其中有兩個關(guān)鍵環(huán)節(jié):
第一是訓(xùn)練數(shù)據(jù)的質(zhì)量對模型的性能至關(guān)重要。微軟的模型訓(xùn)練數(shù)據(jù)包含專門創(chuàng)建的合成數(shù)據(jù)集,用于教授模型常識推理,還包括科學(xué)、心理等領(lǐng)域的常識。
研究人員還挑選了一些網(wǎng)絡(luò)數(shù)據(jù)進(jìn)一步擴充訓(xùn)練語料庫,并基于內(nèi)容的價值和質(zhì)量進(jìn)行了數(shù)據(jù)過濾。
此外,從13億參數(shù)規(guī)模的Phi-1.5開始,微軟的研究人員實現(xiàn)了規(guī)?;闹R轉(zhuǎn)移,將Phi-1.5的知識嵌入到27億參數(shù)的Phi-2中。這種方法不僅加速了訓(xùn)練收斂,而且提高了Phi-2的基準(zhǔn)分?jǐn)?shù)。
▲Phi-2和Phi-1.5比較(圖源:微軟官方博客)
二、基準(zhǔn)測試擊敗Llama 2、Mistral、Gemini Nano 2
微軟總結(jié)了Phi-2在學(xué)術(shù)基準(zhǔn)上與主流語言模型的性能表現(xiàn)對比。
其基準(zhǔn)測試涵蓋Big Bench Hard(BBH數(shù)據(jù)集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常識推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的語言理解數(shù)據(jù)集,GSM8k數(shù)學(xué)數(shù)據(jù)集和HumanEval、MBPP的編碼數(shù)據(jù)集等。
27億參數(shù)規(guī)模的Phi-2,在BBH、常識推理、語言理解、數(shù)學(xué)、編碼各項基準(zhǔn)測評上都超過了70億、130億參數(shù)規(guī)模的Mistral和Llama 2。
相比于參數(shù)規(guī)模差距在25倍的700億參數(shù)Llama 2,Phi-2在編碼、數(shù)學(xué)等多步推理任務(wù)上表現(xiàn)更好。
▲Llama 2、Mistral、Phi-2性能比較(圖源:微軟官方博客)
此外,微軟還比較了Phi-2與谷歌最近發(fā)布的Gemini Nano 2,谷歌發(fā)布的模型參數(shù)規(guī)模為32.5億,Phi-2的性能表現(xiàn)部分優(yōu)于Gemini Nano 2。
▲Phi-2、Gemini Nano 2性能比較(圖源:微軟官方博客)
考慮到一些公共基準(zhǔn)測試的數(shù)據(jù)可能會泄漏到訓(xùn)練數(shù)據(jù)中,微軟對第一個模型Phi-1進(jìn)行了廣泛的凈化研究以排除這種可能性。
基于判斷語言模型的最佳方法是在具體用例上對其進(jìn)行測試的考量,研究人員使用了多個微軟內(nèi)部專有數(shù)據(jù)集和任務(wù)評估了Phi-2,并再次將其與Mistral和Llama 2進(jìn)行比較,其結(jié)果為,平均而言Phi 2優(yōu)于Mistral-7B,后者優(yōu)于70億、130億、730億參數(shù)規(guī)模的Llama-2模型。
除了基準(zhǔn)測試外,研究人員還測試了社區(qū)內(nèi)的一些常用提示,他們觀察到的表現(xiàn)也與基準(zhǔn)測試的結(jié)果預(yù)期一致。
其中,研究人員測試了用于評估谷歌Gemini Ultra模型在解決物理問題方面能力的問題。
與Gemini的測試類似,研究人員進(jìn)一步向Phi-2詢問學(xué)生的錯誤答案,來確認(rèn)它是否能識別出錯誤所在。
不過,從輸出結(jié)果來看,這并不完全是與Gemini報告中描述的Gemini Ultra輸出的同類比較,Gemini測評中學(xué)生的答案上傳了手寫文本的圖像,Phi-2的測試采用的是原始文本。
結(jié)語:大模型時代,小模型仍在崛起
Phi-2的參數(shù)規(guī)模僅有27億,但相比于參數(shù)規(guī)模更大的70億、130億模型,其性能表現(xiàn)仍不遜色。微軟專注于小模型市場的布局,也印證了大模型時代小模型的價值。
微軟與OpenAI的緊密合作,使得GPT模型的表現(xiàn)在大模型市場一騎絕塵,再加上微軟參數(shù)規(guī)模更小的Phi系列,能進(jìn)一步搶占開源模型長尾市場。不過從目前來看,Phi系列僅被允許用于研究目的。
從市場來看,越來越多的玩家開始探索在手機等移動設(shè)備上部署大模型,微軟此舉或許也會加速模型能力在端側(cè)的應(yīng)用。