通義千問Qwen2開源終于來了,我們立馬測(cè)試了!
Qwen2實(shí)測(cè)反饋
此前,Qwen1.5就在各大權(quán)威榜單和大模型競(jìng)技場(chǎng)中,超越了國(guó)內(nèi)幾乎所有大模型,無論是開源還是閉源。而這次發(fā)布的Qwen2,據(jù)說性能又有大幅提升,其中,Qwen2-72B的性能尤其優(yōu)越。本次發(fā)布的所有模型都能夠支持30多國(guó)語言,除了中文、英文之外,還增加了27種語言相關(guān)的高質(zhì)量數(shù)據(jù),提升了模型的多語言能力。
Qwen2所有尺寸模型都使用了GQA(分組查詢注意力)機(jī)制,以便讓用戶體驗(yàn)到GQA帶來的推理加速和顯存占用降低的優(yōu)勢(shì)。Qwen2還增大了上下文長(zhǎng)度支持,Qwen2-72B-Instruct能夠完美處理128k上下文長(zhǎng)度內(nèi)的信息抽取任務(wù)。
國(guó)內(nèi)外的開發(fā)者都熱情高漲,更有網(wǎng)友實(shí)測(cè)Qwen2在醫(yī)學(xué)術(shù)語、翻譯方面更準(zhǔn)確,并且編程和推理能力更強(qiáng)
光說不練假把式,這里先幫大伙試試
首先試試Qwen2文本生成的能力。
不得不說,這段確實(shí)很有《紅樓夢(mèng)》的味道,妥妥的滿分作文。
接下來再來試試他的文本創(chuàng)造
Qwen2不但寫出了詩,還對(duì)詩的含義進(jìn)行了解釋。
自打大模型爆火以來,「弱智吧」就成了檢測(cè)大模型能力的一項(xiàng)重要指標(biāo)。下面測(cè)試一下Qwen2會(huì)不會(huì)被弱智吧的問題給繞進(jìn)去。
從上面圖片可以看出來,Qwen2不但給出了正確答案,還給出很棒的建議。
前面說了Qwen2在編程和推理能力很強(qiáng),下面通過同一道題對(duì)Qwen2-72B-Instruct和Llama-3-70B-Instruct進(jìn)行了簡(jiǎn)單的對(duì)比測(cè)試
由上面的結(jié)果可以看出兩款模型回答都是正確的,但Qwen的中文能力更強(qiáng)一些。
作為一名程序員,少不了要請(qǐng)教一些代碼相關(guān)的問題,只需要你提出需求,喝口水的功夫就寫完了。
從結(jié)果可以看出,可以正確理解要求并生成代碼。
更多關(guān)于常識(shí)、數(shù)學(xué)、編程等能力的效果,家人們可以親自去體驗(yàn)一番了。
這一年Qwen上的榜單
不到一年時(shí)間,通義先后開源近10款不同尺寸的大語言模型、兩款多模態(tài)模型、一款混合專家模型、一款代碼大模型,不僅開源頻率和速度全球無二,模型的性能也隨著版本迭代而肉眼可見地進(jìn)化,從Qwen-72B開始,逐漸步入全球大模型競(jìng)爭(zhēng)的核心腹地,在權(quán)威榜單多次創(chuàng)造中國(guó)大模型的“首次”
其中Qwen-72B、Qwen1.5-110B登頂過HuggingFace Open LLM LeaderBoard (HF開源大模型排行榜)
Qwen-72B登頂上海人工智能實(shí)驗(yàn)室·OpenCompass開源基座大模型榜單
Qwen1.5-0.5B、 Qwen1.5-1.8B、 Qwen1.5-4B在基準(zhǔn)評(píng)測(cè)中與業(yè)界領(lǐng)先的小型模型相比,具有很強(qiáng)的競(jìng)爭(zhēng)力
通義千問Qwen2系列模型大幅提升了代碼、數(shù)學(xué)、推理、指令遵循、多語言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等國(guó)際權(quán)威測(cè)評(píng)中,Qwen2-72B一舉斬獲十幾項(xiàng)世界冠軍,超過美國(guó)的Llama3。
阿里云開源的意義
阿里云是全球唯一一家積極研發(fā)先進(jìn)AI 模型并且全方位開源的云計(jì)算廠商。2023年8月,阿里云成為國(guó)內(nèi)首個(gè)宣布開源自研模型的科技企業(yè),推出通義千問第一代開源模型;2024年2月,1.5代開源模型Qwen1.5發(fā)布;不到4個(gè)月后,Qwen2開源。
可以說,Qwen是國(guó)內(nèi)唯一出現(xiàn)在OpenAI視野里,可以參與國(guó)際競(jìng)爭(zhēng)的國(guó)產(chǎn)大模型。
早些時(shí)候,還有人做了個(gè)LMSys榜單一年動(dòng)態(tài)變化視頻。過去一年內(nèi),國(guó)產(chǎn)大模型只有Qwen多次沖進(jìn)這份榜單,最早出現(xiàn)的是通義千問14B開源視頻Qwen-14B,后來,Qwen系列的72B、110B以及閉源版本Max接連進(jìn)榜,得分一個(gè)比一次高,LMSys也曾官方發(fā)推認(rèn)證通義千問開源模型的實(shí)力。在頂尖模型公司的競(jìng)爭(zhēng)中,目前為止中國(guó)模型只有通義千問真正入局,能與頭部廠商一較高下。
此外,國(guó)內(nèi)外有海量開發(fā)者都基于Qwen開發(fā)了自己的模型和應(yīng)用,尤其是企業(yè)級(jí)的模型和應(yīng)用。Qwen的很多忠實(shí)擁躉是海外開發(fā)者,他們時(shí)常在社交平臺(tái)發(fā)表“我們?yōu)槭裁礇]有這種模型”的溢美之詞。
通義大模型的快速迭代,在很大程度上也源于全球開發(fā)者的反饋,以及整個(gè)開源社區(qū)的生態(tài)支持。通義大模型用行動(dòng)證明了開源開放的力量。所以我們也有理由相信,阿里在開源方面一定會(huì)越走越好!
對(duì)于我們個(gè)人來說,AI大模型是未來IT技術(shù)應(yīng)用和發(fā)展的核心驅(qū)動(dòng)力,作為程序員的我們,要緊跟時(shí)代,抓住機(jī)遇!
在哪里體驗(yàn)Qwen2系列模型?
Qwen2系列已上線魔搭社區(qū)ModelScope和阿里云百煉平臺(tái),開發(fā)者可在魔搭社區(qū)體驗(yàn)、下載模型,或通過阿里云百煉平臺(tái)調(diào)用模型API。
同時(shí), Qwen2-72b-instruct 模型已經(jīng)上線中國(guó)大語言模型評(píng)測(cè)競(jìng)技場(chǎng)Compass Arena,所有人都可以登錄體驗(yàn)Qwen2的性能,或者選擇Qwen2模型與其他大模型進(jìn)行對(duì)比測(cè)評(píng)。
測(cè)評(píng)地址:https://opencompass.org.cn/arena
好了,今天就說到這里。
轉(zhuǎn)載請(qǐng)注明來自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《通義千問Qwen2開源終于來了,我們立馬測(cè)試了!》
還沒有評(píng)論,來說兩句吧...