來源:金十?dāng)?shù)據(jù)
OpenAI的o3推理模型表現(xiàn)遙遙領(lǐng)先,但其高昂的價格可能讓微軟等客戶轉(zhuǎn)而選擇更便宜的o3 mini。
人工智能公司在努力進(jìn)入高級模型的下一階段方面困難重重,OpenAI在GPT-4之后遲遲沒有推出GPT-5就是最好的例證。最新發(fā)展的主要障礙是缺乏訓(xùn)練下一代尖端模型的數(shù)據(jù)。
既然模型在“智能”方面沒有進(jìn)步,OpenAI便轉(zhuǎn)而通過“推理”來增強產(chǎn)出,將問題分解成易于處理的小塊,并在每個階段進(jìn)行自我修正,從而使模型能夠解決問題。但這增加了聊天機(jī)器人的輸出時間:簡單的詢問只需幾秒鐘,但復(fù)雜的數(shù)學(xué)和科學(xué)問題則需要多達(dá)幾分鐘。
“思維鏈”(CoT)一直被認(rèn)為是人類使用聊天機(jī)器人的最佳實踐,但新的推理模型卻能自己做到這一點。由于推理模型會自我糾正,因此可以減少所謂的“幻覺”,即一本正經(jīng)地胡說八道。
推理模型始于9月發(fā)布的ChatGPT o1,上周五公布的o3是其下一代。谷歌也在上周發(fā)布了類似的Gemini 2.0 Flash Thinking。o1模型展示了推理改善輸出的前景,而o3則在這方面又向前邁進(jìn)了一大步。o3在數(shù)學(xué)方面的進(jìn)步尤其令人印象深刻,它在一項高級數(shù)學(xué)測試中獲得了25%的高分,而OpenAI表示,目前還沒有其他模型的得分超過2%。
高昂的價格可能讓微軟等客戶望而卻步
o3的進(jìn)步可能對微軟尤為重要,因為OpenAI模型是微軟人工智能助手Microsoft 365 Copilot的基礎(chǔ)。對于企業(yè)客戶來說,最大限度地減少幻覺至關(guān)重要,以免用戶因為Copilot而犯錯。微軟一直指望GPT-5來解決這個問題,o3可能就是下一個最佳選擇。
除了增加查詢時間外,推理還有另一個缺點:成本更高,這也是人工智能的常見問題。OpenAI的企業(yè)客戶將不得不為推理所需的所有額外底層計算付費。o1文本輸入和輸出的收費已是其前身4o的六倍,而目前我們還不知道o3的費用是多少。
如果用戶提出的問題很難回答,費用就會迅速增加。OpenAI在其o3現(xiàn)場直播中展示了一項高級基準(zhǔn)測試,每項任務(wù)的成本為20美元,平均任務(wù)完成時間為1.3分鐘。而且當(dāng)時使用的是所謂的“高效”版本模型,其中的推理還是有限的。該基準(zhǔn)測試組織表示,使用o3的完整推理能力完成同樣的任務(wù)平均需要13.8分鐘,使用的計算能力是原來的172倍。盡管該組織沒有提供成本明細(xì),但不難想象,最初的成本可能令人咂舌。
對于想使用o3的微軟來說,成本是個問題。微軟每月向用戶收取30美元的Copilot服務(wù)費用,因此即使僅用o3處理部分復(fù)雜任務(wù),也會使削弱公司的利潤。從這個角度來說,將在未來幾個月內(nèi)推出的更小、更便宜、更快的o3 mini可能才是包括微軟在內(nèi)的OpenAI企業(yè)客戶更青睞的產(chǎn)品。雖然o3 mini比o3可能更容易出錯,但與目前支持Copilot的4o模型相比,它仍然是一個重大改進(jìn)。
微軟還沒有完全采用o1,原因可能就是成本上升,但收益有限。我們還不知道o3 mini的查詢成本是多少,但它的技能已經(jīng)比4o有了更大的飛躍??紤]到在商業(yè)運用中限制人工智能的錯誤也是一個關(guān)鍵,因此o3 mini可能會是眾多選擇中的一個甜點。
還沒有評論,來說兩句吧...