發布於 2024-05-14

OpenAI 發布：GPT-4o 全能模型，強大模型將免費！

Peter yang

OpenAI 於 2024 年 5 月 13 日宣布了一項突破性的進展：GPT-4o 模型的推出。這款新旗艦模型被稱為 GPT-4o（“o” 代表 “omni”，意即 “全能”），它能夠實時處理文本、音頻和圖像的輸入，並生成相應的輸出。

GPT-4o 的亮點

GPT-4o 在回應音頻輸入時的速度可達 232 毫秒，平均為 320 毫秒，這與人類在對話中的反應時間相似。相比之下，GPT-4 在語音模式下的平均延遲為 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。

GPT-4o 的 API 成本比 GPT-4 降低了 50%，這使得開發者更容易將其整合到應用程序中。 GPT-4o 的速率限制比 GPT-4 高 5 倍，這意味著它能夠處理更多的請求。

GPT-4o 在非英語文本的處理上有顯著提升，這對於多語言用戶來說是一個重要的進步。

GPT-4o 是第一個結合文本、視覺和音頻的模型，這意味著所有輸入和輸出都由同一個神經網絡處理。相較於 GPT-4，GPT-4o 在視覺和音頻理解方面有了顯著的改進。

這一全新模型的推出，不僅是技術的一大步，更是 OpenAI 向所有用戶免費開放 GPT-4o 的一大步。這意味著，從今以後，任何人都可以體驗到這一 AI 技術的強大能力。

GPT-4o 的應用範圍廣泛，從即時翻譯到創作搖籃曲，從會議 AI 到客戶服務的概念證明，GPT-4o 都能夠提供支持。OpenAI 通過這一創新，不僅推動了 AI 技術的發展，更為全球用戶提供了一個免費、強大的新工具。