今夜,語音模型第一次超越人類!OpenAI再現Her時刻,95后華人研究員坐鎮
今天凌晨1點,OpenAI接連扔出AI語音能力的兩個重磅更新。
一個是Realtime API,可支持生產級的實時智能體。
另一個是最先進的語音到語音模型gpt-realtime。

Realtime API更新后不僅能連遠程MCP服務器,識別圖像輸入,還能通過SIP協議直接打電話。
新模型gpt-realtime更是狠,復雜指令都能聽懂,工具調用更精準,語音自然流暢,還能帶點表現力。
它能逐字念免責聲明,能準確復述字母數字,還能在對話里無縫切換語言。

最驚艷的,還是那聲音效果,幾乎和真人沒區別,甚至比真人更惟妙惟肖。
先來感受下這個語音的夸張效果,你幾乎聽不出來「機器味」。

這不禁讓人聯想到OpenAl這兩天很多人在社交媒體表示「feel the AGI....」
不知道說的是不是這個最新的Realtime語音功能。

在OpenAI提供的官方示例中,語音能力的加入,讓整個畫面立即就是充滿了AGI的味道!
現在gpt-realtime能夠處理復雜的多步驟請求,例如根據生活方式需求縮小房源列表,全程對話讓AI完成操作。

或者直接撥打電話安排醫生預約。

Realtime API第一次開放測試版是在去年10月,數千名開發者參與,邊用邊反饋。是所有這些開發者塑造了今天的改進。
高可靠性、低延遲、高品質,就是為了讓語音智能體能夠真正能落地。
因為AI語音實現的傳統鏈路很繁瑣:語音轉文本,文本再轉語音,層層疊加。
而Realtime API不一樣,它只用一個模型,一個接口。
直接處理,直接生成音頻。延遲更低,細節保留得更好。
聲音,也更自然,更有表現力。

gpt-realtime 模型介紹
全新的語音到語音模型gpt-realtime,在音質、智能、指令遵循和函數調用方面均實現了全面提升。
可以說是OpenAI目前最先進的,并且也是已為生產環境準備就緒的語音模型。
音頻質量
自然的對話是語音智能體在現實世界中落地的關鍵,就像電影《HER》中主角完全沉浸在斯嘉麗約翰遜的聲音中。
所以要求模型需要具備媲美人類的語調、情感和語速,才能創造愉悅的體驗,并鼓勵用戶持續交流。
OpenAI對gpt-realtime的訓練專注于生成音質更佳、聽感更自然的語音,并能遵循細粒度指令。
例如「用快速、專業的語氣說話」或「帶上法國口音,用共情的語氣表達」。
此外,在API中推出了Marin和Cedar兩款新語音,在語音的自然度上實現了重大突破。
同時,對現有的八款語音也進行了升級,使其同樣受益于這些改進。
智能與理解力
gpt-realtime展現出更高的智能水平,能夠更精準地理解原始音頻。
模型可以捕捉笑聲等非語言線索,在句子中途切換語言,并根據要求調整語氣(例如,從「干脆利落的專業風格」切換到「親切有同理心」)。
內部評估顯示,該模型在識別西班牙語、中文、日語、法語等語言中的字母數字序列(如電話號碼、車輛識別碼等)時,表現也更為準確。
在衡量推理能力的Big Bench Audio評測中,gpt-realtime取得了 82.8% 的準確率,遠超在2024年12月發布的上一版模型(65.6%)。

指令遵循
構建語音到語音應用時,開發者需要為模型提供一套行為指令,包括如何說話、在特定情境下說什么、以及行為的邊界。
此次著重改進了模型對這些指令的遵循能力,使得即便是最細微的指示也能被模型有效捕捉。
在衡量指令遵循準確度的MultiChallenge音頻基準測試中,gpt-realtime的得分達到30.5%,相較于舊版模型(20.6%)有了顯著提高。

函數調用
要利用語音到語音模型構建強大的語音智能體,模型必須能夠在恰當的時機調用正確的工具,才能在生產環境中真正發揮作用。
gpt-realtime從三個維度改進了函數調用:調用相關函數、在合適的時機調用,以及使用正確的參數調用(從而提升準確率)。
在衡量函數調用性能的ComplexFuncBench音頻評測中,gpt-realtime的得分為66.5%,而舊版模型得分僅49.7%。
還對異步函數調用進行了改進。耗時較長的函數調用將不再阻塞會話流程——模型可以在等待結果的同時,保持流暢的對話。該功能已原生內置于gpt-realtime,開發者無需更新代碼即可使用。

Realtime API的新功能
遠程 MCP 服務器支持
您可以在實時API的會話配置中,通過傳入遠程MCP服務器的URL來啟用MCP支持。連接后,API會自動處理相關的工具調用,無需手動進行集成。
該設置讓您可以輕松地為智能體擴展新能力:只需將會話指向一個不同的MCP服務器,相應的工具便會立即可用。
// POST /v1/realtime/client_secrets
{
"session": {
"type": "realtime",
"tools": [
{
"type": "mcp",
"server_label": "stripe",
"server_url": "https://mcp.stripe.com",
"authorization": "{access_token}",
"require_approval": "never"
}
]
}
}圖像輸入
gpt-realtime現已支持圖像輸入。
可以將圖片、照片、屏幕截圖等視覺信息與音頻或文本一同加入到實時API的會話中。
現在,模型可以將對話內容與用戶所見的畫面相結合,讓用戶可以提出「你看到了什么?」或「讀一下這張截圖里的文字」這類問題。
系統處理圖像的方式并非實時視頻流,而更像是在對話中插入一張圖片。
應用程序可以決定在何時、與模型分享哪些圖像。
通過這種方式,可以始終掌控模型看到的內容以及響應的時機。
{
"type":"conversation.item.create",
"previous_item_id":null,
"item":{
"type":"message",
"role":"user",
"content":[
{
"type":"input_image",
"image_url":"data:image/{format(example: png)};base64,{some_base64_image_bytes}"
}
]
}
}其他功能
此次更新還增加了多項功能,使Realtime API更易于集成,在生產使用中也更具靈活性。
會話發起協議 (SIP) 支持:通過實時API的原生支持,將應用連接到公共電話網絡、PBX系統、桌面電話及其他 SIP端點。
這有點像馬斯克此前推出的Ani打電話功能。

可重用提示詞:可以像在Responses API中一樣,保存并在不同的實時API會話中重用提示詞——這些提示詞可包含開發者消息、工具、變量以及用戶/助手消息示例。
華人面孔+2
OpenAI的發布會必定會出現華人,這次發布會出現兩張新面孔。
Beichen Li

Beichen Li目前是OpenAI的技術研究員。
研究方向是計算機圖形學與機器學習的交叉領域,重點關注利用多模態大語言模型(MLLM)進行視覺程序合成。

此前,他在MIT CSAIL獲得計算機科學博士學位,師從Wojciech Matusik教授;在MIT獲得電氣工程與計算機科學碩士學位;在清華大學獲得計算機科學與技術學士學位。

Liyu Chen

Liyu Chen目前是OpenAI的技術研究員。
此前,他在南加州大學獲得博士學位,師從Haipeng Luo教授;在香港科技大學獲得學士學位,畢業論文由Dit-Yan Yeung教授指導。





























