當(dāng)?shù)貢r(shí)間13日,美國(guó)OpenAI公司展示了最新版本ChatGPT-4o的新技能:與使用者展開(kāi)語(yǔ)音對(duì)話、識(shí)別圖像並展開(kāi)討論、翻譯。據(jù)路透社報(bào)道,相比先前版本,GPT-4o與使用者對(duì)話基本無(wú)延遲,和人類反應(yīng)速度類似。即使對(duì)話中途被打斷,也能繼續(xù)下去。這些都是實(shí)現(xiàn)逼真語(yǔ)音對(duì)話的標(biāo)誌,也是當(dāng)前眾多AI語(yǔ)音助手普遍面臨的技術(shù)難點(diǎn)。在BBC看來(lái),GPT-4o能夠結(jié)合文本、音頻和圖像內(nèi)容瞬間作出反應(yīng),目前在競(jìng)爭(zhēng)中仍處?kù)额I(lǐng)先地位。
邁向更自然人機(jī)互動(dòng) 能回應(yīng)真人情緒
在當(dāng)天網(wǎng)絡(luò)直播的展示中,GPT-4o這款生成式AI工具利用其視覺(jué)和語(yǔ)音能力,指導(dǎo)演示者在紙上逐步解出一道方程式,而不是直接給出答案。它還展示了英語(yǔ)與意大利語(yǔ)互譯、用自拍照片識(shí)別情緒等能力。新模型將會(huì)免費(fèi)對(duì)外開(kāi)放,而付款費(fèi)用可獲得更多限額。
OpenAI在直播時(shí)演示,用戶與ChatGPT對(duì)話時(shí)可立即獲得回應(yīng),並且能夠中途打斷ChatGPT的說(shuō)話。GPT-4o能夠利用其視像和語(yǔ)音功能與研究人員對(duì)話,解決紙上的數(shù)學(xué)方程式。另一展示中,GPT-4o模型展現(xiàn)即時(shí)語(yǔ)言翻譯能力,亦能對(duì)研究人員的情緒作出回應(yīng)。
「GPT-4o」是「GPT-4」模型的更新版本,當(dāng)中的「o」代表「omni」,代表「全部」。新模型將免費(fèi)使用,原因是比過(guò)去的模型更具成本效益,並提供大量過(guò)往曾收費(fèi)的功能,例如線上搜尋、語(yǔ)音對(duì)話等,不過(guò)設(shè)有用量限制,當(dāng)?shù)竭_(dá)上限時(shí),會(huì)自動(dòng)切換到「GPT-3.5」。
OpenAI稱今次更新,是邁向更自然人機(jī)互動(dòng)的一步,因?yàn)樵贕PT-4o推出前,用戶使用語(yǔ)音模式與ChatGPT對(duì)話,GPT-3.5的平均延遲2.8秒,GPT-4延遲5.4秒。相反,GPT-4o可快至232毫秒內(nèi)對(duì)音頻輸入作反應(yīng),與人類在對(duì)話中的反應(yīng)時(shí)間相近,令人類與聊天機(jī)械人的對(duì)話交流,變得更自然。
OpenAI行政總裁奧特曼發(fā)文形容,與電腦的交流從未如此自然過(guò),就像是在電影中出現(xiàn)過(guò)的AI一樣。OpenAI首席技術(shù)官穆拉蒂解釋,之前的模型是語(yǔ)音、文字和視覺(jué)協(xié)同工作,導(dǎo)致大量延遲,破壞沉浸式體驗(yàn),GPT-4o則將三者整合到同一個(gè)模型中,以消除所有延遲。
OpenAI希望以GPT-4o在激烈的AI技術(shù)競(jìng)爭(zhēng)中保持領(lǐng)先。該公司2022年發(fā)布ChatGPT後,短時(shí)間內(nèi)每月活躍用戶增至1億。然而,研究機(jī)構(gòu)西米勒網(wǎng)絡(luò)公司的數(shù)據(jù)顯示,去年以來(lái)ChatGPT用戶人數(shù)呈現(xiàn)過(guò)山車(chē)式變化,近期才重回去年5月巔峰時(shí)期的水平。
谷歌推出聊天機(jī)械人Gemini應(yīng)對(duì)
另一方面,谷歌和OpenAI之間激烈的競(jìng)爭(zhēng)態(tài)勢(shì)愈演愈烈。谷歌13日亦發(fā)布了一段視頻,展示了疑似經(jīng)過(guò)升級(jí)的Gemini聊天機(jī)械人。視頻中,Gemini以同時(shí)實(shí)時(shí)處理來(lái)自視頻和語(yǔ)音的輸入。
視頻展示了Gemini在一臺(tái)Pixel手機(jī)上流暢地處理實(shí)時(shí)視頻和語(yǔ)音提問(wèn),並準(zhǔn)確地提供信息。當(dāng)被問(wèn)到正在進(jìn)行的布置工作時(shí),Gemini正確識(shí)別出這是為一個(gè)重要活動(dòng)做的準(zhǔn)備。整個(gè)對(duì)話過(guò)程自然流暢,Gemini還會(huì)詢問(wèn)用戶注意到的細(xì)節(jié),成功識(shí)別出了該活動(dòng)為谷歌I/O開(kāi)發(fā)者大會(huì),並進(jìn)行了簡(jiǎn)要介紹。
此外,微軟當(dāng)?shù)貢r(shí)間13日亦宣布向法國(guó)投資40億歐元,用於擴(kuò)展在當(dāng)?shù)氐碾?yún)端及AI業(yè)務(wù),並將會(huì)資助法國(guó)的AI技術(shù)及科技工業(yè),計(jì)劃把2.5萬(wàn)塊最先進(jìn)的塊圖像處理器帶進(jìn)法國(guó),預(yù)計(jì)至2027年可訓(xùn)練100萬(wàn)人,及支援2500家AI初創(chuàng)公司。
近年來(lái),開(kāi)發(fā)更人性化、功能更強(qiáng)大的生成式AI工具競(jìng)爭(zhēng)激烈。谷歌母公司Alphabet擬於14日召開(kāi)谷歌開(kāi)發(fā)者年度會(huì)議,預(yù)計(jì)屆時(shí)將展示谷歌開(kāi)發(fā)的相關(guān)產(chǎn)品。馬斯克、科技DeepMind創(chuàng)始人之一穆蘇萊曼也分別投資開(kāi)發(fā)了聊天機(jī)械人Grok和Pi,將擬人化特點(diǎn)作為產(chǎn)品主攻方向。
IMF警全球四成職位受AI衝擊
與此同時(shí),國(guó)際貨幣基金(IMF)也在對(duì)AI可能給全球勞動(dòng)力市場(chǎng)帶來(lái)的衝擊發(fā)出警告。IMF總裁格奧爾基耶娃13日表示,AI正如山呼海嘯般衝擊全球勞動(dòng)力市場(chǎng),而全球政府和企業(yè)尚未對(duì)此做好準(zhǔn)備。格奧爾基耶娃預(yù)測(cè),未來(lái)兩年,對(duì)於發(fā)達(dá)經(jīng)濟(jì)體而言,AI可能會(huì)影響60%的工作職位;而對(duì)於全球所有國(guó)家而言,AI可能將衝擊40%的工作職位。
格奧爾基耶娃表示:「我們幾乎沒(méi)有時(shí)間讓人們和企業(yè)做好準(zhǔn)備,如果我們管理得當(dāng),AI的確可以極大地提高生產(chǎn)力,但它也可能導(dǎo)致更多的錯(cuò)誤信息,當(dāng)然,還會(huì)加劇我們社會(huì)的不平等。」
頂圖:ChatGPT用戶人數(shù)去年呈過(guò)山車(chē)式變化,近期才重回去年5月巔峰時(shí)期的水平。 路透社