加強(qiáng)語(yǔ)音文本音視頻交互功能新版ChatGPT類人速度反應(yīng)超快

手機(jī)版

客戶端

融媒體矩陣

微信視頻號(hào)

快手視頻號(hào)

今日頭條

郵箱

zgc_west@126.com 復(fù)制

繁繁體

簡(jiǎn) 簡(jiǎn)體

訂報(bào)/續(xù)訂 | 廣告服務(wù) | PDF電子報(bào) | 電子報(bào)

首頁(yè) 港聞財(cái)經(jīng) 商聯(lián)通視聽(tīng) 港深合作評(píng)論綜合灣區(qū) 社團(tuán) Life Style 地方新界專刊專題

--℃

滾動(dòng)新聞：

加強(qiáng)語(yǔ)音文本音視頻交互功能新版ChatGPT類人速度反應(yīng)超快23:44 南非西開(kāi)普省建築倒塌事故已致33人死亡23:32 顏寧獲世界傑出女科學(xué)家獎(jiǎng)23:27 港車(chē)北上續(xù)期申請(qǐng)即日起無(wú)需參與電腦抽籤23:18 廣州首個(gè)！花都啟動(dòng)商品房「以舊換新」活動(dòng)23:03 賀州毛節(jié)瓜日銷(xiāo)灣區(qū)6萬(wàn)斤22:50 烈兒寶貝、雲(yún)上珠寶東哥帶你雲(yún)逛文博！22:35 節(jié)節(jié)攀升！深圳與塞爾維亞貿(mào)易規(guī)模持續(xù)增長(zhǎng)22:23

加強(qiáng)語(yǔ)音文本音視頻交互功能新版ChatGPT類人速度反應(yīng)超快

責(zé)任編輯：趙桐曲 2024-05-14 23:44:57 來(lái)源：香港商報(bào)網(wǎng)

　當(dāng)?shù)貢r(shí)間13日，美國(guó)OpenAI公司展示了最新版本ChatGPT-4o的新技能：與使用者展開(kāi)語(yǔ)音對(duì)話、識(shí)別圖像並展開(kāi)討論、翻譯。據(jù)路透社報(bào)道，相比先前版本，GPT-4o與使用者對(duì)話基本無(wú)延遲，和人類反應(yīng)速度類似。即使對(duì)話中途被打斷，也能繼續(xù)下去。這些都是實(shí)現(xiàn)逼真語(yǔ)音對(duì)話的標(biāo)誌，也是當(dāng)前眾多AI語(yǔ)音助手普遍面臨的技術(shù)難點(diǎn)。在BBC看來(lái)，GPT-4o能夠結(jié)合文本、音頻和圖像內(nèi)容瞬間作出反應(yīng)，目前在競(jìng)爭(zhēng)中仍處?kù)额I(lǐng)先地位。

　邁向更自然人機(jī)互動(dòng) 能回應(yīng)真人情緒

　在當(dāng)天網(wǎng)絡(luò)直播的展示中，GPT-4o這款生成式AI工具利用其視覺(jué)和語(yǔ)音能力，指導(dǎo)演示者在紙上逐步解出一道方程式，而不是直接給出答案。它還展示了英語(yǔ)與意大利語(yǔ)互譯、用自拍照片識(shí)別情緒等能力。新模型將會(huì)免費(fèi)對(duì)外開(kāi)放，而付款費(fèi)用可獲得更多限額。

　OpenAI在直播時(shí)演示，用戶與ChatGPT對(duì)話時(shí)可立即獲得回應(yīng)，並且能夠中途打斷ChatGPT的說(shuō)話。GPT-4o能夠利用其視像和語(yǔ)音功能與研究人員對(duì)話，解決紙上的數(shù)學(xué)方程式。另一展示中，GPT-4o模型展現(xiàn)即時(shí)語(yǔ)言翻譯能力，亦能對(duì)研究人員的情緒作出回應(yīng)。

　「GPT-4o」是「GPT-4」模型的更新版本，當(dāng)中的「o」代表「omni」，代表「全部」。新模型將免費(fèi)使用，原因是比過(guò)去的模型更具成本效益，並提供大量過(guò)往曾收費(fèi)的功能，例如線上搜尋、語(yǔ)音對(duì)話等，不過(guò)設(shè)有用量限制，當(dāng)?shù)竭_(dá)上限時(shí)，會(huì)自動(dòng)切換到「GPT-3.5」。

　OpenAI稱今次更新，是邁向更自然人機(jī)互動(dòng)的一步，因?yàn)樵贕PT-4o推出前，用戶使用語(yǔ)音模式與ChatGPT對(duì)話，GPT-3.5的平均延遲2.8秒，GPT-4延遲5.4秒。相反，GPT-4o可快至232毫秒內(nèi)對(duì)音頻輸入作反應(yīng)，與人類在對(duì)話中的反應(yīng)時(shí)間相近，令人類與聊天機(jī)械人的對(duì)話交流，變得更自然。

　OpenAI行政總裁奧特曼發(fā)文形容，與電腦的交流從未如此自然過(guò)，就像是在電影中出現(xiàn)過(guò)的AI一樣。OpenAI首席技術(shù)官穆拉蒂解釋，之前的模型是語(yǔ)音、文字和視覺(jué)協(xié)同工作，導(dǎo)致大量延遲，破壞沉浸式體驗(yàn)，GPT-4o則將三者整合到同一個(gè)模型中，以消除所有延遲。

　OpenAI希望以GPT-4o在激烈的AI技術(shù)競(jìng)爭(zhēng)中保持領(lǐng)先。該公司2022年發(fā)布ChatGPT後，短時(shí)間內(nèi)每月活躍用戶增至1億。然而，研究機(jī)構(gòu)西米勒網(wǎng)絡(luò)公司的數(shù)據(jù)顯示，去年以來(lái)ChatGPT用戶人數(shù)呈現(xiàn)過(guò)山車(chē)式變化，近期才重回去年5月巔峰時(shí)期的水平。

　谷歌推出聊天機(jī)械人Gemini應(yīng)對(duì)

　另一方面，谷歌和OpenAI之間激烈的競(jìng)爭(zhēng)態(tài)勢(shì)愈演愈烈。谷歌13日亦發(fā)布了一段視頻，展示了疑似經(jīng)過(guò)升級(jí)的Gemini聊天機(jī)械人。視頻中，Gemini以同時(shí)實(shí)時(shí)處理來(lái)自視頻和語(yǔ)音的輸入。

　視頻展示了Gemini在一臺(tái)Pixel手機(jī)上流暢地處理實(shí)時(shí)視頻和語(yǔ)音提問(wèn)，並準(zhǔn)確地提供信息。當(dāng)被問(wèn)到正在進(jìn)行的布置工作時(shí)，Gemini正確識(shí)別出這是為一個(gè)重要活動(dòng)做的準(zhǔn)備。整個(gè)對(duì)話過(guò)程自然流暢，Gemini還會(huì)詢問(wèn)用戶注意到的細(xì)節(jié)，成功識(shí)別出了該活動(dòng)為谷歌I/O開(kāi)發(fā)者大會(huì)，並進(jìn)行了簡(jiǎn)要介紹。

　此外，微軟當(dāng)?shù)貢r(shí)間13日亦宣布向法國(guó)投資40億歐元，用於擴(kuò)展在當(dāng)?shù)氐碾?yún)端及AI業(yè)務(wù)，並將會(huì)資助法國(guó)的AI技術(shù)及科技工業(yè)，計(jì)劃把2.5萬(wàn)塊最先進(jìn)的塊圖像處理器帶進(jìn)法國(guó)，預(yù)計(jì)至2027年可訓(xùn)練100萬(wàn)人，及支援2500家AI初創(chuàng)公司。

　近年來(lái)，開(kāi)發(fā)更人性化、功能更強(qiáng)大的生成式AI工具競(jìng)爭(zhēng)激烈。谷歌母公司Alphabet擬於14日召開(kāi)谷歌開(kāi)發(fā)者年度會(huì)議，預(yù)計(jì)屆時(shí)將展示谷歌開(kāi)發(fā)的相關(guān)產(chǎn)品。馬斯克、科技DeepMind創(chuàng)始人之一穆蘇萊曼也分別投資開(kāi)發(fā)了聊天機(jī)械人Grok和Pi，將擬人化特點(diǎn)作為產(chǎn)品主攻方向。

　IMF警全球四成職位受AI衝擊

　與此同時(shí)，國(guó)際貨幣基金（IMF）也在對(duì)AI可能給全球勞動(dòng)力市場(chǎng)帶來(lái)的衝擊發(fā)出警告。IMF總裁格奧爾基耶娃13日表示，AI正如山呼海嘯般衝擊全球勞動(dòng)力市場(chǎng)，而全球政府和企業(yè)尚未對(duì)此做好準(zhǔn)備。格奧爾基耶娃預(yù)測(cè)，未來(lái)兩年，對(duì)於發(fā)達(dá)經(jīng)濟(jì)體而言，AI可能會(huì)影響60%的工作職位；而對(duì)於全球所有國(guó)家而言，AI可能將衝擊40%的工作職位。

　格奧爾基耶娃表示：「我們幾乎沒(méi)有時(shí)間讓人們和企業(yè)做好準(zhǔn)備，如果我們管理得當(dāng)，AI的確可以極大地提高生產(chǎn)力，但它也可能導(dǎo)致更多的錯(cuò)誤信息，當(dāng)然，還會(huì)加劇我們社會(huì)的不平等。」

頂圖：ChatGPT用戶人數(shù)去年呈過(guò)山車(chē)式變化，近期才重回去年5月巔峰時(shí)期的水平。路透社

責(zé)任編輯：趙桐曲加強(qiáng)語(yǔ)音文本音視頻交互功能新版ChatGPT類人速度反應(yīng)超快