• <sup id="iiii8"><delect id="iiii8"></delect></sup>
    <sup id="iiii8"><code id="iiii8"></code></sup>
    <code id="iiii8"><object id="iiii8"></object></code>
  • <noscript id="iiii8"></noscript>
  • <tfoot id="iiii8"></tfoot>
  • <tr id="iiii8"><blockquote id="iiii8"></blockquote></tr>
    <nav id="iiii8"><cite id="iiii8"></cite></nav>

    国产美女一级A作爱在线观看,一线天粉嫩在线视频,久久亚洲欧洲国产综合,色视频www巨色日韩无码

    香港商報(bào)
    -- 天氣
    華爾街日?qǐng)?bào):AI狂潮來襲 互聯(lián)網(wǎng)數(shù)據(jù)已「不夠用」

    華爾街日?qǐng)?bào):AI狂潮來襲 互聯(lián)網(wǎng)數(shù)據(jù)已「不夠用」

    責(zé)任編輯:徐樂釗 2024-04-03 18:12:46 來源:香港商報(bào)網(wǎng)綜合

    在追求構(gòu)建更強(qiáng)大AI的道路上,各大公司如OpenAI和Google突然遭遇了一個(gè)未曾預(yù)料的挑戰(zhàn)——互聯(lián)網(wǎng)似乎變得「太小」了。這背後,是因?yàn)檫@些公司開發(fā)的AI系統(tǒng)日益強(qiáng)大,對(duì)資訊的渴求也愈發(fā)旺盛。然而,隨著數(shù)據(jù)所有者開始限制AI公司對(duì)其數(shù)據(jù)的訪問,互聯(lián)網(wǎng)上的優(yōu)質(zhì)公共數(shù)據(jù)池變得愈發(fā)稀缺。

    華爾街日?qǐng)?bào)近日撰文表示,一些企業(yè)高管和研究人員憂心忡忡地表示,高質(zhì)量文本數(shù)據(jù)的需求可能在兩年內(nèi)超過供應(yīng)量,這無疑會(huì)拖慢AI發(fā)展的步伐。面對(duì)這一困境,AI公司們開始四處尋找尚未開發(fā)的資訊源,並重新考慮如何更有效地訓(xùn)練這些系統(tǒng)。據(jù)知情人士透露,OpenAI——這位ChatGPT的締造者,甚至已經(jīng)考慮將YouTube視頻中的對(duì)話內(nèi)容轉(zhuǎn)化為文本,用以此為基礎(chǔ)訓(xùn)練其下一代模型GPT-5。

    然而,一些公司試圖通過使用AI生成的數(shù)據(jù)(也稱合成數(shù)據(jù))作為訓(xùn)練材料來解決問題。但多位研究人員表示,這種方法可能帶來嚴(yán)重的故障和不確定性。這些嘗試大多在秘密中進(jìn)行,因?yàn)槠髽I(yè)高管認(rèn)為,誰先找到解決方案,誰就可能獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

    AI研究員Ari Morcos直言不諱地指出,數(shù)據(jù)短缺已成為一個(gè)亟待解決的前沿性研究問題。而數(shù)據(jù)短缺只是AI發(fā)展面臨的眾多挑戰(zhàn)之一。大型語言模型,如ChatGPT、Google的Gemini等背後運(yùn)行的大型語言模型所需的晶片也很稀缺。此外,行業(yè)領(lǐng)導(dǎo)者還擔(dān)憂數(shù)據(jù)中心及其所需電力的不足。

    AI語言模型主要依賴從互聯(lián)網(wǎng)上獲取的文本進(jìn)行訓(xùn)練,這些文本包括科學(xué)研究、新聞報(bào)道和維基百科(Wikipedia)條目等。這些材料被分解為詞元(token),即模型學(xué)習(xí)構(gòu)建類似人類表達(dá)的單詞和部分單詞。通常,AI模型訓(xùn)練的數(shù)據(jù)越多,其能力就越強(qiáng)。OpenAI就是憑藉這種策略,成為了全球知名的AI公司。

    儘管OpenAI沒有透露其目前最先進(jìn)的語言模型GPT-4的詳細(xì)訓(xùn)練材料,但據(jù)估計(jì),GPT-4的訓(xùn)練素材已經(jīng)多達(dá)12兆個(gè)詞元。研究人員預(yù)測(cè),按照當(dāng)前的增長(zhǎng)軌跡,像GPT-5這樣的AI系統(tǒng)將需要60兆到100兆個(gè)詞元的數(shù)據(jù)。然而,即使利用所有可用的高質(zhì)量語言和圖像數(shù)據(jù),仍可能存在至少10兆到20兆個(gè)詞元的缺口,如何彌補(bǔ)這一缺口仍是未知數(shù)。

    值得注意的是,網(wǎng)上大部分?jǐn)?shù)據(jù)對(duì)AI訓(xùn)練並無實(shí)際用處,因?yàn)樗鼈兛赡艽嬖诰渥託埲薄o法增進(jìn)模型知識(shí)等問題。業(yè)內(nèi)人士估計(jì),互聯(lián)網(wǎng)上的數(shù)據(jù)只有一小部分對(duì)AI訓(xùn)練有用,甚至可能僅為非營利組織Common Crawl收集資訊的十分之一。

    與此同時(shí),社交媒體平臺(tái)、新聞出版商等出於公平補(bǔ)償?shù)瓤剂浚_始限制AI公司對(duì)其數(shù)據(jù)的訪問。公眾對(duì)於交出私人對(duì)話數(shù)據(jù)(如通過iMessage進(jìn)行聊天)以幫助訓(xùn)練AI模型也持謹(jǐn)慎態(tài)度。儘管如此,Meta Platforms的朱克伯格(Mark Zuckerberg)仍強(qiáng)調(diào)自家平臺(tái)在數(shù)據(jù)獲取上的優(yōu)勢(shì),認(rèn)為這將是其AI業(yè)務(wù)發(fā)展的一大助力。然而,這些數(shù)據(jù)中究竟有多少能被視為高質(zhì)量數(shù)據(jù),目前仍是一個(gè)未知數(shù)。

    目前,包括OpenAI的合作夥伴微軟(Microsoft)在內(nèi)的一些科技公司,正致力於開發(fā)規(guī)模遠(yuǎn)小於GPT-4,但專注於實(shí)現(xiàn)特定目標(biāo)的小型語言模型。

    OpenAI的行政總裁阿爾特曼(Sam Altman)已透露,該公司正在研究訓(xùn)練未來模型的新方法。據(jù)知情人士透露,OpenAI還討論過建立一個(gè)數(shù)據(jù)市場(chǎng),在這個(gè)市場(chǎng)中,OpenAI能夠制定一種機(jī)制來評(píng)估每個(gè)數(shù)據(jù)點(diǎn)對(duì)最終訓(xùn)練模型的貢獻(xiàn)程度,並向數(shù)據(jù)提供者支付報(bào)酬。

    Google內(nèi)部也在探討類似的思路。然而,迄今為止,研究人員在構(gòu)建這樣的系統(tǒng)時(shí)仍面臨諸多挑戰(zhàn),尚未找到有效的突破口。

    同時(shí),OpenAI還在努力搜集可用的信息。知情人士稱,公司高層已探討利用自動(dòng)語音識(shí)別工具Whisper在互聯(lián)網(wǎng)上轉(zhuǎn)錄高質(zhì)量視頻和音頻素材的可能性。其中一些將通過公開的YouTube影片來實(shí)現(xiàn),這些影片中的一部分已經(jīng)被用來訓(xùn)練GPT-4。

    OpenAI的一位發(fā)言人表示:「我們的數(shù)據(jù)集是獨(dú)一無二的,經(jīng)過精心整理,以幫助我們的模型更好地領(lǐng)悟世界。」她還說,OpenAI的工具會(huì)從公開可用的內(nèi)容中提取信息,並通過合作夥伴關(guān)係獲取非公開數(shù)據(jù)。

    另外,一些公司也在嘗試自行製作數(shù)據(jù)。然而,輸入本身由AI生成的模型文本,被認(rèn)為是近親繁殖的計(jì)算機(jī)科學(xué)版本。此類模型往往會(huì)出現(xiàn)胡編亂造的現(xiàn)象,一些研究人員稱之為「模型崩潰」。

    許多研究數(shù)據(jù)問題的專家對(duì)最終找到解決方案持樂觀態(tài)度。有專家將其比作「石油峰值」的概念,即曾有人擔(dān)心石油生產(chǎn)可能會(huì)達(dá)到頂峰,從而引發(fā)經(jīng)濟(jì)崩潰。然而,隨著新技術(shù)的出現(xiàn),如本世紀(jì)初的壓裂技術(shù),這種擔(dān)憂最終被證明是不準(zhǔn)確的。專家認(rèn)為,AI領(lǐng)域也可能出現(xiàn)類似的發(fā)展,其最大的不確定性在於,人類不知道將會(huì)出現(xiàn)怎樣的技術(shù)突破。(香港商報(bào)網(wǎng)綜合 記者徐樂釗)

    頂圖來源:路透社

    責(zé)任編輯:徐樂釗 華爾街日?qǐng)?bào):AI狂潮來襲 互聯(lián)網(wǎng)數(shù)據(jù)已「不夠用」
    香港商報(bào)PDF
    股市

    友情鏈接

    承印人、出版人:香港商報(bào)有限公司 地址:香港九龍觀塘道332號(hào)香港商報(bào)大廈 香港商報(bào)有限公司版權(quán)所有,未經(jīng)授權(quán),不得複製或轉(zhuǎn)載。 Copyright ? All Rights Reserved
    聯(lián)絡(luò)我們

    電話:(香港)852-2564 0768

    (深圳)86-755-83518792 83518734 83518291

    地址:香港九龍觀塘道332號(hào)香港商報(bào)大廈

    国产美女一级A作爱在线观看
  • <sup id="iiii8"><delect id="iiii8"></delect></sup>
    <sup id="iiii8"><code id="iiii8"></code></sup>
    <code id="iiii8"><object id="iiii8"></object></code>
  • <noscript id="iiii8"></noscript>
  • <tfoot id="iiii8"></tfoot>
  • <tr id="iiii8"><blockquote id="iiii8"></blockquote></tr>
    <nav id="iiii8"><cite id="iiii8"></cite></nav>