AI龍頭商湯 (020)今日(23日)舉辦「商湯技術(shù)交流日」,商湯聯(lián)合創(chuàng)始人兼CEO徐立發(fā)布大模型「日日新5.0」版本,指當(dāng)中主要有五大重點(diǎn),包括採(cǎi)用混合專(zhuān)家架構(gòu);基於超過(guò) 10TB tokens訓(xùn)練,大量合成數(shù)據(jù);更上下文推理窗口擴(kuò)至200k;知識(shí)、推理、數(shù)學(xué)、代碼場(chǎng)景全面對(duì)標(biāo) GPT-4 Turbo。
徐立表示,根據(jù)尺度定律,AI公司在有限的研發(fā)資源上,只要找到更佳的模型架構(gòu)和數(shù)據(jù)配方,就可讓模型能最高效地學(xué)習(xí)。
市場(chǎng)一直討論大模型商業(yè)化。徐立指出,商湯推出企業(yè)大模型一體機(jī),採(cǎi)用242結(jié)構(gòu),大模型裝上高速4卡全互連,4國(guó)產(chǎn)大模型加速卡,2 國(guó)產(chǎn)AI 加速卡,算力可達(dá) 2P FLOPS@半精度,顯存可達(dá) 256 GB;互聯(lián)可達(dá) 448 GB/s。
徐立表示,部分行業(yè)對(duì)於數(shù)據(jù)流動(dòng)設(shè)嚴(yán)緊限制,而大模型一體機(jī)則直接部署在客戶(hù)端,商湯針對(duì)金融、政務(wù)、醫(yī)療、代碼推出行業(yè)專(zhuān)屬一體機(jī)。
商湯去年發(fā)布「日日新」大模型系列以來(lái),其大模型能力每隔三個(gè)月提升,在企業(yè)中的應(yīng)用也隨之升級(jí),而年初推出的日日新4.0版本,在數(shù)據(jù)分析、代碼編寫(xiě)、和醫(yī)療問(wèn)答等多場(chǎng)景中達(dá)到了與GPT-4相匹配的能力。