大模型兩年:百度與它的“超級應用”還有多遠
“應用來(lái)了”,百度世界大會(huì )2024年的主題簡(jiǎn)單明了,11月12日百度CEO李彥宏一上場(chǎng)也緊扣主題,“這代表了百度對當前大模型和生成式人工智能時(shí)代的認知和判斷”,并從智能體和產(chǎn)業(yè)應用兩個(gè)方向“上新”:可以直播的角色類(lèi)智能體、可以將照片變成動(dòng)畫(huà)的工具類(lèi)智能體等。
大模型是新的革命還是新的泡沫?李彥宏認為百度有資格回答這個(gè)問(wèn)題,截至11月12日文心大模型日均調用量超15億,他也承認眾所期待的AI超級應用還沒(méi)有出現。“PC時(shí)代的應用是軟件和網(wǎng)站,移動(dòng)時(shí)代是App,大模型時(shí)代是智能體”,多次強調智能體還不夠,李彥宏當天將智能體的重要性拔到新高度。
基本解決幻覺(jué)問(wèn)題
“要想基于大模型開(kāi)發(fā)應用,消除幻覺(jué)是必須的”,李彥宏一針見(jiàn)血,“如果這個(gè)模型總是一本正經(jīng)的胡說(shuō)八道,就不會(huì )有人信你,就不會(huì )有應用”。
其實(shí),在大模型爆發(fā)的兩年里,幻覺(jué)現象在不同使用場(chǎng)景下的改善程度也不一樣。
在李彥宏看來(lái),“大模型是一個(gè)概率模型,生成的內容具有不確定性。采用RAG(檢索增強生成)技術(shù)后,大模型會(huì )利用檢索到的信息來(lái)指導文本或答案的生成,提高內容的質(zhì)量和準確性。文字層面的RAG已經(jīng)做得很好了,但圖像等多模態(tài)內容和RAG的結合還不夠”。
他拿兩張天壇的圖片舉例,大模型生成的天壇是四層的,真正的天壇其實(shí)只有三層,這就是典型的文生圖幻覺(jué)現象。回到應用層面,這種幻覺(jué)現象目前仍然很普遍,“所以今天的多模態(tài)大模型,沒(méi)有什么成規模的應用出來(lái)。就是幻覺(jué)沒(méi)有解決,至少沒(méi)有像文生文RAG解決得那么好”,李彥宏說(shuō)。
基于此,百度開(kāi)發(fā)了iRAG技術(shù),即檢索增強的文生圖技術(shù)。該技術(shù)將百度搜索的圖片資源跟基礎模型能力相結合,可以生成各種超真實(shí)的圖片。
百度CTO王海峰詳細介紹稱(chēng),“百度基于大模型對用戶(hù)的需求進(jìn)行分析理解,自動(dòng)規劃精準或泛化方案;接著(zhù)在增強階段,對需要增強的實(shí)體,檢索并選擇相應的參考圖;最后在生成階段,自研了多模可控生圖大模型。在實(shí)際應用中,這個(gè)方法也支持用戶(hù)上傳參考圖,應用戶(hù)期望進(jìn)行生成”。
一些立等可取的現貨
不論是熱門(mén)新能源汽車(chē)還是大模型,技術(shù)、應用、商業(yè)模式都是漸進(jìn)的過(guò)程。就像中歐AI與管理創(chuàng )新研究中心秘書(shū)長(cháng)錢(qián)文穎說(shuō)的,“人工智能目前處于早期階段,更多是以實(shí)驗室創(chuàng )新為主。隨著(zhù)技術(shù)成熟,企業(yè)需要將這些橙黃新應用到實(shí)際場(chǎng)景中,滿(mǎn)足實(shí)際需求,逐步實(shí)現商業(yè)化”。
當天,李彥宏就展示了iRAG的應用場(chǎng)景:品牌宣傳。“試想一下,如果給大眾汽車(chē)生成的海報,車(chē)型長(cháng)得像豐田”,他開(kāi)了個(gè)玩笑,“之前一組汽車(chē)海報拍攝需要一二十萬(wàn),甚至大幾十萬(wàn)元,現在創(chuàng )作成本接近于0,iRAG的商業(yè)價(jià)值在于:無(wú)幻覺(jué)、超真實(shí)、沒(méi)成本、立等可取”。
55分鐘的演講中,他提到兩次“立等可取”這個(gè)詞,第二次是談到“自由畫(huà)布”時(shí),一個(gè)由百度文庫和百度網(wǎng)盤(pán)聯(lián)合開(kāi)發(fā)的工具類(lèi)智能體,核心功能體現在輸入、編輯、創(chuàng )作、分享環(huán)節。
以創(chuàng )作為例,在劃好重點(diǎn)后,用戶(hù)框選全部需要的素材就能一鍵生成,根據現場(chǎng)分享的視頻,輸入一張兒童的照片,加上故事的背景等,自由畫(huà)布就可以生成一個(gè)漫畫(huà)。
“自由畫(huà)布可以幫你完成從找資料、到編輯、再到生成和分享的全部任務(wù)。每個(gè)人都可以成為漫畫(huà)家、短視頻導演”,說(shuō)到這兒,李彥宏的聲音明顯提高,“這不是期貨,是立即可用的現貨”。
和自由畫(huà)布一樣零門(mén)檻的還有無(wú)代碼工具“秒噠”,一個(gè)多智能體協(xié)作工具。以設計一個(gè)蘿卜快跑新技術(shù)發(fā)布會(huì )的邀請函為例,包括海報生成、文案生成、嘉賓報名、地圖信息展示等,工作人員不需要懂代碼就可以完成,用李彥宏的話(huà)說(shuō),“你不需要去招募項目經(jīng)理、設計人員、開(kāi)發(fā)人員、測試人員等,自己就可以指揮多個(gè)智能體來(lái)協(xié)同完成任務(wù)”。
應用的樣貌不一樣
一個(gè)是智能體,一個(gè)是智能體協(xié)作工具,李彥宏看好的智能體在百度世界大會(huì )2024官宣前、預熱時(shí)、主論壇演講和展區都出現在C位。
北京商報記者體驗了展區的農民院士智能體。“你好,我是農民院士朱有勇的智能體,你可以通過(guò)向我提問(wèn),了解旱地優(yōu)質(zhì)稻的具體問(wèn)題解答”,“院士”有問(wèn)必答。截至北京商報記者發(fā)稿,這款智能體在文心智能體平臺上的瀏覽次數11.3萬(wàn)次,幫助2.9萬(wàn)人。整個(gè)文心智能體平臺上,已吸引15萬(wàn)家企業(yè)和80萬(wàn)名開(kāi)發(fā)者參與。
11月12日當天,李彥宏大部分時(shí)間也在給智能體打call,他將百度的智能體分為四類(lèi):公司類(lèi)智能體、角色類(lèi)智能體、工具類(lèi)智能體、行業(yè)類(lèi)智能體。
“智能體是AI應用的最主流形態(tài),即將迎來(lái)它的爆發(fā)點(diǎn)”,他再一次強調,“未來(lái)公司官方智能體很可能替代官網(wǎng)”,并從PC時(shí)代追溯至今,“在人類(lèi)信息技術(shù)變革的不同歷史時(shí)期,應用出現的樣貌也不一樣:在PC時(shí)期,它是一個(gè)個(gè)的軟件和網(wǎng)站;在移動(dòng)時(shí)期,它是一個(gè)個(gè)的App和可被關(guān)注的賬號;在A(yíng)I時(shí)代,應用主要的形態(tài)就是智能體”。
應用、智能體為什么屢次被提及?換一個(gè)角度或許更容易理解,“正常健康的生態(tài)應用是:應用創(chuàng )造的價(jià)值>云廠(chǎng)商>芯片GPU(圖形處理器)”,零一萬(wàn)物創(chuàng )始人及CEO 李開(kāi)復說(shuō)。
0人