撰文 | 李信馬
題圖 | 云知聲
幾天前,云知聲發(fā)布了一段視頻,視頻里女聲與男聲的人機對話聽起來十分自然,以至于聽到一半,才會分辨出哪個是人類哪個是機器。而機器模仿女聲的時候,幾乎聽不出來差別——這是剛剛發(fā)布的山海多模態(tài)大模型的實機展示。
對話中,山??梢宰龅綄崟r流暢回復,幾乎沒有延遲,甚至可以打斷和插話,還有對話中富有感情的語氣、節(jié)奏、音調變化等,就像在和真人對話。能夠流暢對話的大模型,意味著進入了人工智能最前沿的多模態(tài)領域,此前,在OpenAI 發(fā)布 GPT-4o 時,類似的展示中GPT-4o表現(xiàn)出了堪比人類的水平,一度讓人感覺中美大模型之間的差距被拉大,但僅僅3個月后,這一領先優(yōu)勢就被國產大模型追上。
人工智能是當下全球科技領域競爭的焦點,多模態(tài)技術上更復雜,應用場景更廣泛,是類似賽點一般的存在。正是少數(shù)如云知聲這樣的科技公司存在,才填補了我們在前沿領域的空白,并沖擊世界一流水平,也讓行業(yè)在未來商業(yè)化落地的時候,有強大且可靠的大模型支持。
但對科技公司而言,為什么要投入到多模態(tài)大模型的競賽?多模態(tài)大模型又是如何煉成的?未來會創(chuàng)造什么樣的價值?懷揣著這些疑問,我們采訪了云知聲的創(chuàng)始人兼CEO黃偉博士。
一、人工智能的必經之路
2012年,云知聲在北京正式成立,當時國內人工智能的熱潮才剛剛興起,以“AI四小龍”為代表的創(chuàng)業(yè)公司們即將迎來十年的“黃金時代”。
不過,在今天的黃偉看來,那是屬于“AI 1.0”的時代;2022年底,隨著ChatGPT的橫空出世,“AI 2.0”的時代大幕就此拉起。
“以前我們更多把 AI 看作是一種判別式 AI,也就是說,它只能做一些判斷題,是對我們已有事物的分類,而生成式 AI 可以無中生有,創(chuàng)造一個完全不同的新世界?!?/p>
對于如何實現(xiàn) AI 2.0 ,云知聲也有自己的探索規(guī)劃。2022年底,云知聲開始大模型立項;2023年5月24日,云知聲發(fā)布了自研的千億規(guī)模的大模型“山海”;在今年的8月23日,云知聲進一步推出了山海多模態(tài)大模型。
實際上,GPT-4o發(fā)布時,山海多模態(tài)大模型已經在緊鑼密鼓的研發(fā)之中,云知聲可以說是國內最早一批清楚認識到多模態(tài)的價值,并統(tǒng)一思想進行規(guī)劃和投入的科技公司。
采訪中,黃偉認為,從大語言模型到多模態(tài)大模型,是人工智能發(fā)展必然的路徑,大語言模型做到了從 0 到 1 的突破,而突破后一方面通過 Agent、RAG 等技術持續(xù)提高大語言模型“智商”,另一方面則以多模態(tài)引領從1到2,“二生三,三生萬物”。
“我覺得多模態(tài)才是人工智能的本源,我們談人工智能的時候,通常會把機器智能和人的智能進行類比。人的智能不光有大腦,還有眼睛、耳朵、鼻子、嘴巴、觸覺等,今天人工智能的數(shù)據來源更多是文字,未來只有將聲音、圖片、視頻,還有嗅覺、觸覺等更多的感知數(shù)據納入,才會真正變成一種類人的智能?!?/p>
他舉了個例子,人類想要和機器通過自然語言來交流,如果通過純粹的大語言模型,那么要分成三個階段:首先,是將人類的聲音識別轉化成文字;其次,大語言模型根據輸入生成文字內容;第三,將文字內容再轉化成音頻播放。
這樣,一個任務就被分成了三個任務,每個任務都會引入短暫的延遲,最終人機交互的延遲就會很明顯,用戶體驗差。而要有較快的響應速度,那就要通過多模態(tài)大模型來實現(xiàn)。目前山海多模態(tài)大模型的時延大概在 0.3 秒到 0.4 秒左右,基本上已經和正常人的交流速度相差無幾了,而且聲音還會帶上對應的感情,而非冰冷的播音腔。
黃偉預測,未來的大模型會是“世界模型”,大模型可以通過感知設備和技術來感知物理世界,理解物理世界的運行規(guī)律,從而解決現(xiàn)實中的復雜問題。
自2018年,云知聲連續(xù)六年上榜了 CB Insights 全球人工智能獨角獸榜單,在人工智能領域是少有能達成這一成就的創(chuàng)業(yè)公司。尤其在大模型興起后,不少曾經的明星創(chuàng)業(yè)公司也開始“星光黯淡”,而云知聲卻與時俱進,在大模型領域的勢頭兇猛。
黃偉介紹,山海大模型的目標是通用能力達到世界一流,在醫(yī)療等關鍵領域達到世界第一。目前,山海大模型在多個國際權威評測中都位列前茅,在剛剛最新發(fā)布的SuperCLUE 國內外通用大模型基準榜單中,山海大模型位列第一梯隊;在醫(yī)療領域,也曾登頂MedBench、MedQA、C-Eval等多個評測榜單。
但知易行難,云知聲的技術轉型,又是如何順利實現(xiàn)的呢?
二、舊的傳承,新的征程
黃偉認為,從技術本源上來講,大語言模型以及多模態(tài)大模型都不是從零開始的,而是對原有技術的升級。“之前是BERT,再之前是Transformer,技術上是一脈相承的,只是今天我們的規(guī)模更大,數(shù)據量也更大,量變引發(fā)了質變,模型產生了涌現(xiàn)能力,我們過去積累的優(yōu)勢,依舊會在產品得到體現(xiàn)?!?/p>
在技術研發(fā)的路徑上,云知聲選擇“分步走”,簡單來說,就是分階段做多模態(tài)大模型,先做文本和語音的融合,再做圖像視頻的融合。這樣的好處是相對比較穩(wěn)健,畢竟多模態(tài)大模型全球都還處于探索之中,沒有確定成功的經驗,另一方面,是能夠發(fā)揮出云知聲在智能語音領域的優(yōu)勢。
作為國內對話式 AI 獨角獸,云知聲在智能語音領域有著豐富的積累,曾在interspeech、VoxSRC 2023、BC國際語音合成大賽等多項國內外頂尖的語音交互評測/比賽中獲得過冠軍或收錄論文,也有著豐富的工程化和產品化經驗。
山海多模態(tài)大模型,是在山海大模型的基礎上演進的。據黃偉介紹,在算法和數(shù)據方面,首先,云知聲團隊用不同的編碼器,將海量的不同模態(tài)的數(shù)據(文本、音頻、圖片等)進行了編碼,然后通過適配器和原有的山海大模型進行融合預訓練。
“這里面的難點,第一個是數(shù)據配比,文字的數(shù)據密度很高,但音頻和圖片的數(shù)據密度并不高,比如5TB的數(shù)據,里面不同類型數(shù)據的比例不同,那數(shù)據要怎樣合理分配效果才最好?第二個是我們要通過多任務的指令微調和對齊,讓模型來理解各種指令,但你怎么快速地構造這個指令訓練器?靠人工的話,無法滿足數(shù)量和速度的需求。此外,數(shù)據平臺要怎么搭建?所以說真正想把多模態(tài)大模型做好,這里面有很多的挑戰(zhàn)?!?/p>
還有一些難點,來自于算力和存儲。多模態(tài)大模型預訓練對算力的要求極高,而音頻、圖片數(shù)據由于更加稀疏,對存儲的要求也更高,因此,團隊要有非常成熟的搭建計算平臺和分布式訓練的經驗。
比如云知聲,目前僅語音訓練數(shù)據就有幾十萬小時,“我們構建了非常完善的分布式數(shù)據的核心流程,幾十萬小時數(shù)據,你不能光靠錄音來獲得,我們通過算法合成的方式,差不多可以做到每天合成幾萬小時的數(shù)據?!?/p>
解決這些難點,對研發(fā)團隊的工程化能力也提出了極高的要求,需要豐富的經驗和技巧。回顧過去的兩年,云知聲的研發(fā)團隊經歷了無數(shù)困難,黃偉感慨道:“我覺得克服困難的過程,是比困難更大的困難,團隊不止需要足夠的能力,還需要強大的韌性。今天來看,可以云淡風輕的總結經驗,但當時卻是不斷的出現(xiàn)問題和煎熬,好在我們都解決了?!?/p>
三、商業(yè)化:新酒、新瓶
做大模型最重要的是什么?
作為跨越 AI 1.0 時代的行業(yè)老兵,黃偉認為,是將大模型變成真正在場景中為客戶創(chuàng)造價值的產品和服務。
“拿著錘子找釘子”,是長期以來對人工智能行業(yè)商業(yè)化的描述,早些年,不少創(chuàng)業(yè)公司講一個好故事,就能拿來融資,提高估值,但技術遲遲不能轉化為收入,故事就像泡沫一樣被吹爆了,公司也迅速從“黃金時代”進入“黑暗時代”。
初創(chuàng)階段、膨脹階段和黑暗階段,云知聲都經歷過,因此面對市場更加清醒,在黃偉看來,大模型帶來了機遇,但大模型本身并不是商品,而是巨大的成本支出。
“在 AI 1.0 時代,我們無論是做語音識別還是圖像識別,可能幾臺服務器就夠用了。但今天做生成式AI,我們需要幾百臺服務器,未來還需要更多,光這些服務器本身就是不小的成本,還有人力、電力和數(shù)據等。你做一個模型,能不能帶來商業(yè)轉化是一個重大的挑戰(zhàn),對中國的創(chuàng)業(yè)者來說尤其如此,因為在中國的商業(yè)環(huán)境里,哪怕你花了一個億去做研發(fā),客戶可能都不愿意付給你一百萬?!?/p>
成本的陡增,也讓商業(yè)化更加迫在眉睫,不少大模型廠商選擇按tokens計費“賣模型”的模式,不過黃偉認為,這并不是唯一的方向。云知聲規(guī)劃的大模型商業(yè)化路徑,可以描述為“先用舊瓶裝新酒,再用新酒注新瓶”。
“舊瓶”是指云知聲已經成熟落地的商業(yè)化場景,比如在醫(yī)療領域,云知聲推出過語音病歷錄入系統(tǒng),提高了醫(yī)生的工作效率。而“新酒”則是指大模型技術,可以讓產品的能力進一步升級。黃偉舉了個例子,在問診環(huán)節(jié),醫(yī)生和患者對病情不斷進行問答:
醫(yī)生:您好,沒來看過是吧,您有什么不舒服啊?
患者:之前體檢,說我甲狀腺功能不正常。
醫(yī)生:什么時候查的?
患者:有半年啦
醫(yī)生: 您有心慌、怕熱、出汗多的癥狀嗎?
患者:沒有
醫(yī)生:拉肚子呢?
患者:也沒有
醫(yī)生:除了體檢化驗,其他異常的感覺都沒有?那你報告帶了嗎?
患者:是這樣,當時我去我們社區(qū)醫(yī)院看過,大夫說我是甲亢,給我開了賽治
醫(yī)生:賽治吃的多大量?
患者:一頓兩片,一天就吃一次
醫(yī)生:現(xiàn)在一直吃著呢是嗎?
患者:沒有,我吃了一段時間,也沒感覺有什么不一樣,朋友跟我說不一定是甲亢,藥盒上還寫了一大堆可能出現(xiàn)的副作用,我就停啦。
雙方對話的同時,大模型也在不斷輸入對話的內容,當對話結束時,就會給出了一份診斷建議和治療方案。中國醫(yī)療資源相對缺乏,分布也不均衡,這樣的人工智能,在中西部地區(qū)和社區(qū)康養(yǎng)的場景下,就相當于給醫(yī)生提供了助手,也給患者安排了私人醫(yī)生。
還有在手術室,醫(yī)生手術負擔重也是醫(yī)院的常態(tài),以往手術結束后,醫(yī)生還要寫手術記錄,既增加了疲憊感,也可能會忘記中間的具體細節(jié)。而云知聲的產品,可以現(xiàn)場記錄醫(yī)生和護士之間的對話,然后基于對話識別手術的關鍵信息,當手術結束后,自動生成一份記錄。
“我們并不是手里拿著錘子找釘子,我們是把錘子升級,快速滿足現(xiàn)有客戶的需求?!倍嗄昵埃浦晣L試讓醫(yī)生使用麥克風來溝通,很多醫(yī)生用不慣,但當他們發(fā)現(xiàn)產品的確好用后,慢慢用的人就越來越多了,技術和產品就是這樣不斷迭代和推廣。
而當產品打磨成熟后,云知聲又可以開拓新的行業(yè),新酒注入“新瓶”中。黃偉介紹,除了醫(yī)療行業(yè),山海大模型在互聯(lián)網、汽車、交通等行業(yè)也在逐漸落地。
正確的道路不止一條,市場的需求也各式各樣,商業(yè)模式存在即有其合理性,重要的是,企業(yè)要選擇適合自己的商業(yè)模式。人工智能賽道是一場漫長而殘酷的淘汰賽,無論是“四小龍”還是“五小虎”,都是時代的符號,但能活到最后的,才算是跑完了全程。
對于行業(yè)未來的發(fā)展,黃偉給出了“任重道遠”四個字,“無論是大語言模型,還是多模態(tài)大模型,我們都看到了非常清晰的遠景,但是挑戰(zhàn)也非常大,對所有從業(yè)者來說,想要做更好的技術、更好的產品,打造更健康的商業(yè)模式,就要放棄浮躁的心態(tài),去追求產品落地。只有這樣,中國人工智能行業(yè)才能健康發(fā)展,而不是充滿泡沫——如果泡沫破裂的話,對中國人工智能行業(yè)將是巨大的傷害?!?/p>