7月5日,在世界人工智能大會(huì)上,“數(shù)字甲骨共創(chuàng)中心”宣布將全球最大的甲骨文多模態(tài)數(shù)據(jù)集正式開(kāi)源。該數(shù)據(jù)集包含一萬(wàn)片甲骨的拓片、摹本,以及甲骨單字對(duì)應(yīng)位置、對(duì)應(yīng)字頭、對(duì)應(yīng)隸定字以及辭例分組、釋讀順序等數(shù)據(jù)?;谠摂?shù)據(jù)集,研究人員可開(kāi)發(fā)甲骨文檢測(cè)、識(shí)別、摹本生成、字形匹配以及釋讀等方向的智能算法,助推甲骨文研究加速數(shù)字化和智能化。
據(jù)介紹,數(shù)字甲骨共創(chuàng)中心由安陽(yáng)師范學(xué)院甲骨文信息處理教育部實(shí)驗(yàn)室、騰訊SSV數(shù)字文化實(shí)驗(yàn)室、騰訊優(yōu)圖實(shí)驗(yàn)室、中國(guó)社會(huì)科學(xué)院甲骨學(xué)殷商史研究中心、中國(guó)社會(huì)科學(xué)院考古研究所安陽(yáng)工作站、廈門(mén)大學(xué)多媒體可信感知與高效計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室、鄭州大學(xué)漢字文明研究中心等單位共同發(fā)起建立,吸納了來(lái)自中國(guó)社會(huì)科學(xué)院古代史研究所、英國(guó)劍橋大學(xué)、法國(guó)高等研究實(shí)踐學(xué)院、日本立命館大學(xué)、美國(guó)羅格斯大學(xué)、加州大學(xué)洛杉磯分校等高校和研究機(jī)構(gòu)的專(zhuān)業(yè)科研力量支持。
甲骨文是漢字源頭,也是迄今為止中國(guó)發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),它記錄了商代政治、經(jīng)濟(jì)、軍事、文化等諸多方面的內(nèi)容,展示了中華民族的智慧和創(chuàng)造力,為古文字研究和傳承、中華文明探源以及中國(guó)上古史體系的構(gòu)建提供了第一手史料。
但甲骨文研究存在眾多難點(diǎn)。甲骨自然損壞速度較快,保存、展示、利用不易,且出土甲骨都分散收藏于國(guó)內(nèi)外。同時(shí),甲骨文研究專(zhuān)業(yè)門(mén)檻高,近7成已發(fā)現(xiàn)甲骨文還尚未釋讀,也急需提升考釋效率。近年來(lái),隨著AI技術(shù)的快速發(fā)展,探索AI與甲骨文研究相結(jié)合,成為了研究人員的解題思路。
高質(zhì)量的AI算法則非常依賴(lài)高質(zhì)量的甲骨文數(shù)據(jù)集。過(guò)往,業(yè)界的甲骨文數(shù)據(jù)集存在信息簡(jiǎn)陋、標(biāo)注信息較簡(jiǎn)單以及單一數(shù)據(jù)集字?jǐn)?shù)較少等問(wèn)題,比如檢測(cè)數(shù)據(jù)集,只能把字摳出來(lái),不知道字是什么;字符識(shí)別數(shù)據(jù)集,只能認(rèn)幾百個(gè)字;因?yàn)閷?zhuān)業(yè)知識(shí)缺乏,有些標(biāo)注信息不完善等。這些也成為了甲骨文智能算法開(kāi)發(fā)的一大掣肘。
此次開(kāi)源的甲骨文多模態(tài)數(shù)據(jù)集集合了甲骨文數(shù)字化研究的最新成果。
一方面,該數(shù)據(jù)集吸收了當(dāng)前業(yè)界最先進(jìn)的甲骨文研究資料,包括劍橋大學(xué)博士秦培超發(fā)布的鏡元甲骨文字庫(kù),該字庫(kù)考慮了人工智能標(biāo)注需求的字庫(kù)進(jìn)行了細(xì)粒度的異體字標(biāo)識(shí);以及清華大學(xué)黃天樹(shù)教授發(fā)布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了標(biāo)注的難度。
另一方面,AI相關(guān)技術(shù)的應(yīng)用也為數(shù)據(jù)集的信息豐富提供了支撐。比如由騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合安陽(yáng)團(tuán)隊(duì)開(kāi)發(fā)的甲骨字檢測(cè)模型,可以對(duì)甲骨片上的字進(jìn)行一個(gè)初步的標(biāo)注;字形降噪與匹配模型,為檢索提供了最直接的方法;甲骨校重算法,可以實(shí)現(xiàn)拓片與大系摹本的配準(zhǔn),使得大系摹本可以直接輔助拓片的標(biāo)注;同時(shí)雙方聯(lián)合打造的協(xié)同創(chuàng)新平臺(tái),也大大提升了數(shù)據(jù)標(biāo)注的效率。
此外,數(shù)據(jù)集專(zhuān)業(yè)復(fù)查以甲骨文信息處理實(shí)驗(yàn)室的研究生為主力,充分融合了甲骨文知識(shí)和機(jī)器學(xué)習(xí)知識(shí)的專(zhuān)業(yè)知識(shí),也大大提升了數(shù)據(jù)集在AI算法研究場(chǎng)景下的可用性。
值得一提的是,騰訊在剛剛啟動(dòng)的探元計(jì)劃2024項(xiàng)目中,聯(lián)合數(shù)字甲骨共創(chuàng)中心發(fā)布甲骨文AI破譯需求,揭榜掛帥,期待與有技術(shù)儲(chǔ)備、有意愿共創(chuàng)、致力于AI助力甲骨文破譯的科研機(jī)構(gòu)共同形成解決數(shù)字文化演示方案,助力甲骨文破譯。經(jīng)過(guò)最終遴選評(píng)審的合作伙伴將獲得20萬(wàn)元資助,一起共創(chuàng)甲骨文AI考釋破譯的新算法、新工具、新方法。
中國(guó)社會(huì)科學(xué)院學(xué)部委員宋鎮(zhèn)豪表示,甲骨文是中華文明的重要瑰寶,甲骨文研究不僅有助于揭示中國(guó)上古信史,還能為現(xiàn)代漢字由來(lái)和漢語(yǔ)研究提供標(biāo)志性依據(jù)。通過(guò)AI技術(shù)的應(yīng)用,有望加快甲骨文探析進(jìn)程,解決長(zhǎng)期困擾學(xué)界的疑難問(wèn)題。希望更多的科研機(jī)構(gòu)和專(zhuān)家學(xué)者加入到這一偉大事業(yè)中,共同拓展甲骨文研究工作新天地。
安陽(yáng)甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室負(fù)責(zé)人劉永革表示,甲骨文的研究對(duì)于中華文化的傳承和發(fā)展具有重要意義。數(shù)字化和人工智能技術(shù)為甲骨文的破譯帶來(lái)了新的可能性和機(jī)遇。我們期待與更多有志于此的科研團(tuán)隊(duì)合作,利用先進(jìn)的技術(shù)手段,進(jìn)一步挖掘和解讀甲骨文中的豐富信息,促進(jìn)歷史文化的傳承與創(chuàng)新發(fā)展。用人工智能等數(shù)字技術(shù)助力甲骨文考釋的需求有文法分析、釋文翻譯、辭例擬補(bǔ)、殘字補(bǔ)全、辭例輔助綴合等等,潛在的應(yīng)用場(chǎng)景有包括古文字研究與考釋、漢文字研學(xué)與普及教育、甲骨文展覽及內(nèi)容制作與傳播等。
廈門(mén)大學(xué)教授,國(guó)家杰出青年科學(xué)基金獲得者紀(jì)榮嶸表示,甲骨文數(shù)字化及多模態(tài)甲骨文數(shù)據(jù)集的發(fā)布為甲骨文的研究和傳承注入了新的活力,具有里程碑式的意義。這一創(chuàng)新舉措不僅將古老的甲骨文以精準(zhǔn)的數(shù)字化形式得以保存,確保了文化瑰寶的永續(xù)流傳,更通過(guò)多模態(tài)數(shù)據(jù)集的方式,集成了拓片、摹本,辭例分組、釋讀順序等多重元素,為研究者構(gòu)建了一個(gè)全面而深入的研究平臺(tái)。全球最大的甲骨文多模態(tài)數(shù)據(jù)集的發(fā)布,必將極大地推動(dòng)甲骨文的跨學(xué)科研究,讓我們能更深入地探尋其背后的歷史脈絡(luò)、文化內(nèi)涵和社會(huì)背景。同時(shí),為公眾打開(kāi)了一扇直觀而生動(dòng)了解甲骨文的窗口,有力促進(jìn)了中華優(yōu)秀傳統(tǒng)文化的傳承與普及。
騰訊云副總裁、騰訊云智能負(fù)責(zé)人、騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人吳運(yùn)聲表示,人工智能正在給包括甲骨文研究在內(nèi)的科研場(chǎng)景帶來(lái)新能量,以前所未有的方式推動(dòng)科研工作的進(jìn)展。作為前沿技術(shù)的探索者,騰訊不斷探索將人工智能技術(shù)深度應(yīng)用于產(chǎn)業(yè)場(chǎng)景中,同時(shí)搭建開(kāi)放的技術(shù)平臺(tái),推動(dòng)技術(shù)普惠。此次聯(lián)合數(shù)字甲骨共創(chuàng)中心開(kāi)源全球最大甲骨文多模態(tài)數(shù)據(jù)集,我們期待有更多技術(shù)團(tuán)隊(duì)能夠攜手共進(jìn),探索人工智能技術(shù)在更多場(chǎng)景落地,共同為甲骨文研究提供更多助力。
騰訊數(shù)字文化實(shí)驗(yàn)室負(fù)責(zé)人舒展表示,守護(hù)中華文脈,煥活漢字源頭。用人工智能助力甲骨文“破譯”和活化利用,我們一直在探索,將“甲骨文AI破譯”納入探元計(jì)劃支持的創(chuàng)新探索型項(xiàng)目的定向命題。聯(lián)合數(shù)字甲骨共創(chuàng)中心發(fā)布甲骨文AI破譯需求,揭榜掛帥,期待與有技術(shù)儲(chǔ)備、有意愿共創(chuàng)、致力于AI助力甲骨文破譯的科研機(jī)構(gòu)形成解決方案。經(jīng)過(guò)遴選評(píng)審的共創(chuàng)伙伴將獲得資助,共創(chuàng)甲骨文AI考釋破譯的新算法、新工具、新方法。
近年來(lái),騰訊持續(xù)探索數(shù)字科技與文化深度融合,運(yùn)用前沿?cái)?shù)字科技幫助文化遺產(chǎn)保護(hù)傳承。
2022年,騰訊SSV數(shù)字文化實(shí)驗(yàn)室、騰訊優(yōu)圖實(shí)驗(yàn)室與安陽(yáng)實(shí)驗(yàn)室、廈門(mén)大學(xué)首度攜手,共建甲骨文開(kāi)放創(chuàng)新平臺(tái),用新一代數(shù)字科技助力甲骨文考釋研究與傳承活化,以可持續(xù)社會(huì)價(jià)值創(chuàng)新的方式實(shí)現(xiàn)“科技+甲骨文”的共創(chuàng)共益,融合智能化、網(wǎng)絡(luò)化、數(shù)字化的科技理念實(shí)現(xiàn)甲骨文考釋研究、展示傳承、活化利用的模式轉(zhuǎn)型升級(jí)。
2024年,合作團(tuán)隊(duì)發(fā)布了“數(shù)字甲骨國(guó)際共創(chuàng)計(jì)劃”,依托“殷契文淵”研究平臺(tái)和“了不起的甲骨文”活化平臺(tái)及探元數(shù)字文化開(kāi)放平臺(tái),邀請(qǐng)甲骨文相關(guān)收藏機(jī)構(gòu)、研究機(jī)構(gòu)、文化機(jī)構(gòu)、教育機(jī)構(gòu)和社會(huì)力量等共建共享、共創(chuàng)共益。