“漢典重光”首批實(shí)現(xiàn)海外20萬(wàn)頁(yè)中文古籍“數(shù)字化回歸”
中新社北京5月18日電 (記者 孫自法)中國(guó)海外古籍“數(shù)字化回歸”項(xiàng)目“漢典重光”平臺(tái)18日下午在北京中國(guó)科技館正式發(fā)布,通過(guò)先進(jìn)的人工智能(AI)技術(shù),一批珍藏于美國(guó)加州大學(xué)伯克利分校的中文古籍善本,以數(shù)字化方式回歸故土,落地“漢典重光”古籍平臺(tái)。
“漢典重光”平臺(tái)稱,首批20萬(wàn)頁(yè)古籍已完成數(shù)字化,并沉淀為覆蓋3萬(wàn)多字的古籍字典,公眾可通過(guò)該平臺(tái)翻閱、檢索古籍,這20萬(wàn)頁(yè)古籍的識(shí)別準(zhǔn)確率達(dá)到97.5%。
“漢典重光”項(xiàng)目由阿里巴巴公益基金會(huì)、四川大學(xué)、美國(guó)加州大學(xué)伯克利分校、中國(guó)國(guó)家圖書館、浙江圖書館合作開(kāi)展,旨在尋覓流散海外的中國(guó)古籍并將其數(shù)字化、公共化,讓普通人也能親近古籍,通過(guò)古籍與先賢對(duì)話,與優(yōu)秀傳統(tǒng)文化對(duì)話。
2019年,阿里巴巴和四川大學(xué)提出“數(shù)字化回歸”設(shè)想,獲得中文藏書量排名全美第三的加州大學(xué)伯克利分校支持并達(dá)成共識(shí),將伯克利東亞圖書館的中文古籍善本逐步數(shù)字化。
本次首批數(shù)字化的20萬(wàn)頁(yè)古籍中,包含40余種珍貴宋元刻本、寫本;明清至民國(guó)時(shí)期著名學(xué)者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業(yè)堂、密韻樓的抄本,還有清文瀾閣《四庫(kù)全書》零本等。
為將伯克利提供古籍的掃描圖片和編目數(shù)據(jù)全部文字化,阿里巴巴達(dá)摩院技術(shù)團(tuán)隊(duì)與四川大學(xué)專家聯(lián)手研發(fā)出一套全新的古籍識(shí)別系統(tǒng),以97.5%的準(zhǔn)確率完成對(duì)20萬(wàn)頁(yè)古籍的整體識(shí)別。目前,該系統(tǒng)已能批量識(shí)別百本古籍,并沉淀覆蓋3萬(wàn)多字的古籍字典。
比起專家錄入,這套人機(jī)交互的識(shí)別系統(tǒng)將效率提升近30倍。隨著古籍識(shí)別規(guī)模的擴(kuò)增,機(jī)器還會(huì)自我進(jìn)化,不斷提升準(zhǔn)確率和效率。阿里巴巴達(dá)摩院院長(zhǎng)張建鋒表示,阿里計(jì)劃將這套技術(shù)工具連同古籍?dāng)?shù)字化平臺(tái)一并捐贈(zèng),交由權(quán)威公共機(jī)構(gòu)長(zhǎng)期運(yùn)營(yíng),同時(shí),阿里仍將在古籍?dāng)?shù)字化工作上持續(xù)投入人力物力。
據(jù)了解,因邦交、貿(mào)易、戰(zhàn)亂等,歷史上中國(guó)古籍時(shí)有出海,近代以來(lái),戰(zhàn)爭(zhēng)和動(dòng)蕩更加劇了古籍的損毀和流散。據(jù)不完全估計(jì),散居海外的中國(guó)古籍超過(guò)40萬(wàn)部、400萬(wàn)冊(cè),包括甲骨簡(jiǎn)牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻(xiàn)等。(完)