中新社西寧5月25日電 (記者 孫睿)記者25日從青海師范大學(xué)省部共建藏語智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室獲悉,該實(shí)驗(yàn)室已初步建成600TF算力的智算平臺(tái)和面向多領(lǐng)域多用途的大規(guī)模藏語數(shù)據(jù)資源庫(kù)。
青海師范大學(xué)省部共建藏語智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室2021年2月經(jīng)中國(guó)科技部批準(zhǔn)建設(shè),是中國(guó)唯一的藏語信息處理領(lǐng)域國(guó)家重點(diǎn)實(shí)驗(yàn)室。實(shí)驗(yàn)室擁有5000平方米的科研用房和1.5億元人民幣的專業(yè)研發(fā)設(shè)備。
該實(shí)驗(yàn)室主任趙海興介紹,近年來,實(shí)驗(yàn)室構(gòu)建了藏文百科知識(shí)、新聞、經(jīng)濟(jì)、文化藝術(shù)等多領(lǐng)域文本語料40G以上,藏語語音數(shù)據(jù)15000小時(shí)、各類文化資源近2萬件,規(guī)模達(dá)到1600GB,是目前國(guó)內(nèi)外最大的基于國(guó)標(biāo)的大型標(biāo)注語料庫(kù),對(duì)中國(guó)涉藏地區(qū)教育、語言研究以及社會(huì)文化發(fā)展起到積極推動(dòng)作用。
同時(shí),該實(shí)驗(yàn)室還構(gòu)建了大規(guī)模藏漢平行語料庫(kù),并通過迭代式回譯策略等進(jìn)行數(shù)據(jù)增強(qiáng)及質(zhì)量評(píng)價(jià),訓(xùn)練了融合單語語言模型和注入雙語詞典信息的深度神經(jīng)網(wǎng)絡(luò)翻譯模型,在新聞、法律等領(lǐng)域準(zhǔn)確率達(dá)90%以上。
此外,該實(shí)驗(yàn)室還搭建藏文文獻(xiàn)資源數(shù)字化協(xié)同工作平臺(tái),構(gòu)建文獻(xiàn)圖文對(duì)照數(shù)據(jù)150余萬文本行,復(fù)雜場(chǎng)景圖文資源220萬個(gè),開展藏文印刷字體、復(fù)雜場(chǎng)景藏文區(qū)域檢測(cè)研究,自動(dòng)檢測(cè)視頻幀中的文字區(qū)域,并將其分割成單個(gè)字符或行文本。利用深度學(xué)習(xí)對(duì)分割處理后的文本進(jìn)行識(shí)別,實(shí)現(xiàn)了藏文文獻(xiàn)標(biāo)準(zhǔn)體和手寫體掃描識(shí)別系統(tǒng)、藏語視頻流復(fù)雜場(chǎng)景中的藏文識(shí)別。(完)