古聯「自動標點系統」上線

古聯「自動標點系統」上線

古聯公司經過一年潛心研製,使用《中華經典古籍庫》高質量整理本古籍作為訓練文本的「古籍自動標點系統」今日上線。本次上線一次性推出採用不同方法訓練的兩個模型,供用戶選擇。

2019年10月,中華書局古聯公司成立了「古聯智能數據研究室」,致力於利用大數據技術和人工智能技術輔助古籍文獻的整理、教學與科研等工作,「自動標點」便成為實驗室的重要課題之一。同時,古聯公司還與北京師範大學中文信息處理研究所合作成立了“古漢語信息處理聯合實驗室”,共同探索古籍自動化處理技術。

「古籍自動標點系統」就是分別由古聯智能數據研究室和「古聯-北師大聯合實驗室」基於不同訓練方法研發的系統平台。

與其他團隊自動標點模型訓練不同的是,古聯公司使用了《中華經典古籍庫》獨有的數據量高達15億的整理本古籍作為訓練集。模型效果在驗證集上的標點F1值超過92%,斷句F1 值超過96%。經過測試用戶的實際感受,對於大部分文獻的自動標點和句讀效果還要好於數值表現,完全可以成為一般讀者閱讀古籍文獻的得力助手。

古聯「自動標點系統」:

 

分享在 facebook
Facebook
分享在 twitter
Twitter
分享在 pocket
Pocket
分享在 email
Email
華人文化主體性研究中心

華人文化主體性研究中心

政治大學受教育部高教深耕計畫補助成立「華人文化主體性研究中心」,期能透過跨領域的研究整合,提高台灣在華人文化研究方面的國際能見度與學術水平,並期待因而能在華人學術圈中催生創新的思潮,讓全球共享中華文化的博大與精深。

官方網站

訂閱即時快訊

即將開放