当前时讯:合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

时间:2022-12-21 20:42:06       来源:动点科技


【资料图】

古彝文传承至今已有数千年历史,是世界上最古老的文字之一。2022 年 12 月 21 日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目(简称 “古彝文数字化项目”)。

上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊共同出席签约仪式

此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破,而上海大学携手合合信息推进的古彝文数字化项目,更侧重于对原生态彝文识别的攻坚克难。项目将根据上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字等进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。

由于古彝文尚未取得预留的 Unicode 编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的 “四行体” 彝汉文对译,过程相对繁琐。

毕节市彝文文献翻译研究中心展示汉译书稿

古彝文与汉字并非一 一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少 15%的变体字,原稿中只会更多;每个字的异体写法少则 2-3 个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天,如建立起完善的古彝文数据库和翻译系统,可极大提升研究效率。

“汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。” 合合信息智能技术平台事业部副总经理郭丰俊博士提到,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位造成挑战。再加上古彝文从未经过统一,异体字、变体字众多。合合信息将基于 “AI+OCR” 融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题。

据悉,2021 年、2022 年世界人工智能大会上,合合信息用 AI 技术对甲骨文、西周钟鼎文进行精准识别受到关注。郭丰俊博士表示,甲骨文和古彝文追溯源头都属于以刻画符号表意的文字,两种文字的识别方式有相通之处,此次古彝文数字化项目的开启,也成为合合信息智能文字识别技术赋能文字保护及文化传承的重要里程碑。

关键词: AI合合信息

新闻热点
奇闻趣事
频道推荐