首页 > 其他分享 >合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

时间:2023-09-26 18:22:36浏览次数:41  
标签:数字化 编码 文化 华南理工大学 合合 古彝文 识别

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗?奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在2009年便已发布,如今突然“翻红”,不仅体现了大众对于少数民族文化高涨的兴趣,也见证着优秀的传统文化不息的生命力。

文字是文化的重要载体,古彝文承载了深远的彝族历史内涵,蕴含着丰富的文化信息。近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。

校企合力,把七万多个字符“浓缩”成精简的字典

以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。

单一古彝文可表达多个释义(图源:《滇川黔桂彝文字集》)

当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的合计,古彝文和现在仍然使用的各地的彝文,总数多达87046字,对如此庞大的字符集进行分类非常困难。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字特别丰富,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的识别带来了极大的挑战。

基于上述情况,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

古彝文典籍编码、识别过程(图源:西南彝志)

 在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

 “古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。

 AI帮人类降低古彝文阅读难度

 构建古彝文“大字典”需要解决的首要问题并非文字识别,而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,往往会变得模糊不清或残缺不全。在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。

 在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题,并智能判定图像的优化方式,一键处理模糊、阴影、手指、屏幕纹等干扰因素,减轻后续图片处理工作,缩短内容识别、编码的操作周期。

  扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志) 

2022年5月,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,文件指出,到2035年,建成全面共享、重点集成的国家文化大数据体系。文化数据要素和人工智能技术的融合,将推动文化数字化战略的有效实施和文化产业的高质量发展,是优秀传统文化传承创新的有效路径。

合合信息在智能文字识别领域已有十七年深耕经验。此前,在AI识别甲骨文、西周钟鼎文(金文)领域,公司已进行了领先的探索和研究,为古彝文识别积累了经验,奠定了良好的技术基础,相关项目曾获得央视、新华社、《人民日报》等多家主流媒体的关注。

扫描全能王小程序上线H5,面向全社会进行古彝文典籍公益性征集及文化海报传递

加强文化遗产的保护、传承与合理利用任重道远,需要全社会共同行动。为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。

近年来,国家正不断推进文化数字化战略。2022年,国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出了“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。AI技术与古彝文的“牵手”,将助力民族文化在深入群众的过程中与新事物融合,为文化传承提供创新的源泉。

网友自发“创作”的古彝文对联

 

标签:数字化,编码,文化,华南理工大学,合合,古彝文,识别
From: https://www.cnblogs.com/intsig/p/17730880.html

相关文章

  • 合合信息亮相“海聚英才”全球创新创业峰会,政企研合力推动AI人才培养
    近日,“聚上海,创未来”第三届“海聚英才”全球创新创业峰会在沪举行,“创新之路:卓越工程师培养交流研讨会”(简称“研讨会”)是峰会重磅系列活动之一。研讨会由中共上海市委人才工作领导小组办公室等多部门指导,上海理工大学、上海长三角技术创新研究院承办,来自复旦大学、北京航空航天......
  • CIIS 2023 丨聚焦文档图像处理前沿领域,合合信息 AI 助力图像处理与内容安全保障
    近日,2023第十二届中国智能产业高峰论坛(CIIS2023)在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自......
  • 苹果再发“黑科技”,合合信息扫描全能王新功能支持“360度立体式建模”
    9月13日凌晨,搭载iOS17正式版系统的iPhone15系列新品正式发布。基于iPhone激光雷达、iOS17系统,合合信息旗下扫描全能王新推出“物体扫描”功能,用户只需使用手机环绕目标物体扫描,便可实时进行3D建模,完成一次“360度立体扫描”。该功能将于9月20日iOS17系统更新后正式开放体验。......
  • 2023清华博士团暑期社会实践项目圆满结束,合合信息助力科技人才发展
    为促进科技人才发展,通过深化技术落地认知反哺学科研究,在上海市静安区人社局、清华大学研工部的组织下,多名博士生赴上海合合信息科技股份有限公司(简称“合合信息”)进行为期数月的社会实践,项目于近期圆满结束。该项目旨在通过企业实践,让学生更直观地接触项目研发、管理的知识,了解社......
  • 中国信通院高质量数字化转型产品及服务全景图发布,合合信息多项AI产品入选
    随着5G、人工智能、大数据等新一代技术的发展,企业在商业竞争中正面临更多不确定性。中国信通院高度关注企业数字化转型中遇到的痛点,发起“铸基计划-高质量数字化转型行动”,链接企业数字化转型供、需两侧的发展需求,以期推动国家数字生态高质量发展。近期,中国信通院召开2023数字生......
  • 以商业大数据技术助力数据合规流通体系建立,合合信息参编《数据经纪从业人员评价规范》
    经国务院批准,由北京市人民政府、国家发展和改革委员会、工业和信息化部、商务部、国家互联网信息办公室、中国科学技术协会共同主办的2023全球数字经济大会于近期隆重召开。由数交数据经纪(深圳)有限公司为主要发起单位,合合信息等企业参编的《数据经纪从业人员评价规范》团体标准在......
  • 合合信息通过ISO/IEC国际标准双认证,为全球用户提供高合规标准AI服务
    互联网、AI等技术的全球普及为人们提供便捷服务的同时,也带来了信息安全领域的诸多挑战。保护用户隐私及数据安全,是科技企业规范、健康发展的重心。近期,上海合合信息科技股份有限公司(简称“合合信息”)顺利通过国际权威认证机构DNV审核,获得ISO/IEC27001信息安全管理体系及ISO/IEC2......
  • 牵手科瑞物业,合合信息智能文字识别技术助力企业沉淀数据资产
    名片是商务场景中信息传递的重要载体。比起传统的纸质名片,可动态化呈现个人及企业信息,洞察访客偏好的数字名片已成为企业对外展示、拓展客户的重要工具。近期,合合信息旗下名片全能王与科瑞物业达成合作。通过推动企业数字名片在科瑞物业各层级体系中的应用,助力企业沉淀数据资产,构......
  • CCIA数安委等组织发起“个人信息保护影响评估专题工作”,合合信息首批入选试点
    近期,“个人信息保护影响评估专题工作”(简称“PIA专题工作”)试点评估结果正式发布。PIA专题工作组由中国电子技术标准化研究院、中国信息通信院等单位的法律与技术专家组成,对试点申报单位开展PIA工作的过程是否符合评估依据提出的原则、框架、方法等进行评价,百度、快手、抖音、阿维......
  • 上海科技大学智能生活组齐聚合合信息,“沉浸式”体验人工智能产品
    近期,上海科技大学组织本科生产业实践-校企联合人才培养活动,30余名学生组成的“智能生活组”实地参访人工智能及大数据科技企业上海合合信息科技股份有限公司(简称“合合信息”)。本次活动旨在通过项目体验、主题交流,加深学生对于研究方向的专业认知,充分理解市场需求,达成学以致用的目......