首页 > 其他分享 >亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

时间:2024-05-29 15:36:25浏览次数:26  
标签:模型 技术 合合 文档 版面 语料 CCIG2024


    近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。 大模型技术正随着科技革新实现广泛应用,满足多行业图像处理需求。大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技术及其前沿应用》论坛,来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高校、研究机构及企业的专家代表就大模型技术在图像领域的发展、应用进行了深入研讨。  行业关注者聆听《大模型技术及其前沿应用》论坛分享 大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步,让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,加速大模型训练与应用。论坛上,合合信息智能创新事业部研发总监常扬分享了合合信息智能文档处理技术在文档解析领域的工作,给与会者带来了新的技术视角。 “文档解析的难点在于如何准确识别文档中的各个元素,并理解其之间的逻辑关系,需要关注'物理版面分析'和'逻辑版面分析。' ”据常扬介绍,物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。 文档解析技术中文档元素检测、文字表格识别、文档版面分析、阅读顺序还原等任务涉及对版面元素和版面整体布局的判断,是文档处理领域典型的技术难题。通过十几年技术积淀,合合信息打通了电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程,面对电子文档及扫描件,能够灵活地识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等版面元素,准确地还原文档阅读顺序,为大模型领域提供了精准的训练语料与文档问答应用体验。  高校研究者、学生排队体验智能文档处理技术 “我们研究过程中发现,真实世界的文档有着极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,将给版面分析带来新的研究思路,合合信息技术团队也将持续在智能文档处理领域深耕,让新技术在行业中更快速地产生价值。

标签:模型,技术,合合,文档,版面,语料,CCIG2024
From: https://www.cnblogs.com/intsig/p/18220387

相关文章

  • 效率提升超30% ,合合信息智能文档处理技术赋能央企保理公司供应链审单
    全球经济一体化的背景下,供应链金融的发展对于提高资金利用效率,促进产业链协同具有重要意义。供应链金融业务需要基于对贸易凭证的信息审核与交叉比对,确保贸易背景真实性与准确性。传统审单流程以人工审核为主,存在耗时长、精度低,信息不透明问题,制约了供应链金融的顺畅运行与发展。......
  • 合合信息携手业界专家,解码数据资产管理方法与入表的关键路径
    随着财政部印发的《企业数据资源相关会计处理暂行规定》提出企业数据资产入表相关办法,《数据资产评估指导意见》中进一步规范数据资产评估行为,细化数据资产评估操作要求,对解决数据要素市场建设中的“数据赋值”难题提供了有效方案。数据资产管理与入表成为当前社会关注热点和数据......
  • 中文语料库 没有类似https://www.english-corpora.org/里的 A/B compare的好用的
    BCC一旦用~,统计,就查不全CCL有个“搭配查询”但是很不好用,必须指明词性和词长/距离,coca里任意1-4距离,词性也是任意 搭配查询,用于查询(对比)不同动词前后的共现名词的频次差异。例如:查询表达式“刷(n,=2)|擦(n,=2)”,表示查询“刷”和“擦”后面的词长为2的名词。两个动词......
  • 突破内外数据融合场景堵点,合合信息启信宝赋能银行对公业务数智化建设
    随着“数据二十条”的发布和国家数据局的成立,我国数据基础制度建设进入新阶段,数据要素价值持续释放,数商产业的发展步入快车道。价值释放,场景为先。2023年底,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,提出到2026年底打造300个以上典型应用场景。近......
  • AI将诗意装进口袋!合合信息扫描全能王“扫描书籍”功能优化上线
    人间最美四月天,正是读书好时节。4月20日至23日,正值“世界读书日”之际,合合信息旗下扫描全能王联合上海首家图像小说主题书店——安古莱姆书店,共同发起“春天正是读书天”线下公益阅读活动,为公众带来一场春日文学盛宴。“世界读书日”期间,为方便阅读爱好者们随时随地畅享阅读的......
  • 科技助力上亿用户隐私安全保护,合合信息两款产品再获CCIA PIA星级标识
    随着互联网技术的飞速发展,个人信息的收集、存储、使用和传输变得日益频繁,其泄露和滥用的风险也随之增加,个人信息保护已成为社会共同关注的热点议题。近期,“中国网络安全产业联盟(CCIA)数据安全工作委员会”“数据安全共同体计划(DSC)”等组织共同发起了第二批评估工作——“个人信息......
  • 【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析
    一、引言在当今的数字化时代,电子文档已成为信息存储和交流的基石。从简单的文本文件到复杂的演示文档,各种格式的电子文档承载着丰富的知识与信息,支撑着教育、科研、商业和日常生活的各个方面。随着信息量的爆炸性增长,如何高效、准确地处理和分析这些电子文档,已经成为信息技术领......
  • TextIn合合信息的API使用心得
    在大学生服务外包杯的比赛中,我们组选了A29的赛题,是合合信息公司发布的赛题该赛题的意图是让我们使用它们公司开发的大模型api接口解决现实中的问题,在textin中的api接口中主要包含了以下几个方面的产品1.通用文字识别2.图像处理3.车辆相关识别4.国内票据识别等等我们组开发应用......
  • 合合信息分享数据资产管理经验,释放数据要素价值,发展新质生产力
    为加快推动产业数据行业创新中心建设、搭建高效的供需对接平台,4月9日,上海数据交易所、上海合合信息科技股份有限公司(下称“合合信息”)和上海市数商协会联合举办DSM系列——产业数据行业创新中心专题研讨会,以“数据资产管理与创新应用”为主题,探讨产业数据产品化、资产化,共促产业......
  • 合合信息推出国央企智能文档处理解决方案,AI赋能信创国产化
    信息时代,数字化转型已成为推动经济高质量发展的关键力量。国央企是国民经济的重要支柱,其数字化转型进程关乎着自身与产业链上下游企业的共同发展。文档的智能化处理可有效提升信息流转的效率、促进知识的沉淀与传承,是企业数字化转型的重要环节。 近期,合合信息基于人工智能技......