首页 > 其他分享 >A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

时间:2024-08-28 11:07:15浏览次数:5  
标签:A股 财报 模型 技术 合合 文档 PDF 解析

财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬,上市公司进入了中报披露高峰期。据东方财富Choice数据统计,截至8月14日数据,A股有超过1715只个股公布了2024年半年度业绩预告,海量的财报文件对于金融行业从业者而言,无疑是巨大的工作量。

 

随着人工智能技术的深入发展,部分企业和个人开始尝试用大模型进行财务报表分析。针对大模型“理解力”薄弱,数据读取错误等问题,合合信息大模型“加速器”方案优化升级了PDF文档解析技术,将非结构化的PDF内容转换为结构化数据,提高大模型图表类数据提取准确性和版面理解能力,助力大模型实现从”泛读“到“精读“的能力跨越。

 

PDF是主流的电子文件格式之一。文档解析技术可将PDF、图片等多种格式的文件解析为 Markdown 或 JSON 格式的文档,并以一种对大模型友好的方式呈现。

 

文档解析技术是大模型理解和处理文档的前提,相关能力的缺失,在理解版面不同区域的内容排列顺序、要点时遇到障碍,影响大模型的“理解力”,财务报表中的关键信息可能会丢失或被误解,这会导致模型生成的答案不够精准,无法正确回答用户的查询。

 

“人类阅读文章时可以自然地判断版面元素的作用,但机器要经历层层拆解的过程才能‘读懂’文章。”据合合信息技术团队成员介绍,财报、年报文件多以PDF格式为主,其中包含着各类复杂表格、图表、证照等元素。大模型现阶段存在的文档解析能力缺陷主要体现如下方面:

 

文档识别失败率高。面对复杂版面,无法正确解析,获取标题、分块文本、图表等。在这种情况下,大模型常表现为细节信息提供答案失败或回答错误;逻辑结构解析不完整也是核心问题之一,段落语义划分错误,会导致大模型回答不全面或出现总结性偏差的状况。

 

图 1:合合信息PDF文档解析技术在大模型表格解析中的效果

 

据了解,合合信息PDF文档解析技术具备具备多文档元素识别、版面分析能力,可以识别文档中的段落、公式、页眉、页脚等多种元素,并进行对应的处理。在应对财报中常见的无线表、合并单元格、不规则行距、跨段、跨页等障碍时,该技术也能做到准确还原各类表格结构。

 

为了让大模型像专业人士一样阅读文本,PDF文档解析技术可对各类学术文献进行版面元素的识别及阅读顺序的判定。该技术不仅能够准确定位文档中的关键信息段落,还能根据PDF文档的布局和格式,推断出人类阅读时的顺序,而非机械地判定为从左至右排序,避免把完整的段落文字“拦腰斩断”,真正做到了“所见即所得”。

 

图 2:合合信息PDF文档解析技术对双栏论文的解析效果  

合合信息技术团队成员表示,上市公司年报页数大多集中在200至300页的范围内,一个熟练的分析师可能在几天到一周的时间内完成对年报的基本分析,PDF文档解析工具最快能在1.5秒完成百页文档的解析,按8小时为一日工作时间计算,解析工具可帮助大模型在一日内对数千家企业的年报数据进行精准分析。随着无纸化办公、数字化趋势发展,PDF文档解析技术有望被应用于更广泛的场景。

 

标签:A股,财报,模型,技术,合合,文档,PDF,解析
From: https://www.cnblogs.com/intsig/p/18384177

相关文章

  • 20240820(周二)AH股行情总结:A股三大指数收跌近1%,游戏传媒板块大涨,工行超中国移动成市值
    A股三大股指集体下挫,创业板指跌1.34%。国债期货收盘多数上涨,30年期主力合约涨0.22%。工商银行股价再创历史新高,盘中市值超过中国移动。“黑神话”概念股大涨,浙版传媒涨停,华谊兄弟涨超10%,新迅达20CM涨停。周二,A股三大指数均收跌近1%受《黑神话:悟空》大热带动,A股游戏、传媒板......
  • 变“金点子”为“好应用”,合合信息智能文档处理技术助力大学生探索AI创新边界
    谈“糖”色变、追求养生、低卡生活……这些热门词汇频频在社交媒体上掀起讨论热潮。有这样一批年轻人不但捕捉到了这些词汇背后真实的用户需求,并且正在利用AI技术寻找解决之道。近日,“中国大学生服务外包创新创业大赛”(以下简称“服创大赛”)决赛在江南大学圆满落幕。作为服务......
  • 商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档
    随着我国外贸新业态的快速增长,银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告(2023—2024)》,2023年我国主要商业银行国际结算规模再创历史新高,达到11.57万亿美元,较上一年增幅4.4%。......
  • 合合信息参编“生成式人工智能个人信息保护技术要求系列标准”,助力AI行业可信发展
    生成式人工智能作为新一轮的技术革命成果,在赋能千行百业,给经济社会发展带来新机遇的同时,也产生了个人信息泄露、数据安全风险等问题。在此背景下,中国信息通信研究院(简称“中国信通院”)联合抖音、百度、阿里巴巴、科大讯飞、合合信息等科技企业,共同参与了《生成式人工智能个人信息......
  • 【视频讲解】神经网络、Lasso回归、线性回归、随机森林、ARIMA股票价格时间序列预测|
    全文链接:tecdat.cn/?p=37019分析师:HaopengLi随着我国股票市场规模的不断扩大、制度的不断完善,它在金融市场中也成为了越来越不可或缺的一部分。基于此,选择合适的模型对股票价格进行精准、可靠的预测变得愈加重要。因为股票市场容易受到经济、政策、心理等多种相关因素的影响......
  • 《穿透财报:读懂财报中的逻辑与陷阱》
    《逆向投资 邓普顿的长赢投资法》的后面五章《面对泡沫:拿出卖空的勇气》《在危机中寻找时机》《关注长期前景,发现历史规律》《债券:长期投资的首选》《投资中国:巨龙从沉睡中觉醒》读下来完全没有什么感触,也没什么读后感好写。不知道是劳伦不如林奇,还是我心里已经打上了这样的标......
  • 合合信息“大模型加速器”亮相2024世界人工智能大会
    文章目录......
  • 合合TextIn - 大模型加速器
    TextIn是合合信息旗下的智能文档处理平台,在智能文字识别领域深耕17年,致力于图像处理、模式识别、神经网络、深度学习、STR、NLP、知识图谱等人工智能领域研究。凭借行业领先的技术实力,为扫描全能王、名片全能王等智能文字识别产品提供强大的底层技术支持,并对企业、开发者、个人用......
  • A股羊群效应CSSD CSAD数据与Stata代码数据(2000-2023)
    数据来源参考马丽老师(2016)的做法,股价数据来源于东方财富网,采用上证180指数及构成上证180指数样本股日收盘价数据作为样本。上证180指数自2002年7月1日起正式发布,其样本股是在所有 A 股股票中抽取最具市场代表性的180种样本股票,市值占总市值的比重很大,能够反映上海证券市场的......
  • A股3000点失守是出局还是机会?
    今天的大A失守300点,那么A股3000点失守是出局还是机会?1、今天两市低开,盘中一度跌破3000点,最低回踩到了2985点,盘面出现了两个罕见现象,意味着即将探底回升。2、盘面出现两个罕见现象:一是今天大盘跌破3000点后,成交量缩量,该走的都走了,剩下的都是敢死队,没人卖,市场怎么放量?现在大部......