前言
大家都知道,搞论文的时候很多的时候都需要数据来做支撑,对应的我就需要在很多期刊中获取对应的Figure,但是获取很麻烦,就算拍摄出来,放在论文里面效果也不是很好,而且歪七扭八的很碍眼。在这种事情上就很难搞,我苦这件事情好久了,一直也没有一个具体的解决方案,我想要的效果先来展示一下吧。
例如:我需要在论文里面插入一些题目,但是如果是拍摄出来的那就根本没发看了,所以我们得修饰一下,但是自己修正那是真正的费时费力,但是我用这个工具就能直接获取优化后的内容,来看看。
上面的内容就是用这个工具搞出来的,我是找了好多种工具,效果就这个最好,今天我来分享一下这个工具,希望也能给大家带来方便。将参考的期刊内容直接拍照识别,非常的快速高效,正确率又超高。
工具说明
这个产品是合合信息的,直接去搜官网。
在主页里能看到通用文字识别,这里是可以免费试用的。
前面展示的合合信息的版面分析与还原技术非常好用,这里我仅对于版面分析进行深入的说明。
版面分析是什么
这个工具通过人工智能与大数据分析突破了版面分析技术,在版面分割、区域间的逻辑关系处理等方面都有了实际的解决方案,并且通过智能文字识别、智能图像处理等核心技,助力与我们使用者从各类复杂的图片文档中精准获取信息。方便针对各种格式内容进行分割重组,为各个模块高度赋能。
版面分析主要包括物理版面分析(区域分割、分类,文本检测与定位,文本行分割等),手写及印刷区分,表格分析(单元格提取与关系分析),逻辑版面分析(区域语义分类、阅读顺序),以及签名、图标、印章等版面元素的提取等。
一般我们的在期刊中能看到大致5种内容,包含:文本,标题,表格,图像,列表。这些内容都可以被识别出来的,识别完成后根据我们自己具体的需求进行摘取即可。
其实这里的技术就很难了,版面分析任务被分为物理版面分析(或称为几何版面分析)和逻辑版面分析两类,前者主要解决区域分割问题,后者则关注区域之间的逻辑关系或阅读顺序。虽然我还不会,但是人家的技术水平真真的好厉害,这里给它点个赞。
最恐怖的数学公式
很多时候我们最头疼的是数学的公式,如果让我逐一的插入,我想回一句,那是不可能的,根本没有那个精力,有这个的时间都能几百万上下了,谁受这罪啊。
就说这张图的内容,用公式编辑器搞出来,画矩阵,真不是一星半点的麻烦,你以为我给大家画的时候都是使用公式编辑器啊,我不可能的,我也受不了,会爆掉的。
数学公式的版面分析
把有数学公式的照片提供出来,直接上工具进行分析,看效果,super棒。
处理后效果:
分析效果,可以将各个部分的内容都分割出来。
再看看卷子上的,这里还有大拇指一根呢,不过是可以识别去除的。
处理完毕效果,自动清理了很多内容呢,很直接方便,咱们可以具体对照一下,没有什么错漏的地方,下面的图还是可以继续优化的,也就是二次处理一下,问题不大。而且这个效果基本上就是word原内容了,识别完成后我们再修改一下具体的格式,也就完美了。
版面结果格式设置
根据我们提供的图片,筛选出对应的文档区域,对应的除去各种各样的噪声,去掉手指,去掉褶皱,进行曲面矫正,最后再进行图片增强,经过一系列的优化之后我们就能得到一个非常平整的图片内容。当然,这个图片也可以转成word。
根据自己的需求修正就好,很方便,段落属性什么的都可以设置的。
可识别元素
一般文档中基本包含的内容也就是下图这些内容了,都是可以做识别的,其中的识别公式是最舒服的,其它的相对手工处理还容易一些。
论文里面经常需要识别的就是图像以及表格,表格的数据流是我特别不喜欢的,没有任何技术含量,还得一点点的手工录入,有了这个识别工具就一键复制粘贴,相当迅捷了。
文档检测效果
这个是文档的内容识别,对应的text、title以及印章都顺利的别了。中间的部分是版面元素检测的过程解析。
识别纸质表格
识别度是非常高的,识别完成后进行一定的段落以及文字样式处理就完美了。
总结
这个工具在我的论文中可以起到非常大的帮助,数学公式,图像处理,表格录入等等功能都是非常的强大,再也不用担心面对着各种期刊内容发憷的情景了,再复杂的期刊我也能帮助大家完美的扣下来,变成大家的论文,变成大家的财富。
其实它还有很多功能等待着大家来开发,图像身份证是否有P篡改过,这样的功能都是非常强大而又好用的。
版面分析相关技术还可作用于文化保护,通过自动识别和提取各种类型书籍的表格、图像信息,将不同时代、多种印刷版式、多种概念的纸质图样按照符合人类理解的格式进行电子化存储,帮助实现文献、古籍、报纸、杂志等资料的数字化和知识管理,如果你在做这方面的工作,都是可以用上的,希望这篇文章能帮助到大家,为大家创造一些价值。
标签:分析,表格,智能,图像处理,内容,版面,工具,识别,神奇 From: https://blog.51cto.com/u_14304894/6499220