OCR技术的新突破：传统算法与多模态大模型的较量

时间：2024-10-25 12:19:26浏览次数：3

大家好！今天咱们来聊聊OCR技术的最新进展。OCR，就是把图片里的文字转换成电子文本的技术。这可是个实用的东西，尤其是当你需要把纸质文档变成可编辑的文本时。

先说说传统的OCR算法。它们通常分两步走：先识别文字和位置，然后对文字进行后处理。百度的PaddleOCR在这方面做得不错，尤其是对中文的识别，准确率很高。但处理完后，我们还得想办法提取出有用的信息，这就需要规则匹配和命名实体识别（NER）了。

规则匹配，就是用特定的规则来提取信息，比如电话号码、身份证号这些有固定格式的信息。这种方法又快又准，但遇到没有固定格式的信息就不太行了。

命名实体识别，则是NLP的一部分，能识别出文本中的实体，比如人名、地名。这个过程包括分词、词性标注、实体识别和分类。虽然可以训练自己的模型，但很多时候，直接用别人训练好的模型更省事。比如RexUniNLU模型，效果就不错。

但如果你想要更精准的结果，那就得试试多模态大模型了。这些模型能同时处理文本和图像，理解它们之间的关系。它们的特点就是能处理多种数据，需要大量的计算资源，而且通常需要预训练和微调。

多模态大模型的应用很广泛，比如图像标注、视觉问答、多模态翻译等。它们能从文本描述生成图像，或者从图像中回答问题。

举个例子，快瞳科技的医疗票据识别模型，即使原始素材存在盖章重叠、字迹模糊、折叠、光线不均等缺陷，它也能准确从图片中识别出人物、公司、地址等信息。而且，它的响应速度很快，效果也非常好。感兴趣的朋友，可以去→ 测试下

不过，这些大模型也有缺点，比如需要的显存大，处理速度可能没有传统算法快。但它们的泛化能力强，能识别更多的关键信息。

总结一下，如果你需要快速、准确地提取格式化信息，传统算法可能更适合。但如果你需要更全面的识别能力，多模态大模型可能是更好的选择。当然，选择哪种方案，还得看你的具体需求和资源。不管怎样，OCR技术的发展，让我们处理信息的方式更加智能和高效了。

标签：模态,识别,模型,信息,文本,算法,OCR
From： https://blog.csdn.net/linzi_a1/article/details/143228576

kd-tree和ball-tree在算法实现原理上有什么区别
kd-tree和ball-tree在算法实现原理上的区别主要体现在：1.结构不同；2.划分方式不同；3.查询效率不同；4.应用场景不同；5.空间利用效率不同。总的来说，kd-tree在处理低维数据时效率较高，而ball-tree更适合处理高维数据。kd-tree是一种二叉树结构，而ball-tree则是一种层次化的数据结构。1.......
最短路算法笔记
最短路算法最短路算法可大致分为三类：无负权边的单源最短路，有负权边的单源最短路和多源汇最短路dijkstra算法dijkstra算法是求无负权边的单源最短路的常用算法，基于贪心的思想其过程大致为：找到距离已经确定最短路的连通块的最近的点把他加入已经确定最短路的连通块用这个......
用于数据挖掘的分类算法有哪些
数据挖掘的分类算法是一类用于识别和预测类别的算法，主要包括：1.决策树，如C4.5和CART，适用于可解释性强的场景；2.SVM（支持向量机），适合线性和非线性分类问题；3.随机森林，集成多个决策树以提高准确性；4.K-近邻算法，基于相似性进行分类。其中，随机森林以其出色的准确性和鲁棒性在许多实际应......
代码随想录算法训练营第24天（补第13天）|226.翻转二叉树， 101. 对称二叉树，104.二叉树的最
226.翻转二叉树文章链接：https://programmercarl.com/0226.翻转二叉树.html#算法公开课题目链接：https://leetcode.cn/problems/invert-binary-tree/description/迭代法:这里使用了前序遍历来交换左右孩子节点classSolution{public:TreeNode*invertTree(TreeNode*r......
双非院校，0项目经验，三个月入职大厂NLP算法岗，月薪30k+
金九银十马上就要过去，NLP算法求职几家欢喜几家愁。有人offer拿到手软，有人从灰飞烟灭到人间地狱。我们用了2个月的时间，调研了200多位NLP工程师和100个在2024年热招的岗位，对过去一年NLP领域人才求职和热招岗位情况深度分析了一下。发现了一些情况，以飨大家。01NLP算法求职更......
蓝桥杯大赛 ——首场算法团队战题解
1. 不同角度【算法赛】在生活中，我们总是根据数值的大小来判断两个数字的大小关系。例如，9999 总是小于 100100，999999 总是小于 10001000。但如果我们换一个角度，将 999999 和 10001000 看成是两个数字字符串，并用字典序来比较它们的大小，那么此时，999999 将大于 10001000。......
EM算法1
工作中涉及了EM算法，重新学习一下不清晰的概念。偶然发现了国外的教材，不经感叹国外的教材写的是真的好。掰开揉碎了，一行行的讲公式的意思，讲变量的由来。反观国内的教材，啥也不说，啪啪啪几行公式列下来，标注几个变量，仿佛生怕多说几个字让你学会了。让人懵逼进来懵逼出去。该文献的标......
二分图的判别（染色法、匈牙利算法）
二分图的判别：首先二分图是指一个图如果没有奇数环，则该图是二分图。其实这两种算法都是基于dfs来做的，要深刻理解每个算法的dfs指代的是什么。1、染色法：所谓的染色是指所有边的每一条边的两个端点颜色不同，算法思路就是让每个顶点都做一次dfs，判断其中有无同一条边的端点颜色相同。......
代码随想录算法训练营day25| 491.递增子序列 46.全排列 47.全排列2
学习资料：https://programmercarl.com/0491.递增子序列.html#算法公开课排列与组合的区别，不用startIndex，而每个树层都从0开始，但是要跳过已经用过的数（用used判断）学习记录：491.递增子序列（添加一个数组used（hash表），来保持数组每个位置上的数的使用情况，没用过为0，用过变成1）点击查看代......
代码随想录算法训练营第24天（补第12天）| 递归遍历，迭代遍历，统一迭代
前置知识二叉树的定义：structBNode{intval;BNode*lchild;BNode*rchild;BNode():lchild(NULL),rchild(NULL){}BNode(intval){val=val;lchild=rchild=NULL;}};递归遍历文章链接：https://programmercarl.com/二叉树的递归遍历.html#思路题目......

OCR技术的新突破：传统算法与多模态大模型的较量

相关文章

赞助商

阅读排行