今天总结一下前几天的:
刚开始做了拍照技术,用来拍图片。
然后用tesseract ORC技术来进行文字识别。
把代码储存成文件,放到openVC库中。
今天的问题:tesseract导包的问题,因为这里面用了太多的识别技术,导致有些包导不全,自己还要上网去查问题,有一些包不存在得添加一些配置,导致这两天这个很难弄。
具体的步骤
- 使用Java图像处理库(如OpenCV)读取输入图像,提取出其中的表格区域;
- 对提取出的表格区域进行图像处理和分割,将表格分割成单独的单元格;
- 对每个单元格进行OCR(光学字符识别)处理,将识别出的文字内容保存到一个二维数组中,以便后续转换成HTML表格;
- 使用Java生成HTML代码,根据OCR识别出的文字内容和表格结构生成HTML表格;
- 将生成的HTML代码传到Web端,以便在浏览器中显示出电子表格。
标签:OCR,Java,表格,报告,单元格,冲刺,HTML,识别 From: https://www.cnblogs.com/lin513/p/17344467.html