一、背景
在信创(信息技术应用创新)背景下,OCR(Optical Character Recognition,光学字符识别)技术的需求日益增长,主要体现在以下几个方面:
首先,随着国家信创战略的推进,自主可控和信息安全成为关键议题。OCR技术作为信息技术的重要组成部分,其国产化、自主可控的需求日益迫切。这要求OCR技术必须适配国产操作系统、硬件设备及CPU、GPU等核心组件,以确保数据安全和信息技术的自主可控。
其次,OCR技术在各行业的应用场景不断拓展。在文档处理领域,OCR技术可以快速将纸质文档转换为电子文档,实现文档的数字化、编辑、存储和传输,提升工作效率。在图像分析领域,OCR技术能够识别图像中的文字信息,辅助人们更好地理解和分析图像内容。在智能搜索领域,OCR技术将图像中的文字信息转换为可搜索的文本数据,为人们提供更加便捷、精准的搜索体验。
再次,随着数字化转型的加速,各行业对自动化、智能化处理的需求不断提升。OCR技术以其高效、准确的文字识别能力,在金融、医疗、物流等多个领域得到广泛应用,帮助企业提高业务处理效率和准确性。
最后,随着深度学习、人工智能等技术的快速发展,OCR技术的识别准确率和效率得到显著提升。针对复杂背景、模糊文字、手写字体等难点问题,OCR技术不断优化,提高了识别的精度和稳定性,进一步满足了用户的多样化需求。
综上所述,在信创背景下,OCR技术的需求不断增长,其国产化、自主可控、高效准确的特点使其在各行业的应用前景广阔。
二、国产麒麟操作系统
银河麒麟桌面操作系统V10 SP1是一款基于Linux开发的图形化桌面操作系统,由麒麟软件有限公司发布,旨在满足国产软硬件平台的需求,并实现了多项技术突破和优化。以下是对该系统的详细简介:
系统概述
- 开发背景:银河麒麟桌面操作系统是在“863计划”和国家科技重大支持下,由中国国防科技大学研发,后由天津麒麟和上海中标软件有限公司合并而成的麒麟软件有限公司继续开发和维护。
- 版本更新:V10 SP1是银河麒麟桌面操作系统的加强版,于2021年10月27日正式发布,针对中国网信产业转型升级的实际需求,以及云计算和移动互联网进一步普及的产业大势下,进行了全面升级。
系统特点
- 多平台支持:
- 系统实现了同源支持飞腾、龙芯、申威、兆芯、海光、鲲鹏等自主CPU及x86平台,提供广泛的硬件兼容性。
- 新增了对龙芯3A6000、飞腾D3000、兆芯KX-7000等处理器的支持,以及709 GP201、芯瞳GB2062等显卡和苏州速通SCM26205无线网卡的支持。
- 用户体验:
- 提供类似Win 10风格的用户界面,操作简便,上手快速。
- 在国产平台的功耗管理、内核锁及页拷贝、网络、VFS、NVME等方面进行了优化,系统加载迅速,稳定性和性能大幅提升。
- 桌面环境改进,包括优化文件管理器、任务栏、账户管理、登录、网络、声音、显示和触控等功能,提升用户体验。
- 生态兼容性:
- 精选数百款常用软件,同时兼容支持2000余款安卓应用,补全了Linux生态应用短缺的短板。
- 与数千家合作伙伴携手,实现适配认证的软硬件生态产品从一万余款迅速突破十万款,涵盖了桌面办公、影音娱乐、工控设计、网络安全、协同管理、行业软件等几乎所有门类。
- 安全性:
- 作为国内外首款实现具有内生安全体系的操作系统,银河麒麟V10 SP1创新研发了外来代码主动防御技术和数据保护技术,自研KYSEC安全机制,采用内外一体化安全体系,提供集中安全管控,实现从内核到应用的多维度安全保护。
- 支持昆仑固件安全启动,优化防火墙规则命名,升级Kysec至v1.5版本,进一步提升系统安全性。
- 易用性:
- 提供轻量级桌面,易操作、上手快。
- 创新基于插件模式实现系统主题、桌面、任务栏、开始菜单等桌面组件的并行加载。
- 系统界面增加可自由切换的夜间模式以保护视力,并加入云账户功能,实现应用软件和系统的一键同步。
- 新功能和特性:
- 支持蒙古文和繁体语言,应用可选择不同设备播放声音,支持色温自动调节,
- 系统安装和桌面环境修复了多项问题,提升了系统的稳定性和可靠性。
应用领域
银河麒麟桌面操作系统V10 SP1凭借其卓越的性能和创新的功能,广泛应用于政府、金融、教育、财税、公安、审计、交通、医疗、制造等多个领域,为用户提供安全、流畅、个性化的操作系统体验。同时,该系统也支持工业自动化领域的工控机,助力企业实现数字化转型和升级。
综上所述,银河麒麟桌面操作系统V10 SP1是一款功能强大、安全可靠的国产操作系统,能够满足不同用户在不同场景下的需求。
三、PaddleOCR在麒麟系统中的绿色部署
首先麒麟官方网站下载相关的操作系统镜像,使用虚拟机安装银河麒麟桌面操作系统V10 SP1。选择试用银河麒麟操作系统,然后进入到桌面。
复制PaddleOCR_Linux_4.4.0绿色文件包到麒麟操作系统桌面内。
离线绿色部署包内包含OCR的模型文件,以及所有的.so依赖库。一个由.net6.0编译的调用OCR示例控制台程序。
启动命令:
LD_LIBRARY_PATH=./lib ./ConsoleAppNET
也可以运行run.sh文件,
效果如下:
perfect
离线、绿色、高性能、极简部署OCR
.net示例极简代码,仅一行即可
Console.WriteLine(new PaddleOCRSharp.PaddleOCREngine().DetectText("test.jpg").Text);
四、PaddleOCR介绍
PaddleOCRSharp 是一个基于百度飞桨PaddleOCR的开源代码修改并优化的.NET版本OCR可离线使用类库。项目核心组件PaddleOCR.dll,由C++编写,根据百度飞桨PaddleOCR的C++代码修改并优化而成。目前已经支持C++、.NET、Python、Golang、Rust等众多开发语言的直接API接口调用。项目包含文本识别、文本检测、表格识别功能。本项目针对小图识别不准的情况下做了优化,同时做了其他优化,比飞桨原代码识别准确率有所提高,速度更快。包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持中英文、纯英文以及多种语言文本检测识别。
PaddleOCRSharp封装极其简化,实际调用仅几行代码,极大的方便了中下游开发者的使用和降低了PaddleOCR的使用入门级别,同时提供不同的.NET框架使用,方便各个行业应用开发与部署。Nuget包即装即用,可以离线部署,不需要网络就可以识别的高精度中英文OCR。
本项目支持官方所有公开的通用OCR模型,PPOCRV2、PPOCRV3、PPOCRV4。
★windows系统支持:win7SP1、win10、win11、winserver2012R2、winserver2016、winserver2019、winserver2022等
★linux系统支持(付费支持):统信UOS、麒麟、ubuntu等。
支持智能标注
可视化训练工具
五、结束语
PaddleOCR部署采用C++编码,具有以下特点:
高性能:
PaddleOCR基于PaddlePaddle深度学习框架,后者具有强大的计算性能和高效的并行计算能力。这使得PaddleOCR能够快速处理大规模的文本识别任务,尤其适用于需要高速处理大量图像数据的场景。
通过C++的部署方案,PaddleOCR能够进一步利用C++的高性能特性,优化内存管理和计算效率,从而提升整体性能。
多功能性:
PaddleOCR支持多种文本识别任务,包括文字检测、文字识别、场景文字识别等。这些功能通过C++的部署方案同样可以得到支持,满足不同场景下的文字识别需求。
此外,PaddleOCR还支持多种语言和手写体的识别,进一步扩展了其应用场景。
易用性:
PaddleOCR提供了简洁易用的API接口,方便开发者在C++环境中快速部署和使用OCR功能。
同时,PaddleOCR还提供了详细的文档和示例代码,帮助开发者快速上手并进行二次开发。
开源免费:
PaddleOCR是开源项目,其代码和模型都可以免费获取和使用。这意味着开发者可以根据自己的需求自由修改和定制PaddleOCR,以满足特定的应用场景。
支持定制化和扩展:
开发者可以根据自己的需求选择合适的PaddleOCR模型,并进行定制化和扩展。例如,可以通过训练自己的模型来优化特定场景下的识别效果。
此外,PaddleOCR还支持多种后端和前端技术的集成,方便开发者将其嵌入到自己的应用系统中。
通过结合PaddlePaddle深度学习框架的强大功能和C++的高性能特性,PaddleOCR能够为用户提供高效、准确、易用的OCR解决方案。
欢迎扫码关注微信公众号,或者加入QQ群,了解更多内容。
标签:识别,PaddleOCR,麒麟,离线,支持,超赞,C++,OCR From: https://www.cnblogs.com/raoyutian/p/18382439