人工智能(Artificial Intelligence,AI)已经不是什么新概念,第三次浪潮于2016年AlphaGo战胜李世石为标志正式开启,至今也已经走过6个年头。
发展至今,AI已经进入老百姓的日常生活,比如随处可见的人脸识别、大数据杀熟的猜你喜欢、翻译神器同声传译以及这两年火出天际的无人驾驶等等。这些场景或是因为C端市场巨大,利润回报丰厚;或是因为产业规模巨大,想象空间无限;纷纷成为了AI产业关注和发展的重点领域。那相对小众和偏门的档案行业呢?是不是也存在AI应用的典型场景?
答案是肯定的。笔者曾经在2018年整理过AI+档案的应用场景,如下图所示:
至少表面上看起来,不管是图像识别、语音识别还是自然语言处理(NLP)、机器人和档案业务还是有很多结合点的,但实际情况并没有这么乐观,AI在档案领域的应用落地还有很长的路要走。下面,笔者就用两个档案从业人员耳熟能详的功能需求结合自己的亲身经历来聊聊AI+档案的实施过程。
一、需求描述
笔者接触的两个智慧功能点都和档案数字化加工成果有关,属于AI领域中最古老、最成熟、最容易见效的图像识别领域。
01
数字化加工成果自动质检
需求来源于东北某档案馆。我还清楚地记得2018年的某一天,馆长抓着我的手就像是找到了大救星,一定要带我去他们馆的数字化加工现场察看。确实,一线质检人员纯人工检查扫描图像质量,每人每天要看几千幅档案图像,从中挑出存在质量问题的图像,眼睛都快要看爆掉了。
图像质量问题五花八门,比如整体偏斜、存在黑点/黑边/装订孔、图像倒置、缺页漏扫、部分区域字迹模糊、部分区域未扫描/有折痕、不同区域清晰度/明暗度存在明显差别等等。
图像偏斜和图像倒置示例如下图所示:
当然,以上只是给出了两个比较典型并且相对比较容易处理的示例,实际的情况肯定要复杂得多。问题在于:即使AI能够过滤掉80%以上存在明显错误的图像,对于质检人员而言,剩下不到20%存在问题的图像依然需要人工检查,照例是大海捞针般地逐页检查,工作量并没有实质性的降低。除非AI能够过滤掉质量允许范围内的错误图像(比如98%以上),甚至漏检率低于1%,这样的话质检人员就不需要再逐页检查,只需要按照一定比例抽检就可以了,从而大幅度降低质检工作量。
02
带密数字化副本智能鉴别
需求来源于华东某档案馆。2019年有幸和馆长在福州数字中国的某一次会议上碰面,聊起这个事情,当时我个人判断这个需求应该可以实现,当然需要找国内头部的AI厂商协助,我们自己是没有能力做的,于是答应馆长在深入调研之后再出具一个解决方案。后来在需求调研并与AI厂商沟通之后,发觉问题没有我想象中那么简单。
带密数字化副本图像示例如下所示:
同样,这里只给出了两种情况的示例,实际的情况要复杂得多,密级标识的形状包括但不限于:圆形、方形、椭圆形、钢笔手写、毛笔手写、无框等等,还要区分黑白和彩色。馆内大约有2000万页已鉴定为开放的档案图像拟通过互联网面向社会公众提供档案利用服务,但是其中混杂了部分带有密级标识的数字化副本。按照档案利用相关规定,有密级标识的档案不能提供公众利用,需要完成对档案的解密且添加解密标志(或遮盖“密级标识”)后才能提供给公众利用。可以想见,如果采用人工方式对这2000万页档案图像进行排查,工作量有多大,需要雇佣多少人员,花费多少时间。
二、沟通过程
笔者带领技术团队一方面梳理需求,一方面和国内AI代表性头部厂商(科大讯飞、商汤科技、阿里达摩院)进行了技术和商务沟通。沟通结果比较一致,总结起来主要包括以下几点:
01
这两方面需求都是专业领域的特殊需求,目前没有可供参考借鉴的成熟模型,需要组织团队,投入力量进行建模、训练、标注、学习;
02
技术基本判断是可行的,准确度的提升有一个迭代过程,达到理想的程度需要一段时间,预计半年左右;
03
由于这是一个具体项目,不是公司的战略方向,在资源调配投入上优先级不会排在很前面,除非项目标的很大;
04
两个需求的费用差不多,分别都在千万元人民币以上,低于千万做不了。
最终由于报价和客户的心理预期差距太大,这两个具有典型代表性的AI+档案项目胎死腹中,客户最终还是通过纯人工的方式继续推进,放弃了AI+档案解决方案。
看到这里,我不知道读者是什么感受,但是笔者可以很负责任地说,这三家头部AI厂商并没有瞎报价,如果按照单个定制项目去评估工作量和报价,确实在千万级别。
笔者曾经代表原公司和阿里达摩院有过战略合作,2018年的时候也有幸去达摩院做过一次现场技术交流,当时坐在我们对面的大概有10来位达摩院的同学(阿里的员工都叫“同学”),会后,负责和我们对接的同学对我说:你不要看刚才开会坐在你对面的有些同学很年轻,像是刚走出校门的样子,但他们的月薪没有低于5万人民币的!
上述两个需求如果按照定制项目来实施,假设达摩院组建了一个10个人的团队:
公司越大,分工越细,10个人的团队一点都不夸张,如果这个项目实施6个月(也就是60个人月),按照平均每人月的成本10万元(平均工资按照7万元/人月计算,加上社保就差不多10万了,还没有计算公司的其他公摊成本)计算,就是600万元了!
这还仅仅是达摩院内部人员的成本,AI项目的成功实施还不是AI厂商一方就能搞定的,还少不了数据标注、训练学习的外包团队!况且还有差旅、会务等其他成本。所以,低于1000万的项目对于这些AI头部厂商而言确实做不了,况且对他们来说个性化定制出来的项目成果还没有多少推广价值。
三、无人工不智能
“人工”与“智能”到底是什么关系?关于这点最经典的回答是“无人工不智能”。
这是因为在很多人工智能项目实施过程中往往需要花大量的时间和精力完成对用于训练AI的数据的处理。之后这批被人工处理过的数据将被用于“训练”AI。这种人工处理生成的数据的质量越高,量越大,AI的训练效果就越好。由于对最原始的数据处理往往并没有明确的可以让机器理解的规则,所以这部分原始数据的处理不得不依赖人工介入。而且,AI的训练、学习、改进、完善是一个反复迭代的过程,所以,同一个模型的训练可能需要反复好几次,由人工找出并标注早期AI识别过程中的错误,使其不断提高准确率。
这是一张人工智能数据标注现场的照片,他们才是真正的幕后英雄。可能很多人都想不到,那么多光鲜亮丽的AI智能应用场景背后实际上是用人工堆出来的,有多少人工就有多少智能!
作为一个相对小众和偏门的行业,现阶段AI+档案只能在一些大众化、通用化的场景中先进行应用,这样实施成本会低很多,比如人脸识别、语音识别等。客观地讲,要在专业领域中定制AI功能满足特定需求,代价太大,尚需时日。