首页 > 其他分享 > 关于“档案大数据”的非主流看法

关于“档案大数据”的非主流看法

时间:2023-02-14 11:02:04浏览次数:42  
标签:非主流 档案 看法 电子 数据量 归档 价值 数据

近日,反复拜读了前国家档案局局长杨冬权先生今年6.9档案日的大作《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》,作为档案信息化从业者那真是倍感振奋,壮怀激烈!

 

 关于“档案大数据”的非主流看法_鸿翼档案

 

这篇文章绝对可以用气势磅礴、高屋建瓴这样的词语来形容,体现出作者俯瞰全局的站位和洞悉全场的眼光,让笔者深深折服。但是笔者对于文中提到的“全时代”中的“立档单位对所形成电子档案的全归档”这一观点还是存在不同看法,这与笔者一直以来萦绕心中、挥之不去的关于“档案大数据”的非主流观点存在交集,借此机会一吐为快。

 

 

“立档单位对所形成电子档案的全归档”

 

首先我们来分析一下“立档单位对所形成电子档案的全归档”这句话,笔者个人觉得这句话是存在一定语病的,“电子档案”应该是归档之后的产物,归档之前的应该是“电子数据”、“电子信息”或者“电子文件”,所以准确地说,这句话改为“立档单位对所形成电子数据的全归档”更加合适。结合文中提到的“很多信息部门、数据部门的电子信息、电子数据,目前也都是‘全部性管理’而不是‘选择性管理’的。这些电子信息、电子数据不都是电子档案吗?”进一步印证了笔者的看法,那就是作者提出的“全时代”的要求是将所有电子信息、电子数据全部纳入归档范围,实现“立档单位对所形成电子数据的全归档”的目标。

 

在笔者看来,这个目标非常宏伟,但感觉有些理想主义,在实际工作中很难落地,且不说档案部门自身有没有能力实现“全归档”,从职责分工上而言,也很容易受到质疑:档案部门的手是不是伸得有点太长了,会不会动了信息部门的奶酪?
 

 

“档案大数据”

 

当然,在本文中我们主要讨论“档案大数据”,对于上述问题不作进一步深入讨论。如果真的能够实现“所有电子数据全归档”,那毫无疑问,档案部门留存的电子档案必然是海量(EB),甚至是天量(ZB)级别的,妥妥的“档案大数据”。但问题是,最终归档进入档案部门的数据量并不大,从全国范围来讲也只有PB级,分解到每个单位,基本上都只有TB级,那还能称之为“档案大数据”吗?

 

我们以各级各类档案馆为例进行说明,档案室的情况类似。根据国家档案局发布的《2020年度全国档案主管部门和档案馆基本情况摘要》,全国共有各级各类档案馆4233个,馆藏电子档案1387.5TB,其中,数码照片390.2TB,数字录音、数字录像523.5TB。馆藏档案数字化成果19588.5TB。也就是说全国4233个各级各类档案馆截止到2020年年底的总数据量只有21PB!平均每家单位只有约5TB数据!

 关于“档案大数据”的非主流看法_资源库_02

不可否认,从发展趋势上来看,各行各业都已经或者即将进入大数据时代,但至少到目前为止,对于档案行业而言,暂时还不需要为“数据大爆炸”过分担忧,哪怕是全面“单套制”之后大量电子文件进入档案部门,我们依然有充足的时间来比较、选择其他行业应用比较成熟的大数据技术和解决方案去应对未来的挑战。如果有人在大肆鼓吹“档案大数据”的必要性和紧迫性,那得思考一下他们的动机了,是不是又在制造和贩卖焦虑。

 

 

档案数据&大数据

 

说到这里,我们还是回过头来对照一下大数据的定义,看看档案数据和大数据的区别和联系,以便读者作出自己的判断。

2012年IBM提出的大数据4V特征已经深入人心,后续出来很多5V、6V的版本都是4V基础上的变种,认可度和普遍接受度肯定没有4V那么高。那我们就来对照一下档案数据是否具备大数据的4V特征:

 关于“档案大数据”的非主流看法_鸿翼档案_03

 

 Volume数据量大

到底多大的数据量才能被称之为是大数据?这实际上也没有一个明确的定义,而且是相对变化的,门槛肯定会越来越高。就现阶段而言,笔者认为100TB以上的数据量称为大数据是比较合适的,显然档案部门目前能达到这个数据量的凤毛麟角。

 

 Velocity要求快速响应

对数据的实时性要求很高,能及时快速的响应变化,不管是数据处理还是数据分析在性能上都有很高要求。这方面对于档案数据而言问题不大,目前档案信息化系统大部分都是目录检索、全文调阅,档案信息资源库以关系型数据库为主构建,响应速度完全可以满足要求。

 

 Variety数据多样性

数据来自不同的数据源,非结构化数据越来越多,需要进行清洗、整理、筛选等操作,将其变为结构化或者半结构化数据。数据多样性对于档案数据而言是客观存在的,由于前端系统中的数据来源四面八方、数据类型五花八门、数据格式千姿百态、数据流向千变万化,如何将其中有价值的、待归档的数据完整收集、有效管理、妥善保存、安全利用是各级档案管理部门都面临的现实问题。但是这项工作要求在归档环节完成,最终进入档案信息资源库的都是规范的、有价值的、符合档案四性要求的数据。当然由于档案类型多种多样,档案信息资源库中除了相对规范的目录数据之外,也会存在大量文本、图形、图像、音视频、多媒体等各种格式的全文数据。

 

Value价值密度低

数据量大而价值密度低,数据中蕴含价值但整个过程如同沙里淘金、大海捞针。这一点存在较大的争议,有人为了突出大数据中蕴藏的价值而将这个V直接解释为“数据价值”,这实际上有失偏颇,也是对大数据技术的不尊重。事实上,要从海量数据中挖掘出其中的潜在价值是非常有难度和挑战的事情,相当于从一座“贫矿”中提炼黄金。但是档案数据的质量和价值密度远高于常规的大数据,相当于是一座“富矿”,甚至可以称之为“钻石矿”!

 关于“档案大数据”的非主流看法_鸿翼_04

 

通过上述对照,我们可以发现,档案数据实际上和常规意义上的大数据存在很多不同之处,是否就能称之为“档案大数据”值得商榷。主要的不同点如下:

1. 绝大多数档案部门中现有档案数据量尚未达到大数据级别,现阶段采用传统关系型数据库存目录,文件系统存全文的方式建设档案信息资源库并开发数字档案馆(室)应用系统已经能够满足要求;

2. 虽然档案数据的来源复杂,格式多样,但进入档案信息资源库的都是已经归档处理、整理完毕的规范数据,大数据面临的海量异构非结构化数据高速处理和响应的场景并不存在,采用大数据技术来构建档案信息资源库完全没有必要;

3. 档案数据是高价值密度的数据,每一件档案都具有独特性和唯一性,都具有与生俱来的凭证价值和情报价值,所以档案数据中不存在没有价值的数据,这和低价值密度的大数据存在天壤之别。如果说大数据属于沙里淘金,因此需要专业而强大的大数据技术支撑,那么档案数据就相当于遍地是黄金,只需要客观、真实、准确的提供利用服务即可。

 

 

回归文章

 

我们再回到《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》这篇文章,文中有这样一句话:“在这个时代,任何数据或档案都不是无用的,它都是大数据的一部分,都可以给依据大数据所作的科学分析、科学预测、定向推送、人工智能、智慧管理等作出贡献。”通过上述分析,对于这句话我们可以这样理解:

1. 档案数据是大数据的一部分,这肯定没有错;但档案数据本身是不是就构成了档案大数据,这不一定;

2. 档案数据本身就有价值,不是因为档案数据纳入大数据之后才具有价值;但借助大数据技术可以进一步挖掘并发挥档案数据的价值。

 

 

写在最后

 

最后,我们想说的是,尽管现阶段档案数据可能还称不上“档案大数据”,但毋庸讳言亦无法回避,大数据时代已经来临,必将对档案部门以及数字档案馆(室)建设工作造成巨大的冲击,机遇与挑战并存,我们既无需过分焦虑,要有“技术都是为业务服务”的平常心;也不能闭关自守,要有顺势而上的魄力和勇气。大数据技术现阶段可能在档案收集、管理、存储方面暂时发挥不了很大作用,但至少可以先从档案利用服务方面寻找突破口,通过对用户需求的深入分析,充分挖掘利用档案数据中潜在的价值,从而提升数字档案馆(室)的服务能力以及服务水平,实现利用智能化、服务个性化、交互自然化和信息可视化。

 关于“档案大数据”的非主流看法_鸿翼档案_05

 


标签:非主流,档案,看法,电子,数据量,归档,价值,数据
From: https://blog.51cto.com/u_14683015/6056171

相关文章

  • chatGPT对未来五年测试行业的看法
    chatGPT回答未来五年我们测试发展的方向问题:未来五年测试行业发展怎么样回答如下:预测未来五年测试行业的发展趋势是有困难的,但是一般认为,测试行业将继续发展,因为软件行......
  • “采访”ChatGPT看看它对我们GreatSQL社区有什么看法
    什么是ChatGPT?ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类......
  • 基于 WebGL 3D 的 HTML5 档案馆可视化管理系统
    前言档案管理系统是通过建立统一的标准以规范整个文件管理,包括规范各业务系统的文件管理的完整的档案资源信息共享服务平台,主要实现档案流水化采集功能。为企事业单位的档案......
  • 关于前端低代码的一些看法
    2022,低代码彻底火了,甚至火到面试都会问上一句“会低代码吗?”的程度,在整个互联网大裁员的背景下,无论你是否相信它是降本提效的利器,彷佛都不重要了。因为行业趋势总是这般浩......
  • 关于Net和Java的一些看法
    两个都是美好的语言,都有良好的生态支持。微软一直想让开发变得简单,导致封装的过度,C#程序员被爱护过头了,导致中级C#程序员只能对应初级Java程序员的,希望随着NET的持续更新,......
  • 【记录】对当前的一些看法
    通过对周围人的分析,可以发现,一般推荐以学校学习为主的人,都有这样的特征:1.本身自己的控制力不足。2.对事物的分析停留在自己的经验层面。3.无法对未来进行合理的预测并制定......
  • 个人电子资料如何管理?个人电子档案用手机笔记软件保存更高效
    在数字化时代,很多时候我们携带纸质版的个人资料并不方便,当我们需要随时使用个人资料的时候,也许电子版的资料可以帮助解决我们的燃眉之急。与传统纸质的个人资料和档案相比......
  • 《安富莱嵌入式周报》第289期:开源回流焊,首发开源跨平台电路仿真软件,用于电气化学的电
    ​​​​ 视频版:​​https://www.bilibili.com/video/BV1ND4y187ps​​  1、开源回流焊主控Github:​​https://github.com/UnexpectedMaker/ReflowMaster​​网站介绍:​......
  • Linux档案权限不目录配置
    如何改变文件属怅不权限:chgrp,chown,chmodLinux用户身份不群组记彔的档案在我们Linux系统当中,默认的情况下,所有的系统上的账号不一般身份使用者,还有那个root的相......
  • 关于 贪心算法 知友们的看法
    贪心算法的产生背景是什么?它主要解决的是哪一类的问题?这些问题可以总结成一个固定的什么样的模型?产生背景没了解过,但是我以前学建模的时候是这样理解的:贪心算法是一种思......