首页 > 其他分享 >非结构化数据怎么治理?

非结构化数据怎么治理?

时间:2022-10-21 11:00:48浏览次数:88  
标签:结构化 哪些 才行 治理 数据 知道

非结构化数据怎么治理?_数据

编 辑:彭文华

彭友们好,我是老彭。最近遇到几个项目,都跟非结构化数据脱不开关系。

老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。

真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。

但是现在已经发展这么多年了,大多数企业结构化数据多少有些基础了,非结构化数据治理还是一片空白。今天就唠唠这个话题~~

非结构化数据怎么治理?_结构化_02

非结构化数据

这里说的非结构化数据特指:

1、公文、研究报告等各种文档

2、监控视频等各种音视频

3、设计图等各种特殊文件


这些东西想想就很费劲。与数据库里的结构化数据不一样,这些数据的问题更严重。我们随便想想都能罗列几个出来:

1、没有统一存储(各种附件,各种微信传输)

2、没有统一标准(都是各自写的文件)

3、数据种类特别多(除了结构化的,都是非结构化、半结构化的)

4、法外之地,治理盲区(第一次知道处理非结构化数据的方法是TF/IDF词频统计,第一次知道非结构化应用是词云)

5、没人管,不知道怎么管(有档案管理室、档案管理员的企业非常非常少)

如果你原意,自己都还能再列个十条八条的。总之,这就是个巨坑!

非结构化数据怎么治理?_结构化_03

非结构化数据治理

其实按我说,绝大多数企业的非结构化数据还远远没有具备“治理”的前期条件。

因为他们连数据都还没准备好,全都散落在各个地方,你就说怎么治?

对于结构化数据,我们知道要盘点,要做标准,要弄主数据,要梳理指标,要做质量控制。因为我们知道数据就在那几个库里。

不管数据库有多少个,表有多少张,我们知道,数据就在那里。但是非结构化数据不一样啊!鬼知道在哪里!

有档案管理室、知识中心的公司,还算好的,不管全不全,总归有个集中的地方。

但是更多的,都是各自存储:OA、邮箱、云盘、个人存储,到处都是!没法弄!

所以,想要做非结构化数据治理,第一步是什么?数据盘点吗?数据汇聚吗?

NONONONONO!

首先要做的,是对企业的非结构化数据的分布进行梳理,知道哪些是我们治理的重心才行!

非结构化数据怎么治理?_数据库_04


你就说,这么多各种非结构化数据,哪些多,哪些少?哪些重要,哪些次要?哪些先治理?哪些后治理?哪些对业务影响大?哪些对业务影响小?哪些价值大?哪些价值小?

这些问题都不搞清楚,就闷头干活,谁知道你干了半天是不是有效的?

你可能会问了,那搞清楚了这些,是不是就该汇聚数据了?

NONONONONO!

还是不行。还是那句话,你得有一个牵引才行。一般来说,最好是应用牵引比较好。跟数仓建设逻辑一样,自下而上建设见效快。

第一个项目,必须速胜!给所有人信心才行。否则遥遥无期,谁都受不了。

所以第二步应该是根据业务,拟定一个合适的应用,然后再快速收集部分数据,用NLP等技术将非结构化数据结构化,然后再利用数据库、大数据、图计算等技术处理数据,做出一两个能看到效果的应用。

比如这个:

非结构化数据怎么治理?_数据库_05

在报销场景中,用OCR识别,用RPA进行发票验真、数据校对,实现快速报销、记账。

这样就能帮助哥们解放报销的时间了:

非结构化数据怎么治理?_数据_06

非结构化数据怎么治理?_数据_07

小结

非结构化数据管理很难,非常难,不管是技术还是管理,都比结构化数据难上N个量级。工作的方式方法也完全不一样,需要慎重!一定要慎重啊!!!


非结构化数据怎么治理?_结构化_08

排版 | 老彭

审校  主编 | 老彭



标签:结构化,哪些,才行,治理,数据,知道
From: https://blog.51cto.com/u_13626906/5781606

相关文章

  • 如何精准识别主数据?
    编 辑:彭文华​彭友们好,我是老彭啊。最近有彭友跟我欲言又止,吞吞吐吐不知道要干啥。我明白,他是有问题了。绕了半天,他才问:怎么才能精准识别主数据呢?我一看这个问法,肯定是遇到......
  • 父组件为子组件传递数据(静态数据)
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><metahttp-e......
  • qgis连接postgis,将空间数据导出为shp格式
    之前遇到了一个需求,需要将postgis中GIS数据导出成shapefile文件参考:https://jackie-sun.blog.csdn.net/article/details/124140827?spm=1001.2014.3001.5502......
  • Vue中使用Switch开关用来控制商品的上架与下架情况、同时根据数据库商品的状态反应到
    一般后台对商品的信息管理、包含商品的上架与下架。为了提高用户的体验、将商品上下架的操作做成开关的形式。同时后台数据库中保存的商品状态能够根据开关状态改变。1......
  • 权昌TSC244条码打印机如何加载数据实现大批量打印呢?
    我公司的TSCTTP-244条码打印机,只会改个名称打一张,怎么样改数据或者是加载数据实现大量打印的呢? 解答: TSCTTP-244条码打印机,是一款性能不错的桌面型条码打印机,最大......
  • Golang基础-变量与数据类型
    变量变量的定义1.声明2.赋值3.使用//声明:var变量名变量类型varnamestring//赋值:name="xiaoming"//使用:fmt.Println(name)//声明+赋值//var变......
  • 神通数据库安装配置方法
    神通数据库安装配置方法背景随着CentOS停服和国产化的要求.公司开始调研国产化系统.好多人都想用debian和ubuntu.但是我感觉既然要国产化.还是用华为的openEluer阿......
  • JavaScript实现数据结构 -- 栈
    栈栈是一种==后进先出==的数据结构。JS模拟栈虽然JavaScript中没有栈,但是我们可以用数组来实现栈的功能。 //定义一个数组用来模拟栈 conststack=[]; //用数组......
  • JavaScript实现数据结构 -- 队列
    队列队列是一个先进先出的数据结构。JS模拟队列虽然JavaScript中没有队列,但是我们可以用数组来实现队列的功能。 //用数组来模拟队列 constqueue=[]; //入队 q......
  • JavaScript实现数据结构 -- 链表
    链表链表和数组一样是有多个元素组成的列表;不同的是链表元素存储不连续,用next指针连接在一起;链表的特点插入、删除不需要移动元素;不必事先分配存储空间;所需空间与长......