信息内容洪流中何去何从(第五章 内容安全基础)
依我看来,本章节围绕网络空间安全中一个重要关键词“信息内容安全”展开了详细论述。
个人梳理了此章节的整体逻辑框架,大致可分为是什么,为什么和怎么做三个方面来展开
是什么
信息内容安全的背景
互联网朝着开放性、异构性、移动性、动态性、并发性的方向发展。
数据爆炸式增长,数据内容成为互联网的中心关注点。
互联网上有各种不良信息流传以及不规范行为的产生,原因有两大类:1.相关方面的规范和管理措施未能同步发展,2.思想碰撞
其实,联系实际,我们也能发现自己有时在信息洪流中不知所措,而内容的正确性和参考价值又往往不容乐观,与此同时,我们自身的个人信息也很难得到全面的保护。
处处皆隐患,我们应当何去何从?
信息内容安全的概念
信息内容安全:研究利用计算机从包含海量信息并且迅速变化的网络中对特定安全主题相关信息进行自动获取、识别和分析的技术。
为什么
我们为什么需要信息内容安全技术?
因为我们内容安全对于每个人的隐私保护至关重要、对维护社会舆论至关重要,并且正面临着许多威胁。
内容安全面临的威胁:
1.泄露、欺骗、破坏和纂夺
2.恶意用户产生并传播的恶意内容
为什么会泄露?
互联网中有大量的公开信息,例如某人的姓名、工作单位、地址、电话号码等,这些公开信息获取成本低,可以被整合并且滥用。
针对于在线社交媒体平台,有以下集中恶意用户的攻击值得注意:
1.Spam用户:创建大量的虚假账号,在邮件或者网页中推荐一些网页链接来欺骗有道用户进入推荐的网站或者恶意网站。
2.Sybil用户:由少数节点控制多个虚假身份,能破坏分布式存储系统中的冗余机制,能削减网络的冗余性,降低网络健壮性,监视或干扰网络正常活动等。
3.水军用户:通过评论或转发参与热点话题,以大量有情感倾向的评论影响舆论态势。
怎么做
那么,我们应该如何保护内容安全呢?
首先,我们应该了解网络信息内容是如何获取的,如何分析处理,了解内容中心网络的概念,进而根据此做出合理的网络舆情内容监测与预警。
网络信息内容获取
目前主要有两种获取技术:采用网络交互过程编程重构机制实现网络媒体信息获取;浏览器模拟技术
典型工具是爬虫,学习爬虫需要掌握Python编程技术。
获取到了信息,还需要进行信息内容特征抽取与选择。
对于文本信息,主要是使用特征选择,涉及到的相关技术由信噪比分析和卡方统计。
对于音频信息,需要充分地分析和提取其物理特征、听觉特征和语义特征,音频检索方面的研究由语音检索、音乐内容检索和音乐例子检索等。
对于图相信息,主要进行图像颜色特征提取和图像纹理特征提取。
信息内容分析与处理
分析处理的基本环节:分类和过滤
如何分类?
由浅入深+借助工具
工具:线性分类器,最近邻分类法,支持向量机
关于过滤:
过滤可分为用户兴趣过滤和安全过滤
主要有以下几个应用方面(贴合实际)
1.Internet搜索结果的过滤
2.用户电子邮件过滤
3.服务器、新闻组过滤
4.浏览器过滤
5.专为未成年人的过滤
6.为客户的过滤
内容中心网络及安全
内容中心网络CCN提供面向内容本身的网络协议,在解决当前联网模式上有巨大潜力。
内容中心网络架构摒弃以IP地址为中心的传输架构,采用以内容名称为中心的传输架构。
主要构成:
1.内容信息对象:CCN的关注焦点,可以是网页、文档、电影、照片、歌曲、流媒体和互动媒体
2.命名:信息对象的标识
3.路由:发送方不直接向接收方发送内容消息,通过发送兴趣包来请求内容信息对象
4.缓存:路径上缓存
5.应用程序编程接口:根据请求和交付内容信息对象定义
而对此也有相应的攻击:
1.命名相关攻击
2.路由相关攻击
3.缓存相关攻击
4.其他攻击
了解了以上这些,下面进入网络舆情内容检测和预警
网络舆情内容监测与预警
主要完成互联网海量信息资源的综合分析,提取支持政府部门决策所需的有效信息
发展趋势:
1.针对信息源的深入信息采集
2.异构信息的融合分析
3.非结构信息的结构化表达
舆情系统的功能分解:
1.高仿真网络信息深度提取技术
2.基于语义的海量媒体内容特征快速提取与分类技术
3.非结构信息自组织聚合表达技术
互联网舆情信息监控系统充分应用网络协商与人机对话模拟等现金技术,基于专项研发的“定点网站深入挖掘”机制,实现针对系统目标站点发布内容的全面获取。