首页 > 其他分享 >小时级实时数据仓库构建方法_A项目

小时级实时数据仓库构建方法_A项目

时间:2023-11-19 19:31:40浏览次数:27  
标签:分析 热词 数据仓库 舆论 redis 实时 构建 舆情 互联网

项目描述 天亮舆情是一个简单易用的互联网舆论分析平台。通过对互联网常见的舆论信息传播媒介进行采集分析,提供了实时舆情、情感分析、地域统计及事件脉络等数据与分析能力,助力客户把握时事脉搏。用户只需设置关键词即可实现对全互联网的信息进行检测分析。通过该产品可以满足用户对网络舆情对网络舆情监测和热点事件专题追踪等需求!

项目背景 为了帮助客户全面掌握舆情动态,正确进行舆论引导,为确保我国互联网络大众媒体的舆论导向的正确性起到了一定的辅助作用,实现为政府分忧,对网络舆情进行监控和管理。用舆情系统,宣传部门可以有效的规范互联网信息,引导健康有益的舆论导向。系统对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意起决定性作用。

项目功能 通过spark streaming 消费到kafka中的实时数据,针对数据计算了微博数据每分钟的uv和pv。 计算了近一个小时的热词,滑动窗口设置的是5分钟。 将计算结构同步到redis中 定期将redis的数据写入hbase,进行数据持久化,供前段展示。 功能亮点 热词统计时,使用了自然语言处理 统计用户uv的时候,使用到了redis的hyperloglog 使用了redis的连接池,把redis提出到partition那一层 社会价值-企业价值 在政府机关单位,他们可以对自己发表的一些政策,或者针对当下热词进行舆论分析 用在各种企业,他们可以分析当前大家对于他们产品或者服务的看法 用在高校里。

标签:分析,热词,数据仓库,舆论,redis,实时,构建,舆情,互联网
From: https://blog.51cto.com/u_15806490/8475477

相关文章

  • 14_DS1302实时时钟
    DS1302实时时钟介绍引脚定义和应用电路内部结构框图寄存器定义时序定义BCD码LCD1602显示年月日时分秒星期信息DS1302.c#include<REGX52.H>#include"DS1302.h"sbitDS1302_SCLK=P3^6;sbitDS1302_IO=P3^4;sbitDS1302_CE=P3^5;#defineDS1302_SECOND0x80......
  • 探索人工智能的世界:构建智能问答系统之实战篇
    引言前面我们已经做好了必要的准备工作,包括对相关知识点的了解以及环境的安装。今天我们将重点关注代码方面的内容。如果你已经具备了Java编程基础,那么理解Python语法应该不会成为问题,毕竟只是语法的差异而已。随着时间的推移,你自然会逐渐熟悉和掌握这门语言。现在让我们开始吧!环......
  • 构建二叉树
    构建二叉树本文图文并茂讲解从前序遍历、中序续遍历构建二叉树或者从后序遍历、中序续遍历又或者从前序遍历、后序续遍历构建二叉树的原理,比附上相关的习题。图解链接:飞书图解链接......
  • 关于maven构建tomcat服务器一直启动不了的问题解决
    以往我都是创建maven项目后自己去配置web,再通过自己配置以下信息之后,配置tomcat。最终结果是始终报错 之后摸索发现,可以在maven项目配置前将以上“maven主路径,用户设置文件,本地仓库”信息确定好。 在弹出的页面设置好后,再创建maven项目便省时很多,tomcat配置后可以使用 ......
  • 关于 Angular 构建之后生成的 dist 目录和 esm2020, fesm2015 等等
    在Angular应用中,dist目录是构建应用后的输出目录,其中包含了已编译、打包和优化的应用文件。assets文件夹通常用于存放应用所需的静态资源,如图片、字体、配置文件等。esm2020、fesm2015和fesm2020是Angular构建过程中生成的文件夹,它们主要与Angular的模块加载系统和代码优化有关。......
  • Nodejs打包构建时长优化
    优化策略底层软件硬件调整CI过程中主要的压力还是集中在IO方向,增加CI节点提高整个CI池子的容量,把之前节点使用的硬盘更换为SSD可以增加IO吞吐量。同时把用于CI的node节点在K8S集群中隔离开来,让CI服务独享这些资源避免与其他资源发生抢占。CI工作台优化优化CI工作台的代码,减......
  • Apache Kylin4 分布式的分析型数据仓库
    https://kylin.apache.org/cn/docs/index.htmlApacheKylin4概述欢迎来到ApacheKylin™AnalyticalDataWarehouseforBigDataApacheKylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc......
  • 探索人工智能的世界:构建智能问答系统之环境篇
    引言在之前的一篇文章中,我们已经对项目所需的知识点进行了简单的了解。今天,我们将开始搭建整个项目的环境。在接下来的文章中,我们将详细介绍如何配置项目所需的各种工具和环境,以确保项目的顺利进行。部署接下来,你可能需要多次重启电脑来确保环境变量的生效。这是必要的,因为在进......
  • 探索人工智能的世界:构建智能问答系统之前置篇
    引言在开始开发之前,我们首先要了解我们将会接触到的编程语言和组件。我本身是一名Java开发者,虽然也有接触过C、C++和PHP开发语言,但在工作中使用的并不多。因此,为了本次开发,我们选择了Python作为开发语言。大家都是从零开始,只要你有编程知识,就可以和我一起学习。回顾一下我们需要......
  • 花 200 元测试 1300 个实时数据同步任务
    背景对于将数据作为重要生产资料的公司来说,超大规模的数据迁移同步系统(1k、5k、10k条同步任务)是刚需。本文以此为出发点,介绍近期CloudCanal所做的一个容量测试:在单个CloudCanal集群上创建1300实时任务,验证系统是否健康。这个健康度主要包括同步任务是否运行正常、页......