首页 > 数据库 >【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅

【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅

时间:2024-09-15 19:55:49浏览次数:3  
标签:数据分析 分析 教程 用户 情感 舆情 哔哩 Spark

文章目录

【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅

一、项目概述

二、研究意义

三、背景

四、国内外研究现状

五、开发技术介绍

六、算法介绍 

七、数据库设计

 八、系统启动

九、项目展示 

十、开发笔记

十一、权威教学视频链接


【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅

源码获取方式在文章末尾

一、项目概述

      该项目旨在基于Spark大数据处理框架,对哔哩哔哩平台的数据进行舆情分析和推荐系统的设计与实现。通过对海量视频、弹幕、评论、点赞等数据的采集和处理,项目将运用自然语言处理(NLP)、情感分析、推荐算法等技术,分析用户对热点事件、话题或视频的态度和情感倾向,并结合用户行为和兴趣,提供个性化的内容推荐。利用爬虫技术获取哔哩哔哩的相关数据,并使用Spark进行数据清洗、转换和存储。通过NLP技术对用户评论和弹幕进行情感分析,识别热点事件和用户情感倾向。通过分析用户的观看记录、点赞、收藏等行为,提取用户偏好和兴趣。基于用户的兴趣和舆情分析结果,构建个性化的推荐系统,向用户推荐相关内容。利用Spark Streaming对实现弹幕和评论进行分析,实现实时舆情监控与推荐。

二、研究意义

      哔哩哔哩作为中国领先的二次元文化社区和视频平台,汇聚了大量的用户生成内容(UGC),如弹幕、评论、点赞等。通过对这些数据的舆情分析,能够更好地掌握公众对热门话题、事件的态度和意见,有助于平台及相关机构及时应对潜在的舆论危机,同时提升平台内容运营和用户体验的能力。传统的推荐系统主要基于用户的历史行为进行推荐,而舆情推荐系统则结合用户的行为与当前舆情态势,能够更加精准地推送符合用户当前兴趣和情感需求的内容。通过情感分析、热点话题分析等技术,推荐的内容不仅能满足用户的长期兴趣,还能根据热点实时调整,提高内容的相关性和吸引力。通过Spark等大数据处理工具的应用,项目展示了如何在大规模数据环境中进行高效的数据处理、分析和实时计算。此系统结合了分布式计算、实时数据处理与推荐算法,展示了大数据技术在社交平台中的具体应用场景,为其他类似平台的技术开发提供了参考和借鉴。

三、背景

      哔哩哔哩(Bilibili)是中国领先的二次元文化社区和综合性视频平台,聚集了大量年轻用户,拥有丰富的用户生成内容(UGC),如视频、弹幕、评论、点赞等。随着平台用户量和数据规模的持续增长,如何通过对这些庞大的数据进行分析,以深入了解用户需求、优化内容推荐和提升用户体验,成为一个重要的研究课题。随着互联网和社交媒体的发展,舆情分析逐渐成为商业、政治、公共关系等领域的重要工具。舆情分析通过对公众在社交平台上发布的信息(如评论、帖子、新闻、弹幕等)进行分析,能够迅速捕捉热点话题、了解公众情感和态度变化。这种技术被广泛应用于政府监控、企业品牌管理、危机应对等领域。而在哔哩哔哩平台上,舆情分析能够帮助平台运营者及时掌握用户对特定内容的态度和情绪,为内容推荐和用户互动提供数据支持。随着数据规模的指数级增长,传统的数据处理方法已经无法满足海量数据的分析需求。Spark等大数据处理框架的出现,提供了高效的分布式计算能力,能够快速处理海量的实时和历史数据,成为处理社交媒体平台数据的理想选择。通过Spark对哔哩哔哩平台海量用户数据进行分析,可以实现高效的数据清洗、存储和处理,为舆情分析和推荐系统提供可靠的数据支持。

四、国内外研究现状

国外研究现状

      国外在大数据处理框架方面,Spark、Hadoop等技术体系已经被广泛应用于各类平台的数据分析工作中。Spark由于其强大的内存计算和分布式处理能力,在处理大规模社交媒体数据方面具有显著优势。像Netflix和LinkedIn等企业已将Spark作为其推荐系统和数据处理的核心技术平台,来进行实时的用户行为分析和内容推荐。

国内研究现状

      国内在大数据技术的应用方面,与国外的差距在逐步缩小,尤其是在处理海量数据、实时数据分析方面,国内的企业和研究机构已经能够独立研发出适应本土需求的大数据处理系统。以阿里巴巴为代表的企业推出了自研的分布式计算平台(如MaxCompute、Flink等),它们在处理电商平台、社交媒体平台上的用户数据时表现出色。与此同时,国内高校也在积极研究如何在社交媒体数据中挖掘用户行为模式,并通过分布式计算框架进行高效分析。

五、开发技术介绍

前端框架:HTML,CSS,JAVASCRIPT,Echats

后端:Django

大数据处理框架:Spark

数据存储:HDFS、Hive

编程语言:Python/Scala

自然语言处理:NLP、情感分析

数据可视化:Echarts

六、算法介绍 

1.NLP舆情分析算法主要用于分析和理解社交媒体、新闻评论等文本数据中的情感倾向和公众情绪,以便帮助企业、政府或研究机构识别和监控舆情动向。以下是常用的NLP舆情分析算法的介绍:基于规则的情感分析方法通过构建情感词典,依据词语的情感极性来判断文本的情感倾向。常用的情感词典包括正面情感词和负面情感词。此方法简单高效,但需要对情感词典进行精心设计和维护。

情感词典法
基于情感词典的算法使用预定义的情感词汇和规则,通过词典匹配来判断文本的情感倾向。典型的中文情感词典如“知网情感词典”或“复旦大学情感词典库”等。

流程

  1. 分词:将输入的文本进行中文分词。
  2. 词性标注:识别出情感词、程度副词、否定词等。
  3. 通过预定义的规则,计算情感得分(正向/负向)。

优点:实现简单,不需要大量训练数据。

缺点:依赖于词典的全面性和准确性,对复杂句子处理能力有限。

2.基于用户的协同过滤(User-Based Collaborative Filtering)是一种推荐系统方法,通过找出与目标用户兴趣相似的其他用户,来推荐这些相似用户喜欢的物品。以下是基于用户的协同过滤的核心概念、计算方法和公式:

1. 基本原理

基于用户的协同过滤假设:如果用户A和用户B在过去对一组物品的评分相似,那么用户A可能会喜欢用户B喜欢的其他物品。

2. 相似用户的计算

首先,需要计算用户之间的相似度。常用的相似度度量包括:

      皮尔逊相关系数(Pearson Correlation Coefficient)

其中:

  • rikr_{ik}rik​ 和 rjkr_{jk}rjk​ 分别是用户 uiu_iui​ 和用户 uju_juj​ 对物品 kkk 的评分。
  • rˉi\bar{r}_irˉi​ 和 rˉj\bar{r}_jrˉj​ 分别是用户 uiu_iui​ 和用户 uju_juj​ 的平均评分。
  • IiI_iIi​ 和 IjI_jIj​ 分别是用户 uiu_iui​ 和用户 uju_juj​ 评分过的物品集合。

      余弦相似度(Cosine Similarity)

其中:

  • 公式中的分子是用户 uiu_iui​ 和用户 uju_juj​ 在共同物品上的评分的点积。
  • 分母是这两个用户在评分空间中的模长(即评分的平方和的平方根)。
七、数据库设计
DROP TABLE IF EXISTS `history`;
CREATE TABLE `history` (
  `id` int NOT NULL AUTO_INCREMENT,
  `videoId` varchar(255) NOT NULL,
  `count` int NOT NULL,
  `user_id` int NOT NULL,
  PRIMARY KEY (`id`),
  KEY `history_user_id_6457e0b2_fk_user_id` (`user_id`),
  CONSTRAINT `history_user_id_6457e0b2_fk_user_id` FOREIGN KEY (`user_id`) REFERENCES `user` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=12 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;
DROP TABLE IF EXISTS `user`;
CREATE TABLE `user` (
  `id` int NOT NULL AUTO_INCREMENT,
  `username` varchar(255) NOT NULL,
  `password` varchar(255) NOT NULL,
  `createTime` date NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;
 八、系统启动

虚拟机分布式启动指令

虚拟机初始化

网络配置

编辑——虚拟网络编辑器

点击VM8修改子网IP与掩码

点击NAT设置 修改IP

 进入本地windows C:\Windows\System32\drivers\etc 打开hosts

加上最后三行

导入虚拟机

文件-打开

打开相应的.ovf文件

取好node1名字 与 存放地址 点击确定导入 node2、3同理 只导入node1也可

启动hdfs与spark

进入node1 hadoop用户 密码123456

右键打开terminal

输入文件中的 虚拟机启动语句

一步步输入语句 启动spark 

启动文件总览

九、项目展示 

分布式服务器配置

 登录/注册

首页

视频列表

 评论页面

修改用户信息页面

 分区播放列表三分析

弹幕分析

视频分类分析

标题词云图分析

评论词云图

弹幕情感分析

视频推荐页面

十、开发笔记

爬虫笔记

页面笔记

十一、权威教学视频链接
<iframe allowfullscreen="true" data-mediaembed="bilibili" frameborder="0" id="vdo9QmKZ-1726213083183" src="https://player.bilibili.com/player.html?aid=113129052768166"></iframe>

【Spark+Hive大数据】基于spark大数据哔哩哔哩数据分析舆情推荐系统 b站—免费完整实战教学视频

源码文档等资料获取方式 

 需要全部项目资料(完整系统源码等资料),主页+即可。

 需要全部项目资料(完整系统源码等资料),主页+即可。

 需要全部项目资料(完整系统源码等资料),主页+即可。

 需要全部项目资料(完整系统源码等资料),主页+即可。

标签:数据分析,分析,教程,用户,情感,舆情,哔哩,Spark
From: https://blog.csdn.net/qq_64605578/article/details/142210272

相关文章

  • YOLOv8改进 | Conv篇 | 最新轻量化自适应提取模块LAE助力边缘设备部署计算(附代码 + 修
    一、本文介绍本文给大家带来的一个改进机制是最新由LSM-YOLO提出的轻量化自适应特征提取(LightweightAdaptiveExtraction,LAE)模块,其是LSM-YOLO模型中的关键模块,旨在进行多尺度特征提取,同时降低计算成本。LAE通过以下方式实现更有效的特征提取:多尺度特征提取、自适应特征提取......
  • 2024 xp_CAPTCHA(瞎跑-白嫖版) 4.3最新版安装使用教程
    前言xp_CAPTCHA(瞎跑-白嫖版)是一个免费的burpsuite插件,具有自动化图形验证码识别的功能。在安装的过程中,我发现网上的教程基本都为其较早的版本,已经不具备参考价值。因而我写下本篇博客,介绍我安装与使用xp_CAPTCHA4.3版本的详细过程。项目地址https://github.com/smxiazi/NEW_......
  • Artcam中文版安装包+教程网盘资源下载
    如大家所掌握的,AutodeskArtcam是一款非常专业的立体浮雕设计工具。目前比较常用的有Artcam2008和Artcam2018版本。Artcam独一无二的三维浮雕分层设计工具,拥有不一样的装扮灯光特效工具,让你的浮雕模型制作更加轻松简单,提供用户的工作效率。此外,Artcam强大的三维浮雕设计功能......
  • 学习Python第一步,先安装Python,最新安装教程!
      随着人工智能,网络爬虫,大数据分析等业务模式的流行,Python依靠拥有各种开源库,且入门容易等特性越来越火爆。想到就去做,赶紧下载Python学习起来,本文将详细介绍Python编程环境的搭建。Python的版本选择目前Python有两个版本,一个是2.x,一个是3.x,这两个版本并不兼容。由于在20......
  • 【Python基础学习】16个必知必会的Python教程
    介绍Python是一门用途广泛的编程语言,它具有大量的库和框架。有一些鲜为人知的Python编码技巧和库可以让你作为开发人员的工作更为轻松,编写代码更高效。本文中将探讨一些鲜为人知的Python技巧,这些技巧非常有用,但并不广为人知。通过学习和使用这些技巧,可以帮你节省时......
  • 【生日视频制作】奔驰梅赛德斯大奔提车交车仪式感视频拍照AE模板修改文字软件一键生成
    生日视频制作教程奔驰梅赛德斯大奔提车交车仪式感视频拍照AE模板修改文字特效广告生成神器素材祝福玩法AE模板工程AE模板套用改图文教程↓↓:怎么如何做的【生日视频制作】奔驰梅赛德斯大奔提车交车仪式感视频拍照AE模板修改文字软件一键生成器教程特效素材【AE模板】......
  • 【生日视频制作】劳斯莱斯提车交车仪式感视频拍照AE模板修改文字软件一键生成器教程特
    生日视频制作教程劳斯莱斯提车交车仪式感视频拍照AE模板修改文字特效广告生成神器素材祝福玩法AE模板工程怎么如何做的【生日视频制作】劳斯莱斯提车交车仪式感视频拍照AE模板修改文字软件一键生成器教程特效素材【AE模板】生日视频制作步骤:下载AE模板安装AE软件......
  • BILIBILI 字幕提取教程简略版
    首先是通过F12拿到AID和CID(见其它文章),然后调用这个接口:https://api.bilibili.com/x/player/wbi/v2?aid={av}&cid={cid}{"code":0,"message":"0","ttl":1,"data":{"aid":1855215937,"bvid":"BV1Rs421u7......
  • 【楚怡杯】职业院校技能大赛 “Python程序开发”数据分析练习
    基础操作(1)用字典数据类型创建DataFrame。(2)将创建的Dataframe的索引设置为,ABCD。并且命名为“索引”。(3)在下面新增一行。然后删除。(4)增加新的属性列,列名设置为‘port’,值均为1。(5)取出1991和1994年的数据。(6)获取前‘state’和‘year’的数据。(7)查看每一列数据的数据格式,并......
  • 蓝易云服务器 - Ubuntu16.04安装VSCode教程
    安装VSCode的教程如下:打开终端,运行以下命令更新软件包列表:sudoaptupdate安装依赖库:sudoaptinstallsoftware-properties-commonapt-transport-httpswget导入MicrosoftGPG密钥:wget-qhttps://packages.microsoft.com/keys/microsoft.asc-O-|sudoapt-keyadd-添加Visual......