首页 > 其他分享 >基于新浪微博海量用户行为数据、博文数据数据分析:包括综合指数、移动指数、PC指数三个指数

基于新浪微博海量用户行为数据、博文数据数据分析:包括综合指数、移动指数、PC指数三个指数

时间:2023-07-27 22:13:14浏览次数:34  
标签:指数 数据 PC 微博 date data

基于新浪微博海量用户行为数据、博文数据数据分析:包括综合指数、移动指数、PC指数三个指数

  • 项目介绍

    1. 微指数是基于海量用户行为数据、博文数据,采用科学计算方法统计得出的反映不同事件领域发展状况的指数产品。
    2. 微指数对于收录的关键词,在指数方面提供微博数据层面的指数数据,包括综合指数、移动指数、PC指数三个指数。
  • 项目举例
    以‘中兴’这一关键词为例,要求获取中兴的三个指数数据。微指数的数据收录时间有范围,范围表现在:
    1)整体趋势:2013-03-01-至今
    2)移动趋势:2014-01-06-至今
    3)PC趋势:2014-01-06-至今
    本例子设定start_date = '2016-05-29',end_date = '2018-05-29', 原始结果如下:

1.原始综合指数

2. 原始移动/pc指数

  • 实现流程
  '''主函数'''
    def index_main(self, word, start_date, end_date):
        # 打开数据页面
        print('step1, open page....')3
        driver = self.search_index(word)
        # 构造请求,获取指数json数据
        print('step2, get data....')
        data = self.get_data(driver, start_date, end_date)
        # 判断数据返回类型,若微博没有收录改词,则退出,显示退出信息
        if data['zt']:
            print('step3, save data ...')
            self.output_data(word, data)
            print('finished....')
        else:
            print('not be record...')
        #关闭浏览器对象
        driver.close()
  • 执行
 def demo():
        start_date = '2016-05-29'
        end_date = '2018-05-29'
        sina = SinaIndex()
        search_word = '中兴'
        sina.index_main(search_word, start_date, end_date)
    demo()

3.效果展示

将得到的数据文件,进行本地可视化,效果如下:

3.1 综合指数

3.2 移动指数

3.3 PC指数

3.4指数对比

5.总结

1、微指数的采集难度介于百度指数与阿里指数之间,两个特点:1)指数有js动态请求而成,可以通过构造请求,解析获得。2)无需用户登录。
2、微指数收录的日期比阿里指数要广,较百度指数要窄,但基于微博这一层面得到的数据,对于相关研究还是有一定新意的。

项目链接跳转

文章码源链接

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

标签:指数,数据,PC,微博,date,data
From: https://www.cnblogs.com/ting1/p/17586229.html

相关文章

  • java pcm格式怎么转换成wav
    Java是一种广泛应用于各种平台的编程语言,PCM格式是一种原始的音频数据格式,而WAV是一种常见的音频文件格式。在Java中,我们可以使用一些库和技术将PCM格式转换成WAV格式。接下来,我将为您提供一个逻辑清晰的代码示例,演示如何实现这一转换过程。首先,我们需要使用Java中的音频库来处理P......
  • API架构的选择,RESTful、GraphQL还是gRPC
    API架构的选择,RESTful、GraphQL还是gRPC hi,我是熵减,见字如面。在现代的软件工程中,微服务或在客户端与服务端之间的信息传递的方式,比较常见的有三种架构设计的风格:RESTful、GraphQL和gRPC。每一种模式,都有其特点和合适的使用场景,今天,我们主要来对三种风格做一个深入的理解......
  • ipcs
    ipcs分析消息队列共享内存和信号量补充说明ipcs命令用于报告Linux中进程间通信设施的状态,显示的信息包括消息列表、共享内存和信号量的信息。语法ipcs(选项)选项资源选项-a,--all显示全部(默认值)-q,--queues消息队列-m,--shmems共享内存-s,......
  • python批量计算多站点多年标准化降水指数SPI
    前面提过如何计算单站点多年的标准化降水指数SPI,但是在现实中不仅只计算一个站点的标准化降水指数,有时要计算多个站点的。原始数据是11个站点1961年至2022年每个月的降水值: 编程思路是:1、先需要进行站点分类:   此处的难点在于需要写个for循环,根据站点名称遍历数据 ......
  • 题解:【ICPC WF 2021 L】 Where Am I?
    题目链接这年WF较为简单的一道了,直接模拟即可。首先可以预处理出它顺时针螺旋轨迹的移动步数,方便过会算距离直接查表。我偷懒直接用map记录的距离表,这样不用处理复数下标的问题。注意到\(X\)的数量不会超过\(100\)个,所以我们可以反过来从标记点上入手。找出所有的标记点,......
  • .NET 7 使用gRpc
    Server端 添加proto文件,编辑项目文件添加proto文件,编译项目 添加Service服务 启动Server Client端安装package Copy proto文件到项目里   ......
  • 新书上市 | 6岁的gRPC,终于出书了!
    gRPC是由谷歌开源的高性能远程过程调用框架。再过十几天,它就满6岁了。虽然gRPC的采用率正呈指数级增长,但中文领域一直没有一本综合介绍该技术的实体书。现在,这种尴尬局面终于被打破了!新书上市卡山·因德拉西里丹尼什·库鲁普著张卫滨译在介绍这本书之前,我们先来聊聊gRPC是怎......
  • m基于16QAM软解调和LDPC信道编译码的通信链路误码率仿真
    1.算法仿真效果matlab2022a仿真结果如下:   2.算法涉及理论知识概要基于16QAM软解调和LDPC信道编译码的通信链路包括以下主要步骤: 2.1数据源编码       在数据源编码阶段,输入的二进制数据会被编码为纠错码,以提高数据传输的可靠性。常用的纠错码包括卷积码、L......
  • 新pc
    withopen('p1.mp4','wb')asfile:withopen('dash.json','r',encoding='utf-8')asf:json_data=f.read()dt=json.loads(json_data)m3u8=dt['data']['program&......
  • @Value("${dbpc.path}")和@Value("#{dbpc.path}")区别
    这两个注解都可以用来将值注入到JavaBean的字段中。但是,它们的使用方式略有不同。@Value("${dbpc.path}")是Spring框架中的注解之一,用于从Spring配置文件中获取属性值,并将其注入到JavaBean的字段中。该注解可以用于注入基本类型、字符串、数组、集合、对象等类型的值。@Value(......