前言
用了 \(GitHub\) 上一个项目作为载体,该项目中有些代码需要修改
安装python
准备工作
- 进入 \(weibo-search-master\)
- 进入 \(cmd\)
- 安装所需要的库:
pip install scrapy
pip install -r requirements.txt
pip install jieba
pip install matplotlib
pip install imageio
设置参数
-
进入 \(weibo\)
-
打开 \(settings.py\)
-
修改搜索词,开始日期,结束日期。
爬取
-
进入 \(weibo-search-master\)
-
进入 \(cmd\)
-
执行
scrapy crawl search
-
等待爬取,不要点击
-
得到结果文件文件夹,结果为 \(csv\) 格式
-
将 \(csv\) 改成英文名防止路径中文编码
统计
-
进入结果 \(csv\) 文件,把除了评论内容的列全部手动删除
-
执行 \(changeCsvToTxt.py\)
设置输入输出文件路径
-
得到 \(txt\)
-
执行 \(wordsCount.py\),得到词云图和词频 \(txt\)。