首页 > 其他分享 >八爪鱼爬虫+Kimi AI做数据分析,同事都来围观

八爪鱼爬虫+Kimi AI做数据分析,同事都来围观

时间:2024-05-30 21:58:16浏览次数:24  
标签:数据 AI 八爪 爬虫 SU7 采集 Kimi 小米

因为我是做汽车行业的,可以用八爪鱼爬虫抓取汽车之家和微博上的汽车文章内容,分析各种电动汽车口碑数据。

之前,我写过很多Python网络爬虫的案例,使用requests、selenium等技术采集数据,这次尝试去采集小米SU7在微博、汽车之家上的舆论数据,分析下小米SU7的口碑到底怎么样,用户关心和吐槽的点有哪些。

但这次我们不用Python爬虫来采集数据,而用一个无代码爬虫工具-八爪鱼,因为我担心采集复杂的数据用Python代码可能太复杂,比较费时间,而八爪鱼工具可以几分钟就能完成设置,爬取相应的数据。

然后,我会用AI工具来分析舆情数据,能得出一些有意思的结论,比如你知道用户对比小米SU7最大的竞品是什么吗?

无代码爬虫工具--八爪鱼

我们知道爬虫涉及到http请求、网页解析、解锁、异步等技术,有各种反爬机制,说实话挺繁琐的。

相比较requests、selenium等代码框架,八爪鱼是一个完全无代码的图形化客户端工具,类似于pandas和excel的区别。

八爪鱼把爬虫用到的所有技术都装进一个黑盒子里,你只需要点点点,就可以完成爬虫的设置,即使对于很复杂的数据采集任务,也能几分钟搞定。

而且八爪鱼集成了RPA自动化流程,类似于微软的Power Automate,你可以设置固定的步骤,它会自动帮你去执行爬虫,从数据采集、清洗到存储,完全自动化。

对于爬虫的安全问题,也不用担心,这个工具是在安全协议内采集数据,会遵守每个网站的robots.txt文件,确保数据采集安全合规。

八爪鱼数据采集使用技巧

下载和登录八爪鱼软件

你可以先登录八爪鱼官网,注册好后,再下载八爪鱼客户端,然后登录使用即可,非常的简单。

注册和下载地址:

https://affiliate.bazhuayu.com/hEvPKU

新建数据采集流程

这次我们想采集微博和汽车之家上关于小米SU7的内容和帖子,需要新建采集任务,输入相应的url,并设置配置信息。

比如说,你想抓取雷布斯关于SU7微博下面的评论,只需要输入网址,然后设置登录信息,并自动识别采集数据,八爪鱼就会自动采集所有评论数据。

使用采集模板

其实还有更加简单的数据采集方法,八爪鱼提供了上百种常用网站采集的模板,比如微博、百度、京东、B站、汽车之家等等,你只需要选择对应模板,直接输入url或者搜索关键词,就可以采集数据。

这些采集模板是八爪鱼专门针对高频采集需求开发的,相当于爬虫“快捷键”,而且这些采集模板还在持续更新,热门网站和热点数据,统统”一键“抓取。

采集微博和汽车之家-小米SU7数据

我们这次采集微博和汽车之家上小米SU7数据,也是用现成的模板,非常快捷方便。

首先,采集汽车之家上关于小米SU7的内容数据,先找到模板,再设置搜索关键词-小米SU7。

可以看到,它会自动采集汽车之家上小米SU7的内容数据,字段包含标题、发布者、时间、内容、网址等等。

采集好后,自动导出到本地,选择excel或其他数据格式。

微博也是一样的设置,我们只需要找到对应的模板,输入搜索关键词-小米SU7,就可以采集帖子内容。

好了,可以看到八爪鱼采集数据非常简单,如果用Python来实现的上述两个爬虫的话,至少得几百行代码,而且还要处理动态页面、登录、反爬等各种麻烦的事,用八爪鱼就显得轻而易举了。

接下来,我们来分析上述两个数据集,看看小米SU7的舆情表现怎么样,为啥能这么火。

小米SU7舆情数据分析

这里先解释下两个数据集的规模,首先汽车之家内容数据集有300条数据,都是通过关键词小米SU7搜索出来的相关文章。

微博帖子数据集有500条数据,也是关于小米SU7的帖子。

舆情分析的思路有四个方面,一是看小米SU7的卖点,二是看小米SU7的槽点,三是看用户最关心的问题和期待,四是看竞品有哪些。

这次分析的工具采用Kimi AI,读取excel数据文件,然后分析结论。

汽车之家-小米SU7舆情分析

「卖点分析」

AI Prompt:请分析这个数据集,这是汽车之家上关于小米SU7的文章,首先你的任务是分析内容列的文本数据,输出提及到的小米SU7最主要的10个卖点,按照词频排序

「槽点分析」

AI Prompt:接下来,你需要分析提及到的小米SU7最主要的3个吐槽点,按照词频顺序

「分析用户最关心的问题和期待」

AI Prompt:接下来,你需要分析提及到的用户对小米SU7最关心的期待和问题,列出3个,按照词频顺序 AI Prompt:你需要提供它们出现的频次数据

「竞品分析」

AI Prompt:接下来,你的任务是输出提到的小米SU7的前3竞品车型,以及入选理由,按照词频排序

微博-小米SU7舆情分析

「卖点和槽点分析」

AI Prompt:请分析这个数据集,这是微博上关于小米SU7的帖子数据,首先你的任务是分析博文内容列的文本数据,输出提及到的小米SU7最主要的5个卖点和5个槽点,按照词频排序,并参考帖子点赞、评论数据权重

「竞品分析」

AI Prompt:接下来,你的任务是输出提到的小米SU7的前3竞品车型,以及入选理由,按照词频排序

总结

采集并分析了小米SU7在汽车之家和微博的舆情数据后,会发现智能驾驶、续航、外观、性能是用户点赞比较多的方面,同时争议比较多的是价格、交付、售后等,竞品层面Model 3无疑是用户纠结对比最多的车型。

熟话说,工欲善其事,必先利其器,八爪鱼爬虫工具抓取数据真的节省了大量代码开发的时间,包括AI工具也能有效地提升数据分析效率,赶紧用起来吧!

使用路径很简单,先登录八爪鱼官网,注册好后,再下载八爪鱼客户端,然后登录使用即可。

注册下载地址:

1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]2.发现了一个很棒的软件,?不用学python也可以爬数据!用它爬了n多数据。3.微博、电商、各大新闻平台的数据,很多可以用模版一键爬取数据,非常方便!4.做科研项目要采集很多数据,[耶]科研人的救命神器,推荐!5.实时获取楼市动态,用八爪鱼收集网上关于楼盘的用户评价,不用学代码直接爬了很多数据6.用八爪鱼实时爬取电商数据,追踪竞争对手价格,商品信息一手掌握[得意]7.用八爪鱼自动收集全网最新新闻,迅速获取热点资讯,超方便?icon-default.png?t=N7T8https://affiliate.bazhuayu.com/hEvPKU

标签:数据,AI,八爪,爬虫,SU7,采集,Kimi,小米
From: https://blog.csdn.net/Pydatas/article/details/139334330

相关文章

  • Docker 图形化界面管理工具 Portainer | 让你更轻松的管理 Docker
    本文首发于只抄博客,欢迎点击原文链接了解更多内容。前言Portainer是一个Docker图形化管理工具,可以通过WebUI轻松的管理容器、镜像、网络、卷。与Dockge相比功能更加的完善,同时上手难度也更大一些Portainer分为社区版和商业版,本文安装的是社区版(PortainerCE),该......
  • Rainbond 携手 TOPIAM 打造企业级云原生身份管控新体验
    TOPIAM企业数字身份管控平台,是一个开源的IDaas/IAM平台、用于管理账号、权限、身份认证、应用访问,帮助整合部署在本地或云端的内部办公系统、业务系统及三方SaaS系统的所有身份,实现一个账号打通所有应用的服务。传统企业IT采用烟囱式建设方式,容易带来以下挑战:应用授权管......
  • 程序员的自嘲:从超人梦到AI助手,我们如何应对AI大模型时代的挑战?
    在AI大模型时代,作为一名程序员,我不得不承认,确实有点危机感。自从OpenAI推出ChatGPT-4O之后,看了发布会,我更加有危机感了,因为AI越来越像人了。记得小时候,我梦想着成为超人,拯救世界。但现在,我感觉超人变成了AI,而我要拯救的,是我的饭碗!百度CEO李彦宏大佬曾说“未来人人都是程序......
  • Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks
    目录概符号说明经验性的结果NoisyModelLearning代码ChenH.,WangJ.,ShahA.,TaoR.,WeiH.,XieX.,SugiyamaM.andRajB.Understandingandmitigatingthelabelnoiseinpre-trainingondownstreamtasks.概本文讨论如果预训练模型在训练的时候存在噪声,会......
  • Genzai:一款针对物联网安全的多功能实用性工具套件
    关于Genzai Genzai是一款针对物联网安全的多功能实用性工具套件,该工具旨在识别与物联网相关的仪表盘,并扫描它们以查找默认密码和安全问题,广大研究人员可以使用该工具来检测和提升物联网设备的安全性。Genzai支持用户以输入的形式提供一个或多个扫描目标,工具会对目标执行......
  • 基于MCTS的三维四子棋AI模拟和基于PyQt5的应用交互界面
    '''三维四子棋是在三维空间率先四子连珠的游戏,在传统五子棋基本被研究透的情况下,三维四子棋增加了规则和难度,更加考验计算力、空间感、观察力和想象力。本模块实现三维四子棋的GUI。仅供学习和参考。BySoulCheungOnMay28thEmail:[email protected]:1594983583'''......
  • 2024年大数据应用、智能控制与软件工程国际会议(BDAICSE2024)
    2024年大数据应用、智能控制与软件工程国际会议(BDAICSE2024)会议简介我们诚挚邀请您参加2024年大数据应用、智能控制和软件工程国际会议(BDAICSE2024)。这次会议将在美丽的长沙市举行。本次大会旨在汇聚全球大数据应用、智能控制、软件工程等领域的专家学者,共同探索行业前......
  • AI UI developer by ChatGPT plugin:Tailwind CSS Builder
    AI网页UI开发工程师在ChatGPT插件市场中搜索TailwindCSSBuilder,对话可以直接生成基于tailwindcss的HTML网页:生成的网页结果:生成的网页源代码:点击查看代码<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport&q......
  • 大模型智力升级:AI的未来之路
    大模型的发展引领了人工智能的新时代,其强大的数据处理和学习能力在医疗、金融、教育等众多领域取得了令人瞩目的成就。然而,随之而来的挑战也不容忽视。尽管大模型在特定任务上展现出了卓越的性能,但它们在理解复杂语境、处理未见情况的能力以及快速适应新环境方面仍显得力不从......
  • 开源VS闭源:AI未来的十字路口
    人工智能领域的发展日益加速,其中关于模型的开源和闭源策略引起了业界的广泛关注。开源策略指的是将软件的源代码公开,允许任何人自由使用、研究甚至改进;而闭源策略则是指软件的源代码不公开,只有特定的个体或组织有权访问和修改。在人工智能尤其是深度学习模型的应用中,开源策略能......