首页 > 其他分享 >没想到三天10KStar的营销利器MediaCrawler开源作者已经删库了

没想到三天10KStar的营销利器MediaCrawler开源作者已经删库了

时间:2024-03-21 10:23:55浏览次数:28  
标签:Playwright 浏览器 抓取 Puppeteer 删库 10KStar 无头 MediaCrawler 网页

前言

一站式社交平台数据抓取利器,带你玩转小红书、抖音、快手、B站和微博数据分析

不经意间,来查看MediaCrawler仓库源码,发现作者已经删库了。看来是领奖了。才几天不到的时间Star数量已经直逼10K了,增长速度近乎疯狂。
前两天只是将代码下载下来了,还没认真的玩。还好代码本地已经有了。如果有兴趣的也可以来找我要,免费的哟。

作者在这里也明显进行了标注使用了无头浏览器

那到底什么事无头浏览器呢?

无头浏览器(Headless Browser)是一种浏览器程序,没有图形用户界面(GUI),但能够执行与普通浏览器相似的功能。无头浏览器能够加载和解析网页,执行JavaScript代码,处理网页事件,并提供对DOM(文档对象模型)的访问和操作能力。
与传统浏览器相比,无头浏览器的主要区别在于其没有可见的窗口或用户界面。这使得它在后台运行时,不会显示实际的浏览器窗口,从而节省了系统资源,并且可以更高效地执行自动化任务。
常见的无头浏览器包括Headless Chrome(Chrome的无头模式)、PhantomJS、Puppeteer(基于Chrome的无头浏览器库)、playwright等。它们提供了编程接口,使开发者能够通过代码自动化控制和操作浏览器行为。

如果您比较Playwright和 Puppeteer的贡献者页面 ,您会注意到Puppeteer的前两个贡献者现在在 Playwright 上工作。Puppeteer 团队实质上是从 Google 转移到 Microsoft 并成为 Playwright 团队。

因此,Playwright 在很多方面与 Puppeteer 非常相似。API 方法在大多数情况下是相同的,并且默认情况下 Playwright 还捆绑了兼容的浏览器。

Playwright 最大的区别在于跨浏览器支持。它可以驱动 Chromium、WebKit(Safari 的浏览器引擎)和 Firefox。

无头浏览器其实就是看不见的浏览器,所有的操作都要通过代码调用 API 来控制,所以浏览器能干的事儿,无头浏览器都能干,而且很多事儿做起来比标准的浏览器更简单。

能够干什么呢?

我举几个常用的功能来说明一下无头浏览器的主要使用场景

  • 自动化测试: 无头浏览器可以模拟用户行为,执行自动化测试任务,例如对网页进行加载、表单填写、点击按钮、检查页面元素等。
  • 数据抓取: 无头浏览器可用于爬取网页数据,自动访问网站并提取所需的信息,用于数据分析、搜索引擎优化等。
  • 屏幕截图: 无头浏览器可以加载网页并生成网页的截图,用于生成快照、生成预览图像等。
  • 服务器端渲染: 无头浏览器可以用于服务器端渲染(Server-side Rendering),将动态生成的页面渲染为静态HTML,提供更好的性能和搜索引擎优化效果。
  • 生成 PDF 文件:使用浏览器自带的生成 PDF 功能,将目标页面转换成 PDF 。

这个仓库如何使用呢

首先这是一个Python库,当然要安装必要的Python环境,这个我就不多说了,通过GPT或者在网上搜索都可以进行安装好。
接下来就是拿到代码后如何使用,这个其实作者也是非常的友好了,直接看README。

最后运行命令后,会出现一个二维码,比如这里我测试的是小红书,出现二维码之后,我们用小红书App来扫描,并进行确认身份,这样无头浏览器就能识别并记住我们的身份信息,后续就可以通过该身份进行抓取一些数据了。


这里我配置了一条小红书的笔记ID,这里是个数据可以配置多个的。

好了,OK ,数据就被这么简单的抓取下来了。


作者还特意对数据存储做了封装,如果数据量大的时候存储起来可能就非常的方便了。
如果需求量很大,还可以对其源码进行研究改造,好了今天的学习就到这里了。

标签:Playwright,浏览器,抓取,Puppeteer,删库,10KStar,无头,MediaCrawler,网页
From: https://www.cnblogs.com/aehyok/p/18086730

相关文章

  • 从删库到跑路段子成真!删库了就真的只能跑路了吗?
    Java python从删库到跑路 真要删库肯定要承担刑事责任的。从这件事情可以看出程序员喜欢自嘲,程序员的工作从性质上讲比较枯燥,整天对着电脑所以很多很多做技术的做个几年就转行了,觉得这个工作太没有意思了,来回就那几个人,而且...  恐怕"删库跑路"这种操作大家都耳熟能详......
  • 解决golang依赖库被删库问题
    调用的开源库引用了github个人仓库,如果作者删除了仓库或者改成私人仓库,那么gomodtidy就会失败以github.com/mitchellh/osext为例,作者因为某些原因删除了仓库,并给出了替代的官方仓库github.com/kardianos/osext使用replace命令gomodedit-replace[oldgitpackage]@[versi......
  • 可观测性之删库跑路后的现场还原
    数据库是公司重要资产,在此类重要资产平台上,尤其是重要操作,应该保持敬畏心。数据库被删了?可怎么证明是某某某删了数据库?或者根本都不知道谁删除了数据库,又没抓现行,该怎么办?正文第一步证据先行,有录屏有真相删库动作的录制回放录制回放让团队能清楚了解和学习用户路径和行为,其中对于......
  • 删库不急着跑路!可以尝试这个办法恢复数据~
    删库不急着跑路!可以尝试这个办法恢复数据~点击关注......
  • 记一次MySQL崩溃修复案例,再也不用删库跑路了
    大家好,我是冰河~~今天给大家带来一篇MySQL数据库崩溃的修复案例,废话不多说,我们直接上正文,走起~~问题描述研究MySQL源代码,调试并压测MySQL源代码时,MySQL崩溃了!问题是它竟然崩溃了!而且还损坏了InnoDB文件!!还好是在调试环境下发生的,赶紧看看如何解决这个问题,经过一系列的查阅资料、验证......
  • [WP] 攻防世界 CSFJ1099 删库跑路-
    「附件」题目描述:某星星在离职前给公司服务器来了一记rm-rf/*,真实演绎了什么叫"删库跑路",老板把恢复数据的希望寄托在刚刚入职的你身上。你能帮助公司恢复出硬盘里的重要数据吗Hint1:通常来说删除文件只是把磁盘上对应的空间标记为未使用状态,数据本身还是存在于原本的位置Hi......
  • 从删库到跑路,老大爷学Java的心酸历程
    大家好,我是程序员青戈,一个被Bug耽误了才艺的程序员......
  • 删库跑路的背后,是企业对数据安全的反思
    这几天,一直在关注微盟删库事件的进展,在3月1日晚上,微盟发布最新公告称数据已经全面找回。而此时,距离事故发生的2月23日晚,过了有足足七天七夜,也就是7*24小时。01 关于“删库跑路"的段子一直都在,而这样的真实事件也不是第一次发生了。2018年6月,某科技公司总监因为被离职而一气之下删......
  • 完了,良许直播中删库了……
    大家好,我是良许。今天跟大家聊个尴尬的事,大家可以本着看热闹不嫌事大的心态来听我唠唠。经常来我直播间(视频号+抖音)的小伙伴都知道,我最近一直都在直播间手把手现场写Shell脚本。就在前天晚上,我写Shell脚本的时候,不小心把当前目录下所有脚本(连同这个脚本本身)全部删除了,而且还全......
  • 完了,良许直播中删库了……
    大家好,我是良许。今天跟大家聊个尴尬的事,大家可以本着看热闹不嫌事大的心态来听我唠唠。经常来我直播间(视频号+抖音)的小伙伴都知道,我最近一直都在直播间手把手现场写Shell脚本。就在前天晚上,我写Shell脚本的时候,不小心把当前目录下所有脚本(连同这个脚本本身)全部删除了,而且......