首页 > 编程语言 >免费爬虫软件“HyperlinkCollector超链采集器v0.1”

免费爬虫软件“HyperlinkCollector超链采集器v0.1”

时间:2024-09-14 14:55:45浏览次数:12  
标签:url HyperlinkCollector 抓取 采集器 超链 设置 div 选择器 css

HyperlinkCollector超链采集器单机版v0.1

软件采用python的pyside2和selenium开发,暂时只支持window环境,抓取方式支持普通程序抓取和selenium模拟浏览器抓取。软件遵守robots协议。

首先下载后解压缩,然后运行app目录下的HyperlinkCollector.exe

运行后,我们先创建一个采集项目。

主要是填写项目名称和起始页url,如果采集多个列表页,可以添加完成后在“设置起始页”中进行修改。

创建好项目后,我们右键选择一个起始页,然后选择“抓取测试”,运行后,会在下面显示抓取到的url。

这里我以抓取东方财富网新闻为例:我们要抓取文章的内容,设置一下内容页URL的规则,比如这里我们在“url必须包含”中填写“finance.eastmoney.com/a/”。

然后再重新右键选择起始页进行抓取测试。这时候获取的url就是根据我们设置的规则获取的内容url。然后继续选择其中一条内容url,右键选择“抓取测试”。这时候,测试结果里会显示抓取的内容字段(系统默认添加了一个title和一个body)。

点击切换到“预览”标签,这里显示的是内容页url的预览 ,可以鼠标划取要抓取的内容部分,比如我们要抓取文章内容,我们可以只划取内容开头的一段文字,这时候会弹出一个快捷菜单,可以获取所选内容的xpath或者css选择器名称。

我这里以css选择器为例,点击“获取css选择器”之后,弹出窗口中,显示了包含所选内容的所有”css选择器名称”,这里可以对给出的css选择器进行测试,我们选择其中一个对应的。这里需要注意:获取的css选择器是当前选择内容的css选择器,实际中可能需要的是它的父级,这个要根据实际情况进行调节。比如我要抓取整篇文章,但划取后给出的css选择器是“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos>p” ,只是其中我划取的那一段。这时候可以直接在文本框中修改,使用当前的父级“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos”,然后再点击测试按钮,看看获取的内容是否正确。

设置完成后,选择”添加到采集字段”,将设置的 “css选择器”添加到采集字段

然后写一个字段名称保存。然后可以再进行一次测试看是否正常。

最后选择”保存当前项目设置”,设置任何修改后,要记得保存,否则采集时还是按以前的规则采集。

做完上面设置后,我们可以在左边的 项目列表中,右键选择刚刚设置的项目,然后选择“运行所选项目”

然后软件就会进行抓取。

数据保存,可以设置保存为excel或导出到接口,默认情况时保存到excel。但实际应用中更实用的时通过一个接口程序保存,以便根据自己的需求对采集数据进行二次加工处理。保存到接口时,数据是以json格式post提交的。设置中给了一个php接收的示例,您可以根据实际情况进行修改。

CSDN下载地址:

免费爬虫软件“HyperlinkCollector超链采集器v0.1”单机版

软件现在免费使用,有些功能还在不断完善中,如果您在使用软件中有什么问题,或者有开发需求,可以与我联系。

标签:url,HyperlinkCollector,抓取,采集器,超链,设置,div,选择器,css
From: https://blog.csdn.net/dongtest/article/details/142136871

相关文章

  • 【Harmony】文本高亮显示、关键字凸显字体大小、颜色、背景色等风格自定义、嵌入html
    预览效果如图(网上找到demo,如有疑问请留评论蛤!):这个是超链接例子的数据结构如下:newCustomMessage($r('app.media.styled_text_user_image1'),'央视新闻','2小时前',[newCustomSpan(CustomSpanType.Normal,'【准备回家!'),newCustomSpan(CustomSpanType.Hasht......
  • Android经典实战之Textview文字设置不同颜色、下划线、加粗、超链接等效果
    本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点SpannableString在Android开发中是一个非常强大的工具,它允许你在单个字符串范围内应用多种样式。使用SpannableString,你可以为文本中的不同部分设置不同颜色,字体大小,字体......
  • 一个可以搜索页面内超链接的HTML页面
    页面效果如上,含有标题,搜索框和一些超链接,在搜索框输入一些文字可以在下方显示含有这些文字的超链接。这里的搜索不仅可以中文,还可以是英文,数字HTML代码如下<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=d......
  • python-深层遍历文件夹通过Excel某一列匹配文件夹中的图片(png\jpg)+写入Excel+超链
    目录专栏导读库的介绍背景库的安装完整代码总结专栏导读......
  • zabbix采集器
    zabbix采集器环境介绍:本例中安装zabbix开源软件和postgres,软件版本信息如下:软件版本zabbixZabbix6.4.0postgres14.7zabbix-agent6.4.17主机信息如下:RedHatEnterpriseLinuxServer7.9(Maipo)主机名主机地址用途zib_server192.168.101.......
  • 电商数据可视化下载工具——商品信息采集器
    电商数据可视化下载工具【商品信息采集器】,这是一个依托电商大数据平台开发出的商品信息采集可视化工具软件。商品信息采集器 结合了数据抓取、可视化、以及简单高效的用户界面。▲商品信息采集器方式▲壹 关键词获取数据●在信息输入区输入关键词,选择页数,点击开始采集;●......
  • 在终端中打印超链接
    我可以使用这个特殊的转义序列在bash中打印超链接:echo-e'\e]8;;http://example.com\e\\Thisisalink\e]8;;\e\\\n'结果(我可以单击的链接):Thisisalink现在我想在Python中生成它:print('\e]8;;http://example.com\e\\Thisisalink\e]8;;\e\\\n')......
  • HTML【详解】超链接 a 标签的四大功能(页面跳转、页内滚动【锚点】、页面刷新、文件下
    超链接a标签主要有以下功能:跳转到其他页面<ahref="https://www.baidu.com/"target="_blank">百度</a>href:目标页面的url地址或同网站的其他页面地址,如detail.htmltarget:打开目标页面的方式_self:在同一个网页中显示(默认值)_blank:在新的窗口中打开【常用】_......
  • 用Automa做的抖音博主视频批量采集器升级版-实战原创
    文章目录前言一、抖音博主视频批量采集器升级版是什么?二、抖音博主视频批量采集器工作流流程图三、流程拆解1.第一步2.第二步3.第三步4.第四步5.第五步6.第六步总结前言Automa开发2年时间,开发应用100多款,分享开发记录市面上的抖音批量下载的工具非常多,用Automa......
  • HTML基本标签使用【超链接标签、表格标签、表单标签、input标签】
    目录一、基本介绍1.1概念1.2HTML的核心特点二、HTML基本标签三、超链接标签四、表格标签✌`<table>`标签属性✍`<tr>`标签属性✌`<td>`和`<th>`标签属性演示注意事项五、表单标签综合应用最后一、基本介绍1.1概念HTML,全称为超文本标记语言(HyperText......