首页 > 其他分享 >Go每日一库之184:katana(新一代爬虫框架)

Go每日一库之184:katana(新一代爬虫框架)

时间:2023-09-29 21:25:27浏览次数:38  
标签:框架 projectdiscovery katana 爬虫 抓取 爬取 一库 184

项目链接

https://github.com/projectdiscovery/katana

项目简介

katana 是一个使用 golang 编写的新一代爬虫框架,支持 HTTP 和 headless 抓取网页信息不仅可以作为库集成到 Golang 项目,还可以通过命令行直接抓取,对于有一些轻量级的抓取任务的开发者配合 jq 一起使用简直就是福音!

这篇内容介绍了一个名为"projectdiscovery/katana"的网络爬虫框架,它具有以下特点:

  1. 快速且可配置的网络爬取。
  2. 支持标准模式和无头模式(Headless)。
  3. 具备JavaScript解析和爬取功能。
  4. 可自定义的自动表单填充。
  5. 范围控制,支持预配置字段和正则表达式。
  6. 可自定义的输出,支持预配置字段。
  7. 支持多种输入方式,包括STDIN、URL和列表。
  8. 支持多种输出方式,包括STDOUT、文件和JSON。

文章还提供了安装和使用指南,包括如何安装katana以及如何运行它来进行网络爬取。另外,还介绍了两种爬取模式:标准模式和无头模式,以及如何配置范围、过滤器和其他爬取参数。

总的来说,"projectdiscovery/katana"是一个强大的网络爬虫框架,具备丰富的功能和配置选项,可用于自动化网络爬取任务。

标签:框架,projectdiscovery,katana,爬虫,抓取,爬取,一库,184
From: https://www.cnblogs.com/arena/p/17737374.html

相关文章

  • Go每日一库之183:vegeta(http压力测试工具库)
    项目地址:https://github.com/tsenart/vegetahttps://mp.weixin.qq.com/s/J0PiqTifr_rs_S2CzMRoWg......
  • Go每日一库之182:RuleGo(轻量级高性能嵌入式规则引擎)
    ◆ 一、开源项目简介RuleGo是一个基于Go语言的轻量级、高性能、嵌入式的规则引擎。也一个灵活配置和高度定制化的事件处理框架。可以对输入消息进行过滤、转换、丰富和执行各种动作。◆ 二、开源协议使用Apache-2.0开源协议◆ 三、界面展示规则链规则链是规则节点及其关......
  • Go每日一库之181:conc(并发库)
    来自公司sourcegraph的conc**(https://github.com/sourcegraph/conc)并发库,目标是betterstructuredconcurrencyforgo,简单的评价一下每个公司都有类似的轮子,与以往的库比起来,多了泛型,代码写起来更优雅,不需要interface,不需要运行时assert,性能肯定更好我们在写通......
  • Go每日一库之180:fastcache(协程安全且支持大量数据存储的高性能缓存库)
    fastcache是一个线程安全并且支持大量数据存储的高性能缓存组件库。这是官方Github主页上的项目介绍,和fasthttp名字一样以fast打头,作者对项目代码的自信程度可见一斑。此外该库的核心代码非常轻量,笔者本着学习的目的分析下内部的代码实现。基准测试官方给出了fastca......
  • Go每日一库之179:env(将系统环境变量解析到结构体的库)
    该包的实现是基于标准库os/env包中的相关函数(比如Getenv)来获取系统的环境变量的。获取到环境变量值后,再通过结构体中的tag,将值映射到对应的结构体字段上。使用示例下面是将系统的一些环境变量映射到config结构体的示例。如下:我们可以像以下这样运行该代码:$PRODUCTION=trueHO......
  • Go每日一库之178:chromedp(一个基于Chrome DevTools协议的库,支持数据采集、截取网页长
    该库提供了一种简单、高效、可靠的方式来控制Chrome浏览器进行自动化测试和爬取数据。项目地址:https://github.com/chromedp/chromedp它可以模拟用户在浏览器中执行各种操作,如点击、输入文本、截取网页长图、将网页内容转换成pdf文档、下载图片等,从而获取到需要采集的数据。基......
  • Go每日一库之176:filetype(文件类型鉴别)
    filetype(https://github.com/h2non/filetype)是一个Go语言的第三方库,可以根据文件的魔数(magicnumbers)签名来推断文件的类型和MIME类型。它支持多种常见的文件类型,包括图片、视频、音频、文档、压缩包等。它还提供了一些便捷的函数和类型匹配器,可以方便地对文件进行分类和筛选......
  • Go每日一库之174:delve (Go 调试工具)
    简介Delve 用来调试 Go 语言开发的程序,该工具的目标是为 Go 语言提供一个简单、功能齐全的调试工具。为什么不推荐gdb• gdb对Go的调试支持是通过一个python脚本文件 src/runtime/runtime-gdb.py 扩展的,功能有限• gdb只能做到最基本的变量打印,却理解不了go......
  • Go每日一库之173:Pie (高性能、类型安全的slice操作库)
    在Go语言中,对slice和map是我们最常用的数据结构。比如,计算两个切片的交集、差集;判断切片中的元素是否都满足某个条件的等。我推荐大家使用这个包:[elliotchance/pie](https://github.com/elliotchance/pie)。该包封装了对切片和map的常用操作,能满足工作中的大部分需求。比如计算......
  • Go每日一库之172:go-prompt
    简介受python提示工具包的启发,在Go中构建强大的交互式提示一、代码示例packagemainimport( "fmt" "github.com/c-bata/go-prompt")funccompleter(dprompt.Document)[]prompt.Suggest{ s:=[]prompt.Suggest{ {Text:"users",Description:"Store......