Go1.19革命：打造超效能站点模板爬虫

时间：2024-07-01 15:31:36浏览次数：25

标签：return string err Go1.19 nil 爬虫 go 模板

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
)

func fetchURL(url string) (string, error) {
    resp, err := http.Get(url)
    if err != nil {
        return "", err
    }
    defer resp.Body.Close()

    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        return "", err
    }

    return string(body), nil
}

func main() {
    url := "https://example.com"
    content, err := fetchURL(url)
    if err != nil {
        fmt.Println("Error fetching URL:", err)
        return
    }
    fmt.Println(content)
}

数据解析

接下来，我们将使用golang.org/x/net/html库来解析HTML内容，并提取我们感兴趣的数据：

package main

import (
    "fmt"
    "golang.org/x/net/html"
    "strings"
)

func parseHTML(content string) []string {
    var data []string
    doc, err := html.Parse(strings.NewReader(content))
    if err != nil {
        fmt.Println("Error parsing HTML:", err)
        return data
    }
    var f func(*html.Node)
    f = func(n *html.Node) {
        if n.Type == html.ElementNode && n.Data == "a" {
            for _, a := range n.Attr {
                if a.Key == "href" {
                    data = append(data, a.Val)
                }
            }
        }
        for c := n.FirstChild; c != nil; c = c.NextSibling {
            f(c)
        }
    }
    f(doc)
    return data
}

数据存储

最后，我们将提取到的数据存储到本地文件中：

package main

import (
    "fmt"
    "os"
)

func saveToFile(filename string, data []string) error {
    file, err := os.Create(filename)
    if err != nil {
        return err
    }
    defer file.Close()

    for _, line := range data {
        _, err := file.WriteString(line + "\n")
        if err != nil {
            return err
        }
    }
    return nil
}

func main() {
    url := "https://example.com"
    content, err := fetchURL(url)
    if err != nil {
        fmt.Println("Error fetching URL:", err)
        return
    }

    data := parseHTML(content)
    err = saveToFile("output.txt", data)
    if err != nil {
        fmt.Println("Error saving to file:", err)
    }
}

运行与测试

确保所有代码在一个目录中，并且每个部分都包含在main.go文件中。运行以下命令来执行爬虫：

go run main.go

爬虫将访问指定的网站，解析链接并将其保存到output.txt文件中。

代码详解

fetchURL(url string): 发送HTTP GET请求并返回页面内容。
parseHTML(content string): 解析HTML内容，提取所有链接。
saveToFile(filename string, data []string): 将提取到的数据保存到本地文件。

注意事项

遵守robots.txt: 在爬取网站之前，检查并遵守目标网站的robots.txt文件。
频率限制: 设置适当的请求频率，避免对目标网站造成压力。
错误处理: 添加更多的错误处理代码，以便更好地调试和维护。

通过上述步骤，我们成功实现了一个基于Go1.19的简单站点模板爬虫。这个爬虫可以根据需要进行扩展，以处理更多复杂的需求。

标签：return,string,err,Go1.19,nil,爬虫,go,模板
From： https://blog.csdn.net/weixin_41859354/article/details/140102177

html+css+js文章模板
图片源代码在图片后面，点赞加关注，谢谢......
如何策划一场成功的品牌推广？案例+模板，一网打尽！
在当下的商业竞争环境中，品牌推广已成为企业成功的关键。然而要策划一场成功的品牌推广活动，不仅需要创新的思维，还需要对品牌IP打造和搜索流量有深入的了解。作为一名手工酸奶品牌创始人，目前全国也复制了100多家门店。本文将通过一个实际案例和一套策划模板，为你揭示如何策划一场......
VS导出项目模板
当我们想要在两个项目或者两台电脑上使用同一套代码，又不想重新调VS项目属性的时候，这时候就可以选择将项目导出为模板的功能，导出模板之后，就可以很方便的换个地方再用了。一直点击下一步即可，然后你会发现，你的源代码和配好的环境都添加到这个模板中了。如果想在不同的电脑上使用......
C++Primer Plus 第十四章代码重用：模板类和友元14.4.9 ----002
C++PrimerPlus第十四章代码重用：模板类和友元14.4.9提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：模板类和友元14.4.9提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录C++PrimerPlus第十四章代码重用：模板类和友元14.4......
JAVA高级进阶14设计模板
第十四天、设计模板什么是设计模板（Designpattern）?一个问题通常有n种解法，其中肯定有一种解法是最优的，这个最优的解法被人总结出来了，称之为设计模式设计模式有20多种，对应20多种软件开发中会遇到的问题单例设计模式单例设计模式作用：确保一个类只有一个对象场景：计算......
英文sci投稿后返修意见模板分享-涵盖回复审稿人的要点
如果你收到了审稿人意见的返修，无论是大修还是小修，这都是一件值得高兴的事情。在目前这个学术投稿量巨大的时代，能进入underreview，这本身不仅仅需要论文实力，还需要很大的好运一.前言本次给大家分享的是关于返修内容的书写要点，我以我自身不久前写的返修意见为例，仅供参考如果......
解决springer期刊提供的LaTex模板参考文献格式为作者+年份时的顺序问题以及如何在正文
这两天准备投稿springer下的一个期刊，拿到模板后人很麻，期刊给的latex和已出版的论文格式非常不符合，怎么办呐？不要急！下面开始改进！首先非常感谢大佬写的一篇解决方案，链接springer期刊提供的LaTex模板参考文献格式为作者+年份时的顺序问题_sn-article-CSDN博客该大佬提出的解决方......
【C++】 ——【模板初阶】——基础详解
目录1.泛型编程1.1泛型编程的概念1.2泛型编程的历史与发展1.3泛型编程的优势1.4泛型编程的挑战2.函数模板2.1函数模板概念2.2函数模板格式2.3函数模板的原理2.4函数模板的实例化2.5模板参数的匹配原则2.6函数模板的特化2.7函数模板的使用注意事项2.......
【Python爬虫实战项目】Python爬取Top100电影榜单数据并保存csv文件（附源码）
前言今天给大家介绍的是Python爬取Top100电影榜单数据保存csv文件，在这里给需要的小伙伴们帮助，并且给出一点小心得。开发工具Python版本：3.6相关模块：requests模块time模块parsel模块csv模块环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。文中......
SSM-学情分析系统-56772（免费领源码+开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP
学情分析系统摘要随着科学技术的飞速发展，各行各业都在努力与现代先进技术接轨，通过科技手段提高自身的优势；对于学情分析系统当然也不能排除在外，随着网络技术的不断成熟，带动了学情分析系统，它彻底改变了过去传统的管理方式，不仅使服务管理难度变低了，还提升了管理的灵活性。这......

Go1.19革命：打造超效能站点模板爬虫

目录

项目介绍

环境配置

1. 安装Go1.19:

2. 初始化Go模块:

核心依赖库

爬虫实现

HTTP 请求

数据解析

数据存储

运行与测试

代码详解

注意事项

相关文章

赞助商

阅读排行