网络小爬虫实战案例

时间：2023-01-13 10:42:33浏览次数：40

标签：实战 end err start url fmt 小爬虫案例 err1

爬虫总体上分为四个主要步骤：

1、明确目标，需要做的从哪个途径或者哪个范围内网页搜索。

2、爬，将获取到的网站内容全部爬下来。

3、取，对数据分析去掉没用的数据。

4、处理数据，按照我们想要的方式存储和使用。

某吧小爬虫

代码如下：

package main

import (
  "fmt"
  "net/http"
  "os"
  "strconv"
)

//爬取网页内容
func HttpGet(url string) (result string, err error) {
  resp, err1 := http.Get(url)
  if err1 != nil {
  err = err1
  return
  }
  defer resp.Body.Close()
  //读取网页body的内容
  buf := make([]byte, 1204*4)
  for {
  n, err := resp.Body.Read(buf)
  if n == 0 { //读取结束，或者出问题
    fmt.Println("resp.Body.Read err = ", err)
    break
  }
  result += string(buf[:n])
  }
  return
}

func DoWork(start, end int) {
  fmt.Printf("正在爬取 %d 到 %d 的页面\n", start, end)

  //1,明确目标（要知道你准备在哪个范围或者网站去搜索）
  //https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=0 //下一页+50
  for i := start; i <= end; i++ {
  url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
  fmt.Println("url = ", url)

  //2,爬取内容（将网站内容爬取下来）
  result, err := HttpGet(url)
  if err != nil {
    fmt.Println("HttpGet err = ", err)
    continue
  }
  //把内容写入到文件
  fileName := strconv.Itoa(i) + ".html"
  f, err1 := os.Create(fileName)
  if err1 != nil {
    fmt.Println("os.Create err1 = ", err1)
    continue
  }
  f.WriteString(result) //写内容
  f.Close()             //关闭文件

  }

}

func main() {
  var start, end int
  fmt.Printf("请输入起始页(>= 1)：")
  fmt.Scan(&start)
  fmt.Printf("请输入终止页(>= 起始页)：")
  fmt.Scan(&end)

  DoWork(start, end)

}

运行之后，将会把爬取的内容保存在文件中。

标签：实战,end,err,start,url,fmt,小爬虫,案例,err1
From： https://blog.51cto.com/u_13488918/6005791

Vue3+vite+Echarts案例大屏可视化--千峰（推荐）
https://www.bilibili.com/video/BV14u411D7qK?p=33&spm_id_from=pageDriver&vd_source=e2cfe74d93fb5b3f60bd7487ede60218主题展示 Vue3.2中<template><!--......
全网echarts案例资源大总结和echarts的高效使用技巧（细节版）
全网echarts案例资源大总结和echarts的高效使用技巧（细节版）众所周知，在现今的开发大环境下，数据可视化（大屏化）项目在前端开发中的比重越来越大。而其中使用率最高的插件无疑......
虹科案例 | 超级计算中心如何使用高性能计算推进科学研究？
计算、理论、实验被称为现代科学研究的“三驾马车”，无论是高校、研究所还是企业，高性能计算对于材料、化学、计算机、工程、生命科学、大气等领域以及计算机辅助工程北德超......
【Python爬虫项目实战】Python爬虫豆瓣Top250电影短评数据保存本地
前言今天给大家介绍的是Python爬虫豆瓣Top250电影短评数据保存本地，在这里给需要的小伙伴们帮助，并且给出一点小心得。开发工具Python版本：3.6相关模块：requests模块par......
【深入浅出Seata原理及实战】「入门基础专题」带你透析认识Seata分布式事务服务的原理
分布式事务的背景随着业务的不断发展，单体架构已经无法满足我们的需求，分布式微服务架构逐渐成为大型互联网平台的首选，但所有使用分布式微服务架构的应用都必须面临一个十分......
Web安全入门与靶场实战（3）- 安装配置Kali
在正式开始课程内容之前，首先需要搭建好实验环境，本课程的实验环境主要是：VMwareWorkstation+Kali+CentOS。VMwareWorkstation推荐从Vmware官网下载试用版，然后在网上找序......
不背锅运维：k8s探针实战
重启策略Always：当容器终止退出，总是重启容器，默认策略OnFailure：当容器异常退出（退出状态码非0）时，才重启容器Never：当容器终止退出，从不重启容器查看pod的重启策略#查看po......
MySQL基础：通过SQL对表、数据进行CRUD，万字实际案例手把手教程
MySQL基础今日目标：能通过SQL对表进行CRUD能通过SQL对数据进行CRUD一、DDL:操作数据库我们先来学习DDL来操作数据库。而操作数据库主要就是对数据库的增删查操作。1.1查询查......
【Python爬虫实战项目】Python爬虫批量下载去哪儿网站旅游数据保存本地
前言今天给大家介绍的是Python爬虫批量下载去哪儿网站旅游景点信息数据，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识......
【深入浅出Seata原理及实战】「入门基础专题」带你透析认识Seata分布式事务服务的原理
分布式事务的背景随着业务的不断发展，单体架构已经无法满足我们的需求，分布式微服务架构逐渐成为大型互联网平台的首选，但所有使用分布式微服务架构的应用都必须面临一个十分棘......

网络小爬虫实战案例

相关文章

赞助商

阅读排行