多线程并发爬虫教程示例

时间：2023-01-13 10:39:58浏览次数：45

标签：err 示例 url fmt 爬虫爬取 start err1 多线程

爬虫总体上分为四个主要步骤：

1、明确目标，需要做的从哪个途径或者哪个范围内网站搜索。

2、爬，将获取到的网站内容全部爬下来。

3、取，对数据分析去掉没用的数据。

4、处理数据，按照我们想要的方式存储和使用。

并发版爬虫

单任务爬取数据太过缓慢，这个是针对小型项目业务场景。如果爬取量非常大，只能通过并发的方式实现快速采集。

package main

import (
  "fmt"
  "net/http"
  "os"
  "strconv"
)

//爬取网页内容
func HttpGet(url string) (result string, err error) {
  resp, err1 := http.Get(url)
  if err1 != nil {
  err = err1
  return
  }
  defer resp.Body.Close()
  //读取网页body的内容
  buf := make([]byte, 1204*4)
  for {
  n, err := resp.Body.Read(buf)
  if n == 0 { //读取结束，或者出问题
    fmt.Println("resp.Body.Read err = ", err)
    break
  }
  result += string(buf[:n])
  }
  return
}
func SpiderPage(i int, page chan<- int) {
  url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
  fmt.Println("url = ", url)

  //2,爬取内容（将网站内容爬取下来）
  result, err := HttpGet(url)
  if err != nil {
  fmt.Println("HttpGet err = ", err)
  return
  }
  //把内容写入到文件
  fileName := strconv.Itoa(i) + ".html"
  f, err1 := os.Create(fileName)
  if err1 != nil {
  fmt.Println("os.Create err1 = ", err1)
  return
  }
  f.WriteString(result) //写内容
  f.Close()             //关闭文件
  page <- i
}

func DoWork(start, end int) {
  fmt.Printf("正在爬取 %d 到 %d 的页面\n", start, end)
  page := make(chan int)
  //1,明确目标（要知道你准备在哪个范围或者网站去搜索）
  //https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=0 //下一页+50
  for i := start; i <= end; i++ {
  go SpiderPage(i, page)
  }

  for i := start; i <= end; i++ {
  fmt.Printf("第%d个页面爬取完成\n", <-page)
  }
}

func main() {
  var start, end int
  fmt.Printf("请输入起始页(>= 1)：")
  fmt.Scan(&start)
  fmt.Printf("请输入终止页(>= 起始页)：")
  fmt.Scan(&end)

  DoWork(start, end)

}

利用go关键词实现并发，然后再配合管道以保证任务在完成之前阻塞状态，从而能够正常完成。

标签：err,示例,url,fmt,爬虫,爬取,start,err1,多线程
From： https://blog.51cto.com/u_13488918/6005803

【Python爬虫项目实战】Python爬虫豆瓣Top250电影短评数据保存本地
前言今天给大家介绍的是Python爬虫豆瓣Top250电影短评数据保存本地，在这里给需要的小伙伴们帮助，并且给出一点小心得。开发工具Python版本：3.6相关模块：requests模块par......
(狂神)多线程JUC并发
1、什么是JUCJUC就是java.util.concurrent下面的类包，专门用于多线程的开发。java.util包下的三个工具类：java.util.concurrentjava.util.concurrent.atomicjava.util.......
Springboot简单整合JPA示例
Springboot整合JPAhttps://blog.csdn.net/wdy00000/article/details/123588201文章目录JPA技术常用注解Springboot整合JPA1.引入JPA依赖2.配置3.启动类4.实体类5.......
【Python爬虫实战项目】Python爬虫批量下载去哪儿网站旅游数据保存本地
前言今天给大家介绍的是Python爬虫批量下载去哪儿网站旅游景点信息数据，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识......
Python学习笔记（25）~爬虫基础学习：获取一个POST请求
获取一个POST请求Demo 练习：向目的url发起post请求，并打印服务器返回的数据。#!/usr/bin/python3importurllib.request,urllib.error,urllib.parse‘’‘练......
【Python】爬虫笔记-从PyMySQL到DBUtils
1.PyMySQL1.1基本使用PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，Python2中则使用mysqldb。PyMySQL遵循Python数据库APIv2.0规范，并包含了pur......
继承Thread类创建多线程
之前我们学习了多线程，今天来说Java程序中如何实现多线程，Java提供了两种多线程实现方法，今天就来说说第一种继承Thread类创建多线程，另一种方法请看下篇！在学习多线程之前，先来看......
线程池使用ExecutorService 多线程处理队列任务
最近转到银行工作，在做最核心的财务账务部分，对我来说是一个比较新的东西，工作也已经四年有余，接触一些新的东西，也是不错，每天也累得像狗...不说了。/捂脸接下来说一种非常实用的......
OpenGL ES 2.0编程指导阅读笔记（二）你好，三角形：OpenGL ES 2.0示例
本章覆盖以下内容：用EGL创建屏上表面加载顶点和片元着色器创建程序对象，附加顶点和片元着色器，并链接程序对象设置视点清除colorbuffer渲染一个简单图元使colorbuff......
图片爬虫程序几行代码轻松搞定
新手在学习爬虫时，不管是思路还是相关教程新手都可以参照其他人方法，有对的地方也有错的的地方，比如有些方面不太理解，那么可以根据自身实力换成自己能理解的方式，最终代码能跑动......

多线程并发爬虫教程示例

相关文章

赞助商

阅读排行