爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

时间：2024-02-22 14:22:21浏览次数：39

标签：__ 搜狗请求 url text fileName 爬取采集器 UA

#UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求载体的身份标识为某一款浏览器，说明是正常用户通过浏览器发起的正常的请求
# 如果检测到非浏览器发起的请求，则表示请求可能为不正常的请求（爬虫），那么有可能就会拒绝该请求
#UA：User-Agent：（请求身份载体的身份标识）

import requests
if __name__ == '__main__':
    # UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    url='https://sogou.com/web?'
    # 处理url携带的参数：封装到字典中
    kw = input('enter a word')
    param ={
        'query':kw
    }
    #对指定的url发起的请求 对应的url是携带参数的，并且在请求过程中处理了参数
    response = requests.get(url=url, params=param,headers=headers)
    page_text = response.text
    fileName = kw+'.html'
    with open(fileName, 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,'保存成功！！！')

其中UA检测是反爬技术 UA伪装是来针对这种技术进行爬取

标签：__,搜狗,请求,url,text,fileName,爬取,采集器,UA
From： https://www.cnblogs.com/lin513/p/18027227

p站图片爬取
python爬虫主要思路：1.选取目标网页：获得链接，观察源代码构成。2.用request库的get方法取得源代码。其中header参数用于伪装正常浏览器发送请求，proxies用于设置访问代理，url为目标网站3.获取text后用BS对象查找相应内容标签，要注意利用id，class名的特殊性。4.获取到相应内容标签后需......
Python 爬取历史天气数据
网站原始数据https://www.tianqishi.com/hangzhou/20240214.html源码importrequestsfrombs4importBeautifulSoupimportdatetimedefgetEachDayWeather(loaction,timeStamp):"""获取每一天的天气数据"""#1.获取网页地址urlHea......
爬取【豆瓣电影top250数据】 python代码
importrequestsimportopenpyxlimportreimporttimeimportpymysqlclassDoubanSpider:def__init__(self):self.url_temp="https://movie.douban.com/top250?start={}"self.headers={'User-Agent':'Mozilla/5.0......
Python实例：爬取网页中的一列数据
在进行数据分析和处理时，我们常常需要从网页中提取数据。本文将介绍如何使用Python进行网页爬虫，从网页中抓取特定列的数据。一、安装所需库首先，我们需要安装两个Python库：requests和BeautifulSoup。requests库用于发送HTTP请求，而BeautifulSoup库用于解析HTML文档。可以使用以下命令来......
python爬虫爬取豆瓣电影top250并写入Excel中
importrequestsimportreimportopenpyxl#创建工作表wb=openpyxl.Workbook()ws=wb.active#调整列距forletterin['B','C']:ws.column_dimensions[letter].width=66#发送网络请求headers={"User-Agent":'Mozilla/5.0(WindowsNT10.0;Win64;x64)......
python爬取教习网试卷下载
#!/usr/local/bin/python3#-*-encoding:utf-8-*-importrequestsfromlxmlimportetreeimportosfromPILimportImageimportshutildefget_doc_url(url):headers={"User-Agent":"Mozilla/5.0(Macintosh;IntelMacOS......
深蓝词库转换3.1版本发布——支持新版搜狗bin用户词库及更多功能优化
经过单单nopdan这段时间的努力，我们终于迎来了深蓝词库转换3.1版本的发布。在这个版本中，我们增加了对新版搜狗用户词库的支持，并针对用户反馈的问题进行了一系列的优化和修复。下面就让我来为大家详细介绍这个版本的亮点。亮点深蓝词库转换3.1版本发布包含了以下修改：支持新版搜......
Selenium爬取文章实例
这一篇主要是解决一个问题：浏览器操作下拉才能显示更多的内容fromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServicefromselenium.webdriver.common.byimportByimporttimethepaper_dict={}web=webdriver.Chrome(service=Service('......
提高爬虫爬取效率的五种方法海外代理IP介绍
随着互联网的飞速发展，人们获取数据的方式也在不断更替，如今通过爬虫来获取互联网数据已经成为了主流的数据获取方式。不过目前对于爬虫而言，最核心的问题就是爬取效率。在这个“时间就是生命，效率就是金钱”的时代，爬取效率过低就意味着落后。一般来说，提高爬虫爬取效率的方法主要有以下......
【2024.01.19】huginn爬取什么值得买的排行榜
一句命令就行，主要是搭配RSS使用dockerrun-d-p3000:3000ghcr.io/yhdsl/huginn:latest这次主要是为了自定义爬取内容筛选掉一些我用不上的，比如说奶粉啥的{"schema_version":1,"name":"什么值得买榜单","description":"关键词里面自己修改","source_url&qu......

爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

相关文章

赞助商

阅读排行