首页 > 其他分享 >爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)

爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)

时间:2024-02-22 14:22:21浏览次数:23  
标签:__ 搜狗 请求 url text fileName 爬取 采集器 UA

#UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求载体的身份标识为某一款浏览器,说明是正常用户通过浏览器发起的正常的请求
# 如果检测到非浏览器发起的请求,则表示请求可能为不正常的请求(爬虫),那么有可能就会拒绝该请求
#UA:User-Agent:(请求身份载体的身份标识)

import requests
if __name__ == '__main__':
    # UA伪装:将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    url='https://sogou.com/web?'
    # 处理url携带的参数:封装到字典中
    kw = input('enter a word')
    param ={
        'query':kw
    }
    #对指定的url发起的请求 对应的url是携带参数的,并且在请求过程中处理了参数
    response = requests.get(url=url, params=param,headers=headers)
    page_text = response.text
    fileName = kw+'.html'
    with open(fileName, 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,'保存成功!!!')

其中UA检测是反爬技术 UA伪装是来针对这种技术进行爬取

标签:__,搜狗,请求,url,text,fileName,爬取,采集器,UA
From: https://www.cnblogs.com/lin513/p/18027227

相关文章

  • p站图片爬取
    python爬虫主要思路:1.选取目标网页:获得链接,观察源代码构成。2.用request库的get方法取得源代码。其中header参数用于伪装正常浏览器发送请求,proxies用于设置访问代理,url为目标网站3.获取text后用BS对象查找相应内容标签,要注意利用id,class名的特殊性。4.获取到相应内容标签后需......
  • Python 爬取历史天气数据
    网站原始数据https://www.tianqishi.com/hangzhou/20240214.html源码importrequestsfrombs4importBeautifulSoupimportdatetimedefgetEachDayWeather(loaction,timeStamp):"""获取每一天的天气数据"""#1.获取网页地址urlHea......
  • 爬取 【豆瓣电影top250数据】 python代码
    importrequestsimportopenpyxlimportreimporttimeimportpymysqlclassDoubanSpider:def__init__(self):self.url_temp="https://movie.douban.com/top250?start={}"self.headers={'User-Agent':'Mozilla/5.0......
  • Python实例:爬取网页中的一列数据
    在进行数据分析和处理时,我们常常需要从网页中提取数据。本文将介绍如何使用Python进行网页爬虫,从网页中抓取特定列的数据。一、安装所需库首先,我们需要安装两个Python库:requests和BeautifulSoup。requests库用于发送HTTP请求,而BeautifulSoup库用于解析HTML文档。可以使用以下命令来......
  • python爬虫爬取豆瓣电影top250并写入Excel中
    importrequestsimportreimportopenpyxl#创建工作表wb=openpyxl.Workbook()ws=wb.active#调整列距forletterin['B','C']:ws.column_dimensions[letter].width=66#发送网络请求headers={"User-Agent":'Mozilla/5.0(WindowsNT10.0;Win64;x64)......
  • python爬取教习网试卷下载
    #!/usr/local/bin/python3#-*-encoding:utf-8-*-importrequestsfromlxmlimportetreeimportosfromPILimportImageimportshutildefget_doc_url(url):headers={"User-Agent":"Mozilla/5.0(Macintosh;IntelMacOS......
  • 深蓝词库转换3.1版本发布——支持新版搜狗bin用户词库及更多功能优化
    经过单单nopdan这段时间的努力,我们终于迎来了深蓝词库转换3.1版本的发布。在这个版本中,我们增加了对新版搜狗用户词库的支持,并针对用户反馈的问题进行了一系列的优化和修复。下面就让我来为大家详细介绍这个版本的亮点。亮点深蓝词库转换3.1版本发布包含了以下修改:支持新版搜......
  • Selenium爬取文章实例
    这一篇主要是解决一个问题:浏览器操作下拉才能显示更多的内容fromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServicefromselenium.webdriver.common.byimportByimporttimethepaper_dict={}web=webdriver.Chrome(service=Service('......
  • 提高爬虫爬取效率的五种方法 海外代理IP介绍
    随着互联网的飞速发展,人们获取数据的方式也在不断更替,如今通过爬虫来获取互联网数据已经成为了主流的数据获取方式。不过目前对于爬虫而言,最核心的问题就是爬取效率。在这个“时间就是生命,效率就是金钱”的时代,爬取效率过低就意味着落后。一般来说,提高爬虫爬取效率的方法主要有以下......
  • 【2024.01.19】huginn爬取什么值得买的排行榜
    一句命令就行,主要是搭配RSS使用dockerrun-d-p3000:3000ghcr.io/yhdsl/huginn:latest这次主要是为了自定义爬取内容筛选掉一些我用不上的,比如说奶粉啥的{"schema_version":1,"name":"什么值得买榜单","description":"关键词里面自己修改","source_url&qu......