首页 > 编程语言 >百度联想:用Python抓取百度关键字联想信息

百度联想:用Python抓取百度关键字联想信息

时间:2023-01-24 18:11:36浏览次数:56  
标签:http Python 联想 url html print import com 百度

Python抓取百度关键字联想信息

参考:https://www.jianshu.com/p/dc1ec2456331?appinstall=0

MAC上运行经常得到乱码,只有偶尔非乱码;

该方法其实没什么实用价值。

#https://www.jianshu.com/p/dc1ec2456331?appinstall=0
#coding: utf-8

import requests
import urllib
import re
import sys
from bs4 import BeautifulSoup

def getAssociate(keyword, savedFilePath):
    gjc = urllib.parse.quote(keyword)  # 中文转换成url编码
    url = 'https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd='+gjc+'&json=1&p=3&sid=&csor=2&pwd= &cb=jQuery110207361392755424963_1505220177752&_=1505220177757'
    proxies = {"http":'http://119.5.0.53', "http":'http://140.250.170.110', "http":'http://221.229.46.81'}#使用3个代理ip地址,防止多次爬取屏蔽
    headers = {'GET':url,
                'HOST':'sp0.baidu.com',
                'Referer':'https://www.baidu.com/?tn=91694651_hao_pg',
                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'
               }
    print('url:')
    print(url)
    html = requests.get(url, headers=headers, proxies=proxies)#取得html文本,并且使用代理ip
    html.encoding = 'utf-8'
    print(html.content)
    print('=============')
    soup = BeautifulSoup(html.content, 'html.parser')
    res = soup.get_text()#将html变成文本格式
    print(res)
    key_word = re.findall("\"(.*?)\"", res)#正则获得字符串里面的字符
    num = 0

    with open(savedFilePath, 'w', encoding='utf-8') as f:
        # 覆盖'w',追加'a+'
        for i in key_word:
            num += 1
            if i == "s":#通过排查得到's'字符后面的字符为关键字
                for item in key_word[num:]:
                    print(item)
                    f.writelines(item)
                    f.writelines('\n\n')
    f.close()
if __name__ == '__main__':
    # getAssociate('王',r'C:\AH_TOOLS\AH_JavaCode\AhProjV5.1\temp\keyword')
    # Java调用
    a = sys.argv[1].split(",")
    keyword = a[0]
    savedFilePath = a[1]
    getAssociate(keyword,savedFilePath);

标签:http,Python,联想,url,html,print,import,com,百度
From: https://www.cnblogs.com/tigerlion/p/17066232.html

相关文章

  • 【转载】 python进程绑定CPU
    版权声明:本文为CSDN博主「人间再无张居正」的原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/u013887652/article/deta......
  • Python入门之选择语句
    """选择语句"""sex=input("请输入性别:")ifsex=="男":print("您好,先生!")elifsex=="女":print("您好,女士!")else:print("性别未知!")print("后续逻辑......
  • Python - XSS-href
    参考资料:https://owasp-skf.gitbook.io/asvs-write-ups/cross-site-scripting-href-xss-href/kbid-3-cross-site-scripting-href$sudodockerpullblabla1337/owasp-sk......
  • Python3配合Django来调用钉钉在线api实时监测员工考勤打卡情况
    基本上钉钉(dingding)作为一个远程办公平台来用的话,虽然差强人意,但是奈何市面上没有啥更好的选择,矬子里拔将军,也还是可以凑合用的,不过远程办公有个问题,就是每天需要检查员......
  • python入门学习笔记002--趣学Python算法--第2例兔子产子
    例题如下:有一对兔子,从出生后的第3个月起每个月都生一对兔子。小兔子长到第3个月后每个月又生一对兔子,假设所有的兔子都不死,问30个月内每个月的兔子总对数为多少?  个......
  • python入门学习笔记001--趣学Python算法--第一例抓交通肇事犯
    本人是python小白初学者,过年期间实在闲的无聊,偶尔翻到《趣学Python算法100例》这本书,浅浅阅读后感觉写的很不错。本系列案例均取自该书,只分享题目和自己的编的代码,问题分析......
  • python-opencv 实现人脸识别功能
    使用python-opencv实现人脸识别功能。思路如下:1.使用opencv库打开摄像头。2.加载opencv中自带的人脸特征识别分类器3.输出结果代码如下:importcv2importmatplotl......
  • python怎么对对边录制的mp4文件取最后一帧图信息
    提问: python怎么对对边录制产生的mp4文件取最后一帧图信息,这个录制的mp4文件还在录制中会不断增加文件体积,我要做个边录制边取最后一帧数进行识别物品类似功能,并且要求取......
  • Python入门之 行的理解
    """行"""#三个物理行,三个逻辑行a=1b=a+2c=a+b#一个物理行,三个逻辑行(不建议)a=1;b=a+2;c=a+b#一个物理行,一个逻辑行d=1+2+3......
  • day11 学生管理系统python版本
    学生管理系统Python版本student.py'''这个是学生模块,用来实现学生模型类的定义保存学生信息'''classStudent(object):#定义一个初始化方法,定义学生信息......