首页 > 其他分享 >爬取17k小说书架

爬取17k小说书架

时间:2024-02-28 20:12:13浏览次数:20  
标签:17k 书架 22% 3A% 爬取 headers session cookie 2C%

# 登录 -> 得到cookie
# 带着cookie去访问 -> 得到数据
# 必须得把上面两个操作连起来
# 我们可以使用session进行请求 -> session 你可以认为是一连串的请求,在这个过程中的cookie不会丢失

说一说过程中遇到的问题:

刚开始我按着视频做的时候他没有headers 也没有报错 直接就会显示出来

但是我的就就报错了 所以我加了headers

加了headers之后 输出了一大段看不懂的代码 在后续爬取书架内容上 也显示登录错误 也不知道是怎么回事

之后换了一种方式 直接用登录后的cookie传入headers中就可以怕爬取到了

代码

# 登录 -> 得到cookie
# 带着cookie去访问 -> 得到数据
# 必须得把上面两个操作连起来
# 我们可以使用session进行请求 -> session 你可以认为是一连串的请求,在这个过程中的cookie不会丢失
import requests

#会话
session = requests.session()

# 1 登录
url = "https://passport.17k.com/ck/user/login"
# headers = {
#     "Cookie":"acw_sc__v2=65df1c56aac8ae0b98370967b5b2a7c021a3cc86; GUID=300934f9-6681-4650-a730-05aabd61db51; Hm_lvt_9793f42b498361373512340937deb2a0=1709120663; sajssdk_2015_cross_new_user=1; acw_tc=2760828417091206637582053ed966381076b785dc25e3b0c765d1d36dd2a5; c_channel=0; c_csc=web; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22300934f9-6681-4650-a730-05aabd61db51%22%2C%22%24device_id%22%3A%2218def87b0c363f-06c85efeee1c6-26001b51-1327104-18def87b0c4987%22%2C%22props%22%3A%7B%7D%2C%22first_id%22%3A%22300934f9-6681-4650-a730-05aabd61db51%22%7D; Hm_lpvt_9793f42b498361373512340937deb2a0=1709121141; ssxmod_itna=YqRx0DyDuD2GG=D8zDX+Qfui7qKMSxAKPfqmQD/7eEDnqD=GFDK40o3gYDCQAKQQimh1Yb=jedPNb6TRrqKb=r8cQWDCPGnDBI+xODqYYkDt4DTD34DYDixibCxi5GRD0KDFF5XUZ9Dm4GWFqGfDDoDY86RDitD4qDBGrdDKqGgCuDD0dfAYDDhAo+xrWdKEwbgWD2NFqDMjeGXeoFqFqbOEcDZiCcN4QpRDB=hxBQMAkNUAeDHCwXM4lvYbOGYA0vx9h4rFEh1YY4qFS8KY0qP4+xPUFx4ziAr+7+LlxqqDD3KQDwNBFD==; ssxmod_itna2=YqRx0DyDuD2GG=D8zDX+Qfui7qKMSxAKPfqeG9iwWDBMuD7PPP+7eDC985+x8E5wHV7eT7NO4dICAX+qK3uDN+KkouEaPaaRpfQAZl6aY9+5w2WlFAPu+IgbL+NyjUMGsTTP7j9VRTtBj4LlAufYDCKMjb0I4Q6glRjKZR6SifRy7e6=ECiA9fXV9l0R+jL=1nnLi6c/KnpqhSuAneuYEcbHH63Hm+01wuLOkaKHmkfdZwXvQIgpTZUYr9a3VqjH1FtbLLF5xFyhufSjVUfUOKB5zFSkntIYjpZLOCGEDUhHMODASdoCG4DQ9Y7y5lwqQ+Y0hs0xxzx7KD4Qbe4+bzRD7YY34oGAsWiiWi+fARz4Y=+Ywx5lBZ7wx7AYi0qN7dZud=4qIObb0QK0qIh40xtz2OBoYVoqbDdODkKhs+GxUY4kfYioxD08DiQlcDC70RCrxD==; tfstk=e_epEb9v1NbH6ILqs9CgUkB9fkjGsJEU-yrXE40HNPUT4zpHKYDnN0gt2eM3Vwz8eVas-yV3qPKUBrpkKw5UVLHoFZbcntqFYYk5oms40wqFnTtXvtX0Yk1XTLNOnMz0tljfOTtCfQ9Lp8nCGp-Dwweb4DhKyL0we02enfufL2JDn2nn9HqIWL97BgSbn-IUpE0xqBIOXQRrOcR-pRDIXgdFMc3cjCAyafmZXqjOXQRrOcotoGAMaQlib"
# }
data = {
    "loginName": "",
    "password": ""
}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
}
response = session.post(url=url, data=data,headers=headers)
# print(response.text)
#print(response.cookies)
#print(response.status_code)
# 2.拿书架上的书
# 刚才的那个session中是由cookie的
r = requests.get("https://user.17k.com/ck/user/myInfo/103174741?bindInfo=1&appKey=2406394919",headers = {
    "Cookie":"acw_sc__v2=65df1c56aac8ae0b98370967b5b2a7c021a3cc86; GUID=300934f9-6681-4650-a730-05aabd61db51; Hm_lvt_9793f42b498361373512340937deb2a0=1709120663; sajssdk_2015_cross_new_user=1; ssxmod_itna=Yq+hBKDKD50K7KD=rGHr4PpDgiKEIIAhAvQ034D/YDfh4iNDnD8x7YDvAAwFbA/QAPwqfK8RcwKfCe27+ef+nY8cQWDCPGnDB9wxODqYYCDt4DTD34DYDixibCxi5GRD0KDFF5XUZ9Dm4GWFqGfDDoDY86RDitD4qDBmrdDKqGgCdxD0q3A9DDhjo+xrWdKEwbgzDrqFqDMjeGX8o9eFqbOE=xZiCaq4WpRDB=hxBQMAkNUAeDHCwXM4eYvYh+sK7x38hp5Y7h=+YxpbOw4zYxuLBh=8iAK8O+KUS5QbDDAYYxQR5AxeD===; ssxmod_itna2=Yq+hBKDKD50K7KD=rGHr4PpDgiKEIIAhAvQ0YG9bwDfxGN4tGazzYI=98NzTIxn4t42IZwBNhg3flr2w/4tQSNvov+TgDIB9I6MuOkXUl5WReV3tfRnKHtiSjYjxwtQbgUVga/7ZC6KOVaa1dEIk8P7svZKw44A8VEY+hOPGIaFm7S5zxSmmKIv+O4fwK/BA7cot=9Kac7AElo3fs/bC3cuGKbHIEFkL2fKQ4NgWlRL0H9mvypdtQ51G=elENVIXRxTIaTFc4Xi7ZcF4+tMQzyo8fsmBKNi3DQFYZYw7ymuDkmzq9ya/lDVzi4bqsbieRhxRrq90Veu4=0iYD1UyDK04GYV+04SiQS4KcBQlBZmrdfr/+i4Ki2Kb4tE=02KDcr8iH4r=Ig5OB=k0YsDDFqD+OUeYhP7tqn++Uh=lrKBwKKw=QKNmK4lG2AGNbD22xi6xs=G5BWeQKbWjqBnafR7WG+bGR/xBbDxD; accessToken=avatarUrl%3Dhttps%253A%252F%252Fcdn.static.17k.com%252Fuser%252Favatar%252F01%252F41%252F47%252F103174741.jpg-88x88%253Fv%253D1709113797000%26id%3D103174741%26nickname%3D%25E7%25AD%2589%25E9%25A3%258E%25E5%2590%25B9%25E4%25B9%258B%25E9%2587%258D%25E7%2594%259F%26e%3D1724672676%26s%3Df686740c81f8838a; c_channel=0; c_csc=web; tfstk=eTGHEu_JgvyBhO1jWDFB6GiG_q9TdMN7C0C827EyQlr_2eZLv4oorqyz86oKIumZjkP89XdoElPUFvE8vuVoPmY9DIdxR2N7_nKvM_DxPqFrI3BVK2gQNN_O4KHZR_XaQjSF0Kv4kMcv--qco_hfuQOrMouUY23x__wOdVqGa_liI8q2qlfPaf4h49XN3bkhNP8-sT67LPagDY0OgHf-qNdwSFX2PJz_RoLMST67LPagDFYG3UwU5yZA.; Hm_lpvt_9793f42b498361373512340937deb2a0=1709120677; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22103174741%22%2C%22%24device_id%22%3A%2218def87b0c363f-06c85efeee1c6-26001b51-1327104-18def87b0c4987%22%2C%22props%22%3A%7B%7D%2C%22first_id%22%3A%22300934f9-6681-4650-a730-05aabd61db51%22%7D"
})
print(r.json())

 

标签:17k,书架,22%,3A%,爬取,headers,session,cookie,2C%
From: https://www.cnblogs.com/lin513/p/18041668

相关文章

  • Java中使用Jsoup实现网页内容爬取与Html内容解析并使用EasyExcel实现导出为Excel文件
    场景Pythont通过request以及BeautifulSoup爬取几千条情话:https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/87348030Node-RED中使用html节点爬取HTML网页资料之爬取Node-RED的最新版本:https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/124182289Jsoup......
  • 爬取行政区划代码
    爬取国家统计局统计用区划代码和城乡划分代码2023版python实现一、打开国家统计局官网https://www.stats.gov.cn/sj/tjbz/qhdm/二、分析每一级URL找到规律省级:https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/index.html地市级:https://www.stats.gov.cn/sj/tj......
  • 爬取网页曲线图的后台数据——Python实现
    爬取网页曲线图数据的应用十分广泛。在市场分析领域,投资者可以通过分析金融网站上的股票曲线图数据来了解股市趋势,从而做出更明智的投资决策。在科学研究中,研究人员可以通过爬取科学期刊网站上的曲线图数据来分析实验结果,推动科学进步。在气象领域,气象学家可以通过爬取气象网站上......
  • 爬取所有城市名称
    fromlxmlimportetreeimportrequests#爬取所有城市名称if__name__=='__main__':url='https://www.aqistudy.cn/historydata/'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/53......
  • 爬取彼岸图库中的图片数据
    fromlxmlimportetreeimportrequestsimportos#爬取彼岸图库中的图片数据if__name__=='__main__':#爬取到页面源码数据url='https://pic.netbian.com/4kmeinv/'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;W......
  • 爬取58二手房数据
    fromlxmlimportetreeimportrequests#爬取58二手房if__name__=='__main__':#爬取到页面源码数据url='https://m.58.com/bj/ershoufang/?reform=pcfront&PGTID=0d000001-000f-1085-0e36-5f17322b35a6&ClickID=1'headers={......
  • 每日(python爬取)
    python爬取网络小说清洗并下载至txt文件 什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以......
  • 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
    #UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求载体的身份标识为某一款浏览器,说明是正常用户通过浏览器发起的正常的请求#如果检测到非浏览器发起的请求,则表示请求可能为不正常的请求(爬虫),那么有可能就会拒绝该请求#UA:User-Agent:(请求身份载体的身份标识)i......
  • p站图片爬取
    python爬虫主要思路:1.选取目标网页:获得链接,观察源代码构成。2.用request库的get方法取得源代码。其中header参数用于伪装正常浏览器发送请求,proxies用于设置访问代理,url为目标网站3.获取text后用BS对象查找相应内容标签,要注意利用id,class名的特殊性。4.获取到相应内容标签后需......
  • Python 爬取历史天气数据
    网站原始数据https://www.tianqishi.com/hangzhou/20240214.html源码importrequestsfrombs4importBeautifulSoupimportdatetimedefgetEachDayWeather(loaction,timeStamp):"""获取每一天的天气数据"""#1.获取网页地址urlHea......