首页 > 其他分享 >轻松爬取灰豚数据的抖音商品数据

轻松爬取灰豚数据的抖音商品数据

时间:2023-04-30 10:34:22浏览次数:42  
标签:cookies False com 取灰豚 headers json 抖音 https 数据

轻松爬取灰豚数据的抖音商品数据

调用两次登录接口实现模拟登录

我们分析登录接口,发现调用了两次不同的接口;而且,需要先调用 https://login.huitun.com/weChat/userLogin,然后再调用 https://dyapi.huitun.com/userLogin 接口。



登录成功之后,SESSION 在第二个接口的 Cookie 中返回。

headers = {}
json_data = {
    'mobile': 'xxxx',
    'password': 'xxxx',
}
response = requests.post('https://login.huitun.com/weChat/userLogin', headers=headers, json=json_data)
print(response.json())

# 输出的结果
# {'status': 200, 'code': 20001, 'message': '登录成功!', 'extData': 0}
cookies = {}

headers = {}

params = {
    'htspm': '',
    'shareid': '',
}

json_data = {
    'mobile': 'xxxx',
    'password': 'xxxx',
}

response = requests.post('https://dyapi.huitun.com/userLogin', params=params, cookies=cookies, headers=headers, json=json_data)
print(response.cookies.items())

# 输出的结果
# [('SESSION', 'NzAyNDQ4MjMtMGMyZS00OTBiLThiMWUtMTNmZWNkMjkxYThh')]

爬取商品数据

我们使用上面获取到的 SESSION,调用商品接口。

cookies = {
    'SESSION': 'YmIzODMwZjYtMTBmMC00NzViLTg3NDctNjQ2OGM5NDE1NzU4',
}

headers = {}

params = {
    '_t': '1682146378787',
    'cids': '10117',
}

response = requests.get('https://dyapi.huitun.com/search/user', params=params, cookies=cookies, headers=headers)
print(response.json())

返回的数据结果,这里只展示部分数据。

{
	'code': 0,
	'toRole': 3,
	'data': [{
		'authorId': 'dongfangzhenxuan',
		'avatarUrl': 'https://p3.douyinpic.com/aweme/200x200/aweme-avatar/tos-cn-avt-0015_34583dc5dc55d5983f8a57fafcbceb6d.jpeg',
		'awemeCount': 4146,
		'awewe30Count': 0,
		'category': '剧情',
		'cid': '10139',
		'city': '北京',
		'collect': False,
		'digg30IncCount': 0,
		'enterpriseVerifyReason': '东方甄选(北京)科技有限公司',
		'follower30IncCount': 0,
		'followerCountTotal': 29853836,
		'gender': '未知',
		'htScore': 0.0,
		'isFollow': False,
		'isStar': False,
		'isVerified': False,
		'live': True,
		'liveGmv30': 400000000,
		'liveGmv30Str': '4亿+',
		'mcn': False,
		'monitor': False,
		'nickname': '东方甄选',
		'record': False,
		'roomId': '7224668581445847845',
		'score': 0.0,
		'signature': '新东方集团、新东方在线唯一农产品直播带货平台\n客服电话:400-068-6666',
		'totalFavorited': 142631625,
		'uid': '2384194153219051',
		'withFusionShopEntry': True
	} ],
	'roleId': 2,
	'count': 5,
	'sum': 3,
	'message': '',
	'nextRole': 0,
	'path': '/search/user',
	'total': 20,
	'status': 200
}

小结

  • 灰豚数据的登录需要调用两次不同的登录接口,而且要注意先后顺序。
  • 登录成功之后,需要从 Cookie 数据中提取出 SESSION。
  • 将 SESSION 应用到其他数据接口,便可以爬取到数据了。
  • 最后,声明本篇文章仅供学习参考,网络不是法外之地,切勿进行非法用途。
  • 源代码 Github 地址:https://github.com/yxhsea/mock_login/tree/master/huitun

标签:cookies,False,com,取灰豚,headers,json,抖音,https,数据
From: https://www.cnblogs.com/yxhblogs/p/17364979.html

相关文章

  • 如何优化操作大数据量数据库(几十…
    聚集索引的重要性和如何选择聚集索引在上一节的标题中,笔者写的是:实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时,笔者发现这第三种存储过程在小数据量的情况下,有如下现象:1、分页速度一般维持在1秒和3秒之间。2、在......
  • 如何优化操作大数据量数据库(改善…
    改善SQL语句很多人不知道SQL语句在SQLSERVER中是如何执行的,他们担心自己所写的SQL语句会被SQLSERVER误解。比如:select*fromtable1wherename='zhangsan'andtID>10000和执行:select*fromtable1wheretID>10000andname='zhangsan'一些人不知道以上两条语句的......
  • 轻松绕过 Graphql 接口爬取有米有数的商品数据
    轻松绕过Graphql接口爬取有米有数的商品数据有米有数数据的API接口,使用的是一种API查询语言graphql。所有的API只有一个入口,具体的操作隐藏在请求数据体里面传输。模拟登录,获取sessionId调用登录接口,进行模拟登录。cookies={}headers={}json_data={'......
  • MySQL DDL数据库操作
    SQL全称StructuredQueryLanguage,结构化查询语言。操作关系型数据库的编程语言,定义了一套操作关系型数据库统一标准。SQL通用语法1、SQL语句可以单行或多行书写,以分号结尾。2、SQL语句可以使用空格/缩进来增强语句的可读性。3、MySQL数据库的SQL语句不区分大小写,关键字建议使用大......
  • 08-react修改state数据驱动视图UI的更新【注意和vue的区别】
    //setState修改状态如果是直接修改页面不会改变使用setState修改数据才会驱动视图的改变//setState的原理:修改玩状态之后会调用render函数importReactDomfrom"react-dom"import{Component}from"react"//react状态不可变要重新创建状态,及覆盖原来的......
  • 智慧校园智慧教育大数据平台
    项目解决方案智慧校园基于该学校现状和发展定位,打造“5G+一平台+N应用”智慧校园解决方案,赋能教学、管理和服务升级,打造5G+智慧校园的深度应用场景,助力教育智能化发展。建设目标打造5G教育大数据平台,建设目标:5G教育大数据平台教育智脑统一身份认证一站式服务门户建设5G......
  • 目标检测环境以及数据集
     目标检测环境以及数据集 环境pyton:3.8cuda:11.3,cudnn:8302pytorch:1.12.1torch:0.13.1numpymatplotlibpycocotoolslxmlpillow 数据集PASCALVOC文件目录├── VOCdevkit│    └──VOC2007/2012│        ├──Annotations│......
  • 使用爬虫利器 Playwright,轻松爬取抖查查数据
    使用爬虫利器Playwright,轻松爬取抖查查数据我们先分析登录的接口,其中url有一些非业务参数:ts、he、sign、secret。然后根据这些参数作为关键词,定位到相关的js代码。最后,逐步进行代码的跟踪,发现大部分的代码被混淆加密了。花费了大半天,来还原这些混淆加密的代码,但是也没......
  • Problem I: 实现一种电厂小型实时数据库系统
    ProblemDescription电厂控制系统的设备有很多监测点,监测点的传感器将监测到的实时数据传送到厂级监控中心,使工程师能方便的分析电厂设备的运行状态。厂级监控中心需要将这些数据存入数据库(INSERT),并且能查询(QUERY),修改(MODIFY),删除(DELETE)这些数据。这些数据只有两种类型:模拟量(AI,浮......
  • Plink中,BGEN格式的数据如何用
    这里,介绍一下BGEN格式的数据,他的文件格式是这样的:a.bgen,这是一个新的数据格式,目前应用不如plink的二进制文件:.bim,.bed,.fam。这里介绍一下如何相互转换。1.bgen格式介绍现代遗传关联研究通常使用数万至数十万个体的数据,这些数据是全基因组数千万标记的基因分型或估算的。基于这......