首页 > 其他分享 >通过Http链接地址爬取有赞微信商城商品信息及下载至EXCEL

通过Http链接地址爬取有赞微信商城商品信息及下载至EXCEL

时间:2024-04-29 17:45:06浏览次数:35  
标签:商品信息 Http Excel 分类 EXCEL 拿到 爬取 IE

一、环境

开发环境:

Microsoft Visual Studio Professional 2022 (2) (64 位) - Current
版本 17.7.7

.net core 6.0

AngleSharp 1.1.2

AngleSharp.Js 0.15.0

Downloder 3.0.6

Magicodes.IE.Excel 2.7.5.1

二、添加winform项目

 

三、添加html操作类

 

四、添加http请求帮助类

 五、爬取过程分析

1.爬取地址https://shop42170439.m.youzan.com/v2/showcase/feature?alias=dHoXxBva8r

2.首先确定一下我们的需求,我们按分类来爬取分类下的商品信息,然后按分类存储文件,一个分类存储一个文件。

那么我们先要爬取分类的数据。

按下F12,打开搜索,搜索发现搜不到

换成搜图片,发现在页面上就已经写好了

 我们查下页面的源码ctrl+u,在脚本里面,应该是有赞模版生成的json串。

 剩下的就是怎么把这个json串分解,拿到我们需要的分类信息。

我这里代码比较暴力,大家自行改造,主要还是html的操作

 

这里面我们可以拿到kdt_id和分类名还有分类的别名代码。

2.接着我们来看分类里面的商品。同样的随便找一个商品名,看下他是怎么加载的

 

我们可以知道商品的数据是接口返回的。我们在网络里面找到请求的接口

既然是接口返回的,那么好办,我们就直接后台调用接口就可以拿到商品数据了,这里面就需要上一步拿到的分类信息,主要是分类别名代码和kdt_id。

 

 六、最后拿到的数据通过magicodes.IE.Excel下载。

这里使用了Masuit.Tools.Excel的ToExcel()方法拿Stream后使用Magicodes.IE.Excel下载。可能有点绕,大家自行优化。

 七、源代码

链接:https://pan.baidu.com/s/1isjg1M6trHkzjH6bMyssoA?pwd=gw0k
提取码:gw0k

 

标签:商品信息,Http,Excel,分类,EXCEL,拿到,爬取,IE
From: https://www.cnblogs.com/wenthing/p/18166369

相关文章

  • 一个服务提供翻译功能,一个服务提供商品名字查询功能,客户端有多语言需求,语言占比不一样
    针对这两个服务的多语言需求和商品信息查询功能,可以设计以下测试用例:基本功能测试:1.1翻译服务:-测试用例1:输入包含英文商品信息的请求,验证翻译服务是否能够正确将英文翻译成其他语言。-测试用例2:输入包含中文商品信息的请求,验证翻译服务是否能够正确将中文翻译成其他语......
  • SpringBoot配置HTTPS及开发调试
    前言在实际开发过程中,如果后端需要启用https访问,通常项目启动后配置nginx代理再配置https,前端调用时高版本的chrome还会因为证书未信任导致调用失败,通过摸索整理一套开发调试下的https方案,特此分享后端配置生成HTTPS密钥keytool-genkeypair-aliastomcat-keyalgRSA-keysi......
  • 解决PHPExcel超时、内存超出的问题
    一、PHPExcel导出数据量大的时候容易超时、内存使用超出限制。以前都是将PHP内存使用限制不断增大,超时时间不断增大来应对,但即使如此,web端导出时,浏览器依然会超时。考虑了Jquery+Ajax+table导出,数据量依然会使浏览器卡死,经尝试可以用以下方法,//打开PHP文件句柄,php://output......
  • httprunner 4.x学习 - 12 测试用例引用另一个测试用例
    前言把登录用例变 export导出变量,变成全局变量,这样其它用例可以引用登录用例config:name:登录variables:username:"admin1"password:"123456"teststeps:-name:postrequest:method:POSTurl:${ENV(base_url)}/loginjson:......
  • Excel 图片
    /***获取图片*Excel文件中某一列都为图片多列图片这里需要读取指定的列c1**@paramworkbookworkbook*@paramsiteImgMapMap<Integer,List<byte[]>>siteImgMap多图片*/privatevoidarrangeExcelImg(XSSFWorkbookworkboo......
  • [转]<a>标签超链接跳转到第三方系统提示:The Http request is not acceptable for the
    原文地址:TheHttprequestisnotacceptablefortherequestedresource.-CSDN博客1.问题描述在做一个点击本系统的一个按钮打开第三方链接并跳转新页面,跳转过去的第三方链接由https://ip地址组成,报以下错:TheHttprequestisnotacceptablefortherequestedresource.2.......
  • .net core,.net 6使用SoapCore开发webservice接口,以及使用HttpClientFactory动态访问we
    1.使用soapCorenuget包 2.新建接口及实现2.1新建接口 2.2新建实现 2.3新建接收实体 2.4返回实体 3.接口注入使用  4.启动程序,直接访问对应的asmx地址  ......
  • Python中有很多库可以操作Excel,像xlsxwriter、openpyxl、pandas、xlwings等
    Python中确实有多个库可以用于操作Excel文件,包括但不限于xlsxwriter、openpyxl、pandas和xlwings。以下是这些库的简要介绍和它们各自的优点:xlsxwriter:优点:专门用于创建新的.xlsx文件。提供了丰富的功能来创建复杂的Excel文档,包括图表、图片、自动筛选等。性能相对较......
  • httprunner 4.x学习 - 11 hook 机制
    前言hook机制,就是在发送请求前做一些预处理或在请求完成后后置处理1.setup_hooks:主要用于处理接口前置准备,比如对请求request参数签名加密等操作2.teardown_hooks:主要用于后置清理,比如对返回respone解密、删除数据库数据等测试步骤添加hookdebugtalk.py编写两个......
  • Excel文本转公式
    FunctionEval(RefAsString)Application.VolatileEval=Evaluate(Ref)EndFunctionSUBSTITUTE函数在Excel中用于将文本字符串中的一部分替换为其他字符串。它的语法如下:SUBSTITUTE(text,old_text,new_text,[instance_num])其中:text是要进行替换操作的原......