一、环境
开发环境:
Microsoft Visual Studio Professional 2022 (2) (64 位) - Current
版本 17.7.7
.net core 6.0
AngleSharp 1.1.2
AngleSharp.Js 0.15.0
Downloder 3.0.6
Magicodes.IE.Excel 2.7.5.1
二、添加winform项目
三、添加html操作类
四、添加http请求帮助类
五、爬取过程分析
1.爬取地址https://shop42170439.m.youzan.com/v2/showcase/feature?alias=dHoXxBva8r
2.首先确定一下我们的需求,我们按分类来爬取分类下的商品信息,然后按分类存储文件,一个分类存储一个文件。
那么我们先要爬取分类的数据。
按下F12,打开搜索,搜索发现搜不到
换成搜图片,发现在页面上就已经写好了
我们查下页面的源码ctrl+u,在脚本里面,应该是有赞模版生成的json串。
剩下的就是怎么把这个json串分解,拿到我们需要的分类信息。
我这里代码比较暴力,大家自行改造,主要还是html的操作
这里面我们可以拿到kdt_id和分类名还有分类的别名代码。
2.接着我们来看分类里面的商品。同样的随便找一个商品名,看下他是怎么加载的
我们可以知道商品的数据是接口返回的。我们在网络里面找到请求的接口
既然是接口返回的,那么好办,我们就直接后台调用接口就可以拿到商品数据了,这里面就需要上一步拿到的分类信息,主要是分类别名代码和kdt_id。
六、最后拿到的数据通过magicodes.IE.Excel下载。
这里使用了Masuit.Tools.Excel的ToExcel()方法拿Stream后使用Magicodes.IE.Excel下载。可能有点绕,大家自行优化。
七、源代码
链接:https://pan.baidu.com/s/1isjg1M6trHkzjH6bMyssoA?pwd=gw0k
提取码:gw0k
标签:商品信息,Http,Excel,分类,EXCEL,拿到,爬取,IE From: https://www.cnblogs.com/wenthing/p/18166369