除了贵州大数据交易所、上海数据交易所、北京数据交易所,广州数据交易所也是排名靠前的数据交易所,里面要有很多数据要素相关企业的数据产品。
网站初看起来是静态页面,很简单:
在ChatGPT里面输入提示词:
写一段Python程序,爬取网页数据。具体步骤:
在d盘创建一个excel文件,文件名称:广州数据交易所
打开网站https://www.cgdde.cn/jybd.html#/List,解析源代码;
定位所有class="pro"的div元素;
然后定位div元素中第1个p元素,写入excel第1列;
定位div元素中第2个p元素,写入excel第2列;
定位div元素中第3个p元素,获取其内容,然后去掉开头的字符串“入场机构:”,写入excel第3列;
定位div元素中第4个p元素,写入excel第4列;
定位div元素中第5个p元素,获取其内容,然后去掉开头的字符串“产品分类:”,写入excel第5列;
实际运行后,爬取下来的excel表格中却什么也没有。
再仔细查看,实际是动态网页,返回的是json数据
所以要重新写提示词:
写一段Python程序,爬取网页数据。具体步骤:
在d盘创建一个excel文件,文件名称:广州数据交易所
打开网站https://www.cgdde.cn/si/jybd/rccpList,解析源代码;
网站的Request headers是
Accept:
application/json, text/plain, */*
Accept-Encoding:
gzip, deflate, br
Accept-Language:
zh-CN,zh;q=0.9,en;q=0.8
Access-Token:
dGVtcC1FQTc4QUVEQjRGRDBDOUI3MUMwMkQzMTJBNTc5MTEyRl8yMDIzMDYxNDA4NDQ1M19mMjkwYWU3ZjcyZGM0MGUyODI1YWViYTZmODMxMzY5Mg==
Connection:
keep-alive
Content-Length:
13
Content-Type:
application/json;charset=UTF-8
Host:
Origin:
Sec-Ch-Ua:
"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"
Sec-Ch-Ua-Mobile:
?0
Sec-Ch-Ua-Platform:
"Windows"
Sec-Fetch-Dest:
empty
Sec-Fetch-Mode:
cors
Sec-Fetch-Site:
same-origin
User-Agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
获得json数据,转成Python数据;
提取json数据中"XH"、"FCLASS"、HYMC"、 "FCLASSMC"、"CPMC"、 "CPMS"这些字段,并将其转换为Excel列
这次顺利爬取了所有数据。
标签:元素,excel,爬取,json,ChatGPT,数据,div From: https://blog.51cto.com/fancyar/6539394