首页 > 其他分享 >ChatGPT炒股:爬取广州数据交易所网页数据

ChatGPT炒股:爬取广州数据交易所网页数据

时间:2023-06-23 23:00:52浏览次数:124  
标签:元素 excel 爬取 json ChatGPT 数据 div

除了贵州大数据交易所、上海数据交易所、北京数据交易所,广州数据交易所也是排名靠前的数据交易所,里面要有很多数据要素相关企业的数据产品。

网站初看起来是静态页面,很简单:

ChatGPT炒股:爬取广州数据交易所网页数据_数据

在ChatGPT里面输入提示词:

写一段Python程序,爬取网页数据。具体步骤:

在d盘创建一个excel文件,文件名称:广州数据交易所

打开网站https://www.cgdde.cn/jybd.html#/List,解析源代码;

定位所有class="pro"的div元素;

然后定位div元素中第1个p元素,写入excel第1列;

定位div元素中第2个p元素,写入excel第2列;

定位div元素中第3个p元素,获取其内容,然后去掉开头的字符串“入场机构:”,写入excel第3列;

定位div元素中第4个p元素,写入excel第4列;

定位div元素中第5个p元素,获取其内容,然后去掉开头的字符串“产品分类:”,写入excel第5列;

实际运行后,爬取下来的excel表格中却什么也没有。

再仔细查看,实际是动态网页,返回的是json数据

ChatGPT炒股:爬取广州数据交易所网页数据_json数据_02

所以要重新写提示词:

写一段Python程序,爬取网页数据。具体步骤:

在d盘创建一个excel文件,文件名称:广州数据交易所

打开网站https://www.cgdde.cn/si/jybd/rccpList,解析源代码;

网站的Request headers是

Accept:

application/json, text/plain, */*

Accept-Encoding:

gzip, deflate, br

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Access-Token:

dGVtcC1FQTc4QUVEQjRGRDBDOUI3MUMwMkQzMTJBNTc5MTEyRl8yMDIzMDYxNDA4NDQ1M19mMjkwYWU3ZjcyZGM0MGUyODI1YWViYTZmODMxMzY5Mg==

Connection:

keep-alive

Content-Length:

13

Content-Type:

application/json;charset=UTF-8

Host:

http://www.cgdde.cn

Origin:

https://www.cgdde.cn

Sec-Ch-Ua:

"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"

Sec-Ch-Ua-Mobile:

?0

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

empty

Sec-Fetch-Mode:

cors

Sec-Fetch-Site:

same-origin

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

获得json数据,转成Python数据;

提取json数据中"XH"、"FCLASS"、HYMC"、 "FCLASSMC"、"CPMC"、 "CPMS"这些字段,并将其转换为Excel列

ChatGPT炒股:爬取广州数据交易所网页数据_Python_03

这次顺利爬取了所有数据。

标签:元素,excel,爬取,json,ChatGPT,数据,div
From: https://blog.51cto.com/fancyar/6539394

相关文章

  • 通过Maxwell同步mysql数据至kafka
    实验环境本地虚拟机maraidb10.8.8kafka2.12-3.3.1maxwell由容器部署1mariadb1.1配置log_bin配置文件中加入如下内容server-id=111log_bin=mysql-binbinlog_format=ROWexpire_logs_days=1重启服务systemctlrestartmariadb查询命令SHOWVARIABLESLI......
  • orm的数据增删改查
    数据库查# 查看def userlist(request):   # 查询出用户表里面所有的数据#方式1#data=models.User.objects.filter()#print(data)#方式2user_queryset=models.User.objects.all()#字典传返回值到前端#returnrender(reques......
  • debezium同步mysql数据至kafka(未完待续)
    实验环境全部部署于本地虚拟机1mysql参考官方文档和根据官方示例镜像(debezium/example-mysql,mysql版本为8.0.32)1.1创建用户官方镜像里一共有三个账号debezium:connect用户mysqluser:普通用户replicator:用于主从?设置命令createuser'debezium'@'%'identifiedby"db......
  • 文心一言 VS 讯飞星火 VS chatgpt (45)-- 算法导论6.1 3题
    三、证明:在最大堆的任一子树中,该子树所包含的最大元素在该子树的根结点上。文心一言:在最大堆中,根结点是整个堆中最大元素的孩子,因此它包含的最大元素是在该子树的根结点上。我们可以通过递归的方式证明任意子树中的最大元素都在该子树的根结点上。假设我们已经证明了深度为d-......
  • VBA中数据自动类型转换
    浮点型数值→赋值给整数型数值浮点类型数值赋值给整数类型变量时,自动转换为整数类型,并按四舍五入规则取整(x.5向下取整)。DimiAsIntegeri=1.23'i->1i=0.9'i->1i=1.5'i->1 字符串表示的纯数字→数值使用文本表示的纯数字,表达式和赋值语句中自动转换为数字......
  • 计算前5天的数据
       <selectid="findArticleListByLast5days"resultMap="resultMap">SELECTaa.*FROM`ap_article`aaLEFTJOINap_article_configaacONaa.id=aac.article_id<where>andaac.is_delete!=1......
  • 突发!谷歌版“ChatGPT”开放测试,直面硬刚微软Bing
    谷歌在2月份发布了其Bard对话式AI后,一直在努力改进聊天机器人的回答,因为它在Twitter上首次亮相时就传播了错误信息。最近该公司将生成式AI功能添加到几乎所有服务中,而对Bard聊天机器人的访问仍然是少数人的专属。3月21日深夜,谷歌博客官方宣布,向公众开放其人工智能聊天......
  • 文本转图片自动生成(Text-to-Image)历史最全模型、数据集、经典论文整理分享
    https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image在过去的几十年里,计算机视觉和自然语言处理领域在深度学习研究中取得了几项重大技术突破。最近,研究人员似乎对在这些传统上独立的领域中结合语义信息和视觉信息感兴趣。Text-to-Image将输入文本描述(关键词或句子)转换......
  • 自然语言处理中数据增强(Data Augmentation)技术最全盘点
    与“计算机视觉”中使用图像数据增强的标准做法不同,在NLP中,文本数据的增强非常少见。这是因为对图像的琐碎操作(例如将图像旋转几度或将其转换为灰度)不会改变其语义。语义上不变的转换的存在是使增强成为ComputerVision研究中必不可少的工具的原因。是否有尝试为NLP开发增强技......
  • python爬取一些文字信息并保存到表格
    #coding:utf-8'''获取验证码自动登录'''importopenpyxlfromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportSelectimporttimeimportreimportrandomimportpandasa......