代码随笔-某游戏网站数据的爬取

时间：2023-08-11 18:55:05浏览次数：34

标签：游戏 get text 代码 ---------- div 随笔 page css

import requests
import parsel
import csv
import re


# 将表头写入CSV文件
with open('xxxgame.csv', mode='a', encoding='utf-8-sig', newline='') as f:
    csv_writer = csv.DictWriter(f, fieldnames=['title', 'num', 'server', 'price', 'href', 'pic'])
    csv_writer.writeheader()

    url = 'http://www.***.com/list.aspx?gid=30&page=1'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.188'
    }

    try:
        response = requests.get(url=url, headers=headers)
        # 将返回的数据存成变量
        html_data = response.text
        # 使用parsel模块的Selector方法将数据转换成可操作的对象
        selector = parsel.Selector(html_data)
        max_page = int(selector.css('div.digg a')[-2].css('::text').get())
        print(f'----------总共有{max_page}页----------')

        for page in range(1, max_page + 1):
            print(f'----------正在爬取第{page}页----------')
            url = f'http://www.***.com/list.aspx?gid=30&page={page}'
            response = requests.get(url=url, headers=headers)
            html_data = response.text
            selector = parsel.Selector(html_data)
            divs = selector.css('.pro_list_item')
            tags = selector.css('.pro_list_b a')
            for div, tag in zip(divs, tags):
                title = div.css('.pld1 span::text').get()
                num = div.css('.pld2 span::text').get()
                server = div.css('.pld3 span::text').get()
                price = div.css('.pld4 span::text').get()
                href = 'http://www.***.com' + tag.css('::attr(href)').get()
                # 继续获取herf链接里的数据
                response1 = requests.get(url=href, headers=headers)
                html_data1 = response1.text
                selector1 = parsel.Selector(html_data1)
                pic = selector1.css('div.fcgoods_detail p').getall()
                image_urls = []
                for div in pic:
                    urls = re.findall(r'(https?://[^\s]+(?:jpg|png))', 'p')
                    image_urls.extend(urls)
                    # print(pic)
                data = {'title': title, 'num': num, 'server': server, 'price': price, 'href': href, 'pic': pic}

                csv_writer.writerow(data)

    except (requests.RequestException, parsel.SelectorError) as e:
        print(f"----------爬取第{page}页时发生错误：{e}----------")

# 提示爬取完成
print("----------爬取完成----------")

遇到的问题

1.对于xpath的标签和类属性的学习远远不够，多尝试爬取一些静态网页进行练习。
2.粗心造成的效率低下，自信检查代码、
3.对代码的层级要多学多看，以免造成不必要的错误。

未解决的问题

1.提取新标签页图片时，提取数量不完整。
2.做一个可视化界面。

2023年8月11日 18:47:28

标签：游戏,get,text,代码,----------,div,随笔,page,css
From： https://www.cnblogs.com/maya0214/p/17623763.html

王道408---冒泡排序、快速排序、直接插入排序、希尔排序、二路归并排序、简单选择排序
一、冒泡排序冒泡排序属于交换类的排序//时间复杂度:O(n^2)//空间复杂度:O(1)//稳定排序算法#include<stdio.h>#include<iostream>usingnamespacestd;intarr[16];voiddebug(){for(inti=1;i<16;i++){printf("%d",arr[i]);}puts("......
舞-HiME 運命の系統樹修羅树支线－－“天河朔月”通线随笔(附下载、攻略、CG档)
2005年6月份，曾在PS2平台上推出游戏《命运的系统树》。而今年，HiME狂潮将卷土重来，因为《舞·HiME》系列从04年开始走红到现在，《命运的系统树》将由CIRCUS公司推出PC版本，PC版新作名为《舞·HiME·命运的系统树修罗》。http://baike.baidu.com/view/1151762.htm 大量GAL资源[JS永......
恒创科技：游戏选香港主机会卡吗？
经常会有用户问道：做游戏服务器，使用香港主机会很卡吗?要知道，游戏运营最看重的就是用户体验，而游戏流畅不流畅要看所使用香港服务器本身的稳定性。因此，卡不卡，这样的形式提问是比较笼统的，您应该从应用场景里出发考虑，今天我们就一起来解析一下。做游戏选中国香港服务器有什......
代码生成以及数据生成
我们在正常开发中设计到数据库的设计，以及对应实体类的代码。我现在讲解两个知识点。代码先行以及数据库先行1、代码先行就是你在程序中创建一个类库，专门用来管理你的实体类实体类写完后，利用ORM框架，譬如EF或者SqlSugar自带的性质可以直接生成数据库，以及数据表而代码实体类创......
[好文推荐] 如何保护价值上千万的Node.js源代码？
如何保护价值上千万的Node.js源代码？https://zhuanlan.zhihu.com/p/84386456一个强大的JS混淆器。github.com/javascript-obfuscator/javascript-obfuscator一套JS代码安全问题解决方案。www.jshaman.com一个极简的Node.js字节码编译器。github.com/OsamaAbbas/bytenodencc......
从零开始一起学习SLAM | 理解图优化，一步步带你看懂g2o代码
理解图优化，一步步带你看懂g2o框架小白：师兄师兄，最近我在看SLAM的优化算法，有种方法叫“图优化”，以前学习算法的时候还有一个优化方法叫“凸优化”，这两个不是一个东西吧？师兄：哈哈，这个问题有意思，虽然它们中文发音一样，但是意思差别大着呢！我们来看看英文表达吧，图优化的英文是graphoptimi......
01-低代码平台介绍
1.列表引擎简单配置可快速实现列表页数据展现功能，包括数据的录入、数据的处理、按钮功能的触发、其他组件的联动等 ......
某公司笔试题 - 计算字符串最后一个单词的长度（附python代码）
题目：计算字符串最后一个单词的长度，单词以空格隔开，字符串长度小于5000（字符串末尾不变以空格未结尾）。python代码：str=input("请输入一个字符串：")iflen(str)<5000andlen(str)>0:#去掉字符串前后的空格s=str.strip("")#已空格为标记，对字符串切片......
路径规划算法：基于食肉植物优化的机器人路径规划算法- 附matlab代码
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......
路径规划算法：基于广义正态分布优化的机器人路径规划算法- 附matlab代码
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......

代码随笔-某游戏网站数据的爬取

遇到的问题

未解决的问题

相关文章

赞助商

阅读排行