当当网

2024-12-30当当网图书信息获取
当当网图书信息获取虽然现在是信息时代,大多数人都会选择电子读物,但是纸质图书仍是我们大多数学生不可或缺的.准备工作: 查看网站允许抓取权限:进行网页抓取时必须遵守网站的robots.txt规则.频繁地请求会给网站服务器带来负担,导致违反服务条款导致IP封禁 https://www.da
2024-12-04分类算法中的样本不平衡问题及其解决方案
一、样本不平衡问题概述在机器学习的分类任务中，样本不平衡是指不同类别训练样本数量存在显著差异的现象。这一差异会给模型训练和性能评估带来挑战，尤其在处理少数类样本时，模型可能难以有效学习其特征。以二分类为例，理想情况下正负样本数量应相对平衡，如各1000个样本时，模
2024-11-28Elasticsearch常用查询及Kibana使用
Elasticsearch常用查询及Kibana使用背景搭建好Nginx=>Filebeat=>Logstash=>Elasticsearch的日志获取通道后，通过jmeter配置产生10000条请求查看jmeter配置查看聚合报告Devtools工具进行查询查询reponseTime90%，95%，99%分割线GETnginx-2024.11.28/_search?size
2024-06-04从当当网批量获取图书信息
爬取当当网图书数据并保存到本地，使用request、lxml的etree模块、csv模块保存数据到本地。爬取网页的url为：http://search.dangdang.com/?key={}&act=input&page_index={}其中{}为搜索关键字，page_index为页码。爬取的数据包括：书名、作者、出版社、图书简介、出版日期、价格
2023-12-25决定了，今日起开始准备弃用京东JD
估计京东是为了节约开支，然后开始大比例的把快递物流业务进行外包了，这直接导致服务质量的直线下滑，10多年前我选择弃用当当网而选择京东JD就是因为当时当地的当当网快递是用沈阳晚报的快递上门的，快递员连POS机都不会用，场面十分的尴尬，谁又能想到10多年后的今天，京东也开始用外包快递了
2023-10-26使用Scrapy框架爬取当当网图书信息
在本文中，我们将使用Scrapy框架来爬取当当网的图书信息。Scrapy是一个强大的Python爬虫框架，可以帮助我们快速高效地从网页中提取所需的数据。首先，我们需要创建一个爬虫组件。在这个组件中，我们定义了爬虫的名称、允许的域名以及起始的爬虫页面。在parse方法中，我们使用BeautifulSoup库
2023-10-04scrapy当当网练习
defparse(self,response):print('当当网')li=response.xpath('//ul[@id="component_59"]/li')#src,name,price有个共同的父元素li,但是对于第一个li,没有data-original,所以遍历根据li的索引判断是否为noneforiteminli:
2023-06-08python 网络爬虫技术运用正则表达式爬取当当网（实战演练）
爬取网络：当当网代码importreimportrequestsimporttimeimportxlwturl_basic='http://search.dangdang.com/?key='heads={'Connection':'keep-alive','Accept-Language':'zh-CN,zh;q=0.9','
2023-06-06Python爬虫--爬取当当网关于python的书籍
（一）选题背景因为现如今的科技越来越发达，人们对于信息的获取道路变得更加宽广了，在以前的话，人们会受到空间，时间，科技等问题的阻碍，对于大部分知识只有在书籍当中才能够找到。不过随着现如今科技的进步，信息的载体也会变得越来越多，信息的传播方式也变得多种多样，电子书就可以通过图像
2023-03-17第一次接触爬虫——当当网好评榜TOP500
学习使用python爬虫获得当当网好评榜TOP5001、需要用到的库requests；re；json；2、前置知识一点点前端知识：调用浏览器的开发者工具；re模块的正则表达式；3、思路通过
2023-01-04Yyield && scrapy案例：当当网爬取数据 &&开启多管道下载
yield 开启多管道在setting.py中新开一个管道，pipelines下写详细，注意url地址。当当网爬取案例importscrapyfromscrapy_dangdang_095.itemsimportScr
2022-12-28py爬取当当网前500畅销书，送给书荒的你
最近和朋友聊天，讨论到读书的问题，说是读书到底有什么用？我半开玩笑的给他讲了一个故事。男孩将女孩送到宿舍楼下，看着一路上两人始终保持着的那一步的距离，男孩终于鼓起勇气，说道
2022-12-19视频回放+PDF课件 | 博雅数智学堂通识课第1期：当当网图书数据清洗
2022年06月07日晚八点，博雅数智学堂“数据科学通识实验”第1期成功举办。本次课程采用腾讯会议、视频号、知乎和B站同步直播，使用爱数科平台进行在线实验。100余所院校800余名
2022-10-21一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】
目录前言本次案例实现目标最基本思路流程:<通用>一.数据来源分析二.代码实现步骤过程:代码实现基本四大步骤代码实现
2022-10-18爱数课平台支持沈阳航空航天大学线上直播教学
01应用背景2020年2月25日沈阳航空航天大学获批大数据管理与应用专业。本专业培养适应我国社会主义经济发展和现代化建设需要，德、智、体、美、劳全面发展，具备系统的计算机、
2022-10-09用图看架构
以下内容整理自尚硅谷周阳老师讲解的云架构，课中突出点大数据。但是javaEE和大数据是业务的两个支撑点，缺一不可。所以这个适合做业务的开发人员学习，也社适合做大数据的