首页 > 其他分享 >第五周总结(2024.8.3)

第五周总结(2024.8.3)

时间:2024-09-02 08:53:38浏览次数:4  
标签:总结 2024.8 标签 li 爬取 第五 开发者 数据 find

 本周学习python爬虫所出现的问题:
1、设置请求头 Headers 的问题

一般 headers 设置 user-Agent 即可,如果有的数据是登陆后才能看到的话,还需要添加 cookies 参数(先登陆账号后,在浏览器的开发者工具中,拷贝 Cookies 即可)。这些参数都可以在浏览器的开发者工具中找到。

2、编码问题

就是爬取过程中没问题,但是用 excel 打开保存好的 csv 文件时出现乱码(用记事本打开没问题)。
这个其实就是文件的编码方式和 Excel 的解码方式不一致导致的。在 dataframe.to_csv 这句,参数里添加一个 encoding='utf_8_sig',指定文件的编码格式,应该就可以解决了

3、解析网页时,我如何快速找到数据存放的位置,并提取其中的数据?

爬取之前需要定位到数据所在的标签,这个使用 F12 开发者工具中的这个按钮,点一下按钮,然后点一下网页,可以很快定位到页面中的相应标签

列表中的每一个 li 标签中,都是一条数据,我们需要将它们都获取到,如果是用前面的 find 函数的话,每次只能获取一个 li 标签。所以我们需要使用 find_all 函数,一次性获取所有符合条件的标签,存储为数组返回

4、如何获得标签数据

<!--第一种,位于标签内容里-->
<p>这是数据这是数据</p>

<!--第二种,位于标签属性里-->
<a href="/xxx.xxx_xx_xx.html"></a>

标签:总结,2024.8,标签,li,爬取,第五,开发者,数据,find
From: https://www.cnblogs.com/Sunyiran/p/18392094

相关文章

  • 第六周总结(2024.8.10)
    importrequestsfrombs4importBeautifulSoupimportcsv#请求URLurl='<https://movie.douban.com/top250>'#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)C......
  • Day12_0.1基础学习MATLAB学习小技巧总结(12)——程序流程控制3-switch结构
    利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍,为了在这个过程中加深印象,也为了能够有所足迹,我会把自己的学习总结发在专栏中,以便学习交流。素材来源“数学建模清风”特此说明:本博客的内容只在于总结在使用matlab中的一些小技巧,并非教程,若想系统的学习MATLAB,也可以移步......
  • 第五天---RSA进阶题型(二)
    还是先复习前面内容,再学习新知识。.......................................T10.dp泄露一.题目:fromCrypto.Util.numberimport*flag=b'NSSCTF{******}'+b'1'*100p=getPrime(512)q=getPrime(512)n=p*qe=65537d=inverse(e,(p-1)*(q-1))dp=......
  • 在.NET后端开发的十年之旅:反思与总结
     开局 依稀记得那是2014年11月大四上学期,学校已经没有课了。看着同寝室的其他室友都出去实习了,而我一个人还坐在电脑前发呆。因为的不敢出去面试。由于小学时牙齿有一颗龅牙,从小就产生了自卑的心理,也让自己有了严重的社交恐惧,我开始不敢一个人买车票,甚至不敢自己去食堂吃饭。......
  • 深入理解C++中的同步并发操作(c++ concurrency in action 第四章总结)
    深入理解C++中的同步并发操作(c++concurrencyinaction第四章总结)第四章详细介绍了C++中的各种并发工具,包括条件变量、std::future和std::async、带超时的wait、std::packaged_task和std::promise,以及如何使用这些工具来简化代码。本总结将依次介绍这些工具的用法......
  • 后端开发实习宏观总结
    学习后端开发已几载,加上前不久的实习让我感悟颇深,斗胆总结一下,也是告诫自己继续努力,共勉,再加油加油!1.从小事做起,然后再扩展无论是创建一个新的系统,还是添加功能到现有的系统中,我总是从一个简单到几乎没有任何所需功能的版本启动,然后再一步一步地解决问题,直到满意为止。我从......
  • 暑假第五周
    每周学习总结这一周,我专注于学习Hadoop和Spark,这两个大数据处理框架在数据分析和处理领域中发挥着至关重要的作用。在这一学习周期内,我深入探讨了这两个技术的基本概念、架构以及实际应用,为我在大数据领域的技能提升奠定了坚实的基础。Hadoop学习总结首先,我对Hadoop进行了全面......
  • 「代码随想录算法训练营」第五十一天 | 图论 part9
    目录Bellman_ford算法模拟过程题目:94.城市间货物运输IBellman_ford队列优化算法(又名SPFA)模拟过程题目:94.城市间货物运输IBellman_ford算法之判断负权回路题目:95.城市间货物运输IIBellman_ford算法之单源有限最短路题目:96.城市间货物运输IIIBellman_ford算法Bellman_ford算法......
  • 新赛道-2024.8 CSP-J组月赛-T4
    题目描述王老师最近搬家了,需要购置 a 台家电、b 件家具和 c 个装饰。他来到了商场,商场正好在举行优惠大酬宾,每家店铺都推出了一系列活动。一共有 n=a+b+c 家店铺,活动期间在第 i 家店铺购买家电只需要 ai​ 元一台,购买家具只需要 bi​ 元一件,购买装饰只需要 ci​......
  • Java语言 数组定义与赋值 类型总结
    总结1.定义:数据类型[]数组名;2. 赋值(长度): 数组名=new数据类型[数组的长度];3.数据类型[]数组名=new数据类型[数组的长度]4.赋值(初始化)(第四点详细的看下面具体分析)   数据类型[]数组名=new数据类型[数组的长度]{元素1,元素2......}     ......