首页 > 其他分享 >20230103_每日学习记录

20230103_每日学习记录

时间:2023-01-04 22:35:19浏览次数:60  
标签:脚本 记录 python 每日 爬虫 20230103 nohup 多线程

20230103

  1. 做多线程爬虫,需要有些对抗反扒机制的措施. 有些时候直接写多线程,比如python的multiprocessing,会发现抓不下来东西.这也可能是我的爬虫没写好.但是就是发现同样的代码,不使用多线程就可以抓下来.使用多线程就啥也抓不下来.
    这次写爬虫发现了一个取巧的办法,就是反扒机制还是很简单的代理+header,然后不使用多线程,就正常写request代码就行.最重要的是使用下面的命令:

    这些代码就实现了多线程,并且在一些网站中使用,效果非常好.速度很快,并且不会被封.这种写法需要你的脚本抓取是随机的,也就是抓取的列表的顺序打乱一下,这样每一个线程都是在抓不同的信息.

    nohup是linux中用于在系统后台不挂断地运行命令,退出终端不会影响程序的运行。

    &是在后台执行命令,退出终端不会影响程序的运行

    我也不知道为啥要一起,明明是一样的功能......

    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    
  2. linux命令

    只显示文件夹 ls -l | grep ^d

    只显示文件 ls -l | grep ^-

标签:脚本,记录,python,每日,爬虫,20230103,nohup,多线程
From: https://www.cnblogs.com/modaidai/p/17026177.html

相关文章

  • 每日食词—day081
    actualadj. n.实际、现实的、真实的externaladj. n.外部、对外、外在的、外置的、外面的manifestv. adj. n.表明、显示、出现、把……列入货单emulatorn.......
  • 每日食词—day082
    hintsn. v.提示、暗示、示意daemonn.守护进程、后台程序hypervisorn.超级监督者、管理程序、虚拟层emulatev. adj.仿真、模仿、仿效、效仿proguard......
  • toamcat 配置记录 setenv
    server.xml配置(注意版本)https://tomcat.apache.org/tomcat-9.0-doc/config/http.html setenv.batremset"JAVA_OPTS=%JAVA_OPTS%-Xms8G-Xmx8G-XX:PermSize=512M......
  • 【HMS Core】运动健康服务,更新订阅记录接口报错
    问题描述:集成运动健康服务时,注册订阅记录新增/更新订阅记录时,接口调试报错FailedtoconnecttotheURL​问题分析:订阅记录创建之前,需检查订阅回调地址的连通性。返回“Fai......
  • react-hook-form 问题记录
    react-hook-form里面如何改变单个字段的校验时机比如email字段不需要在onChange的时候校验就不要用useController钩子给的onChange去改值相反,要用useFormContext给的setV......
  • Mysql错误问题记录
    ①Incorrectstringvalue:'\xE6\x94\xBE\xE5\xA4\xA7...'forcolumn'name'atrow1Query……原因:编码不匹配。数据库是latin1编码,而插入的中文字符串是utf-8编码。......
  • STS(Spring Tool Suite)使用小技巧记录
    偶尔有些jar包无论如何都无法用maven下载,(例如我正在用的kaptcha)只好自己手动下载了以后再添加。这个时候记得修改以下地方。自动的VMware服务器无法启动,报错如下图解决办法,......
  • Spark入门学习记录之SparkLearning
    为了更好的学习和理解spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。论文部分由于是ppt,故没有放上......
  • [leetcode每日一题]1.4
    ​​1802.有界数组中指定下标处的最大值​​难度中等给你三个正整数 ​​n​​、​​index​​ 和 ​​maxSum​​ 。你需要构造一个同时满足下述所有条件的数组 ​......
  • Adam学习22之在window下使用idea的maven编译安装记录
    1.mvninstallD:\1win7\java\jdk\bin\java-Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent_2.10-0.19.0-Dmaven.home=D:\1win7\java\apache-maven-3.3......