首页 > 其他分享 >批量爬取相关a标签

批量爬取相关a标签

时间:2023-05-29 18:34:44浏览次数:41  
标签:__ thread 批量 get url 标签 爬取 link import

近期需要内网获取员工是否正确添加对应的超链接

挨个点开域名查太慢了

for循环抓a标签又太费事了

学个多线程来优化一下查询【笔记笔记,套用框架的时候需要做一些修改】

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# Copyright (C) 2023 - 2023 zhoujt, Inc. All Rights Reserved 
# @Date    : 2023/5/25 13:51
# @Author  : zhoujt
# @Email   : [email protected]
# @FileName: domain_test.py
# @IDE     : PyCharm
import urllib
import requests
import json
from bs4 import BeautifulSoup
import requests

def get_beian(url):
    url = "https://" + url
     # 发送 GET 请求并获取响应,超时时间1s,不通返回E
    response = requests.get(url, timeout=1) 
    try:
        # 使用 BeautifulSoup 解析 HTML 内容
        soup = BeautifulSoup(response.content, 'html.parser')
        # 查找所有链接
        links = soup.find_all('a')
        for link in links:
             # 检查链接是否包含目标链接
            if link.get('href') == "http://beian.11c.cn": 
                print("正常: ", link.text)  # 打印链接文本
            elif link.get('href') == "http://beian.11c.cn/":
                print("链接少个s: ", link.text)
            elif link.get('href') == "https://beian.11c.cn":
                print("正常: ", link.text)
            elif link.get('href') == "https://beian.11c.cn/":
                print("正常: ", link.text)
            else:
                continue
    except Exception as e:
        continue


if __name__ == '__main__':
    # 设置要获取源码的网站 URL
    fcheck = open("./doaminlist", "r", encoding="utf-8")
    for fc in fcheck.readlines():
        fc = fc.strip()
        # 设置要获取源码的网站 URL
        # 创建多个线程,并逐个获取每个网站的title
        for i in range(10):
            # 为每个线程指定要获取的网站的 URL
            thread_url = urls[i]
            url1 = urls[i]
            title_thread = threading.Thread(target=get_beian(url1), args=(thread_url,))
            title_thread.start()
            # 等待线程完成
            title_thread.join()
    fcheck.close()

 

标签:__,thread,批量,get,url,标签,爬取,link,import
From: https://www.cnblogs.com/security-guard/p/request_title.html

相关文章

  • 批量删除/修改文件名中的某些字符串
    问题解决1.首先要批处理文件(夹),放在同一文件目录下。如:2.在该目录下,新建文本文件,输入以下代码,如:set/pstr1=请输入要替换的文件(文件夹)名字符串(可替换空格):set/pstr2=请输入替换后的文件(文件夹)名字符串(若删除直接回车):for/f"delims="%%ain('dir/s/b^|sort/......
  • catchAdmin+phpEmailer批量发邮件
    前端参数  后端逻辑//多个邮箱配置publicfunctionsystem(){$email_type=input('email_type','1');$field='id,smtp,smtp_port,sender_email_adress,smtp_name,smtp_code,encryption_type';$where[]=......
  • JSTL 核心标签库
    JSTL核心标签库标签共有13个,功能上分为4类:1.表达式控制标签:out、set、remove、catch2.流程控制标签:if、choose、when、otherwise3.循环标签:forEach、forTokens4.URL操作标签:import、url、redirect使用标签时,一定要在jsp文件头加入以下代码:<%@taglibprefix="c"uri="http://java......
  • 批量删除List的元素
    从C#List的源码看,Remove()方法会触发数组的位移,如果在循环中调用会十分费:for(inti=0;i<arr.Count;i++){if(arr[i].IsNull()){arr.Remove(arr[i]);}}这个时候可以使用Rem......
  • jsp项目使用jstl(c标签)及jstl.jar和standard.jar
    使用jstl很大程度增加了jsp可读性。第一步,项目必须的两个包jstl.jar和standard.jar,①可以在下载菜鸟教程的:jakarta-taglibs-standard-1.1.2.zip,②也可以在自己电脑的tomcat里找到他们,路径是C:\ProgramFiles\Java\apache-tomcat-8.5.33\webapps\examples\WEB-INF\lib准备好了这两个......
  • ABAP 用户批量导入
    REPORTZ_USER_IMPORT.TABLES:E070.DATA:BDCDATALIKEBDCDATAOCCURS0WITHHEADERLINE.DATA:MESSTABLIKEBDCMSGCOLLOCCURS0WITHHEADERLINE.DATA:P_SNTYPEI.****DATA:W_DOCIDTYPEDSVASDOCID,W_EXTENSIONTYPEDSVASDOCID,W......
  • [MAUI]模仿Chrome下拉标签页的交互实现
    @目录创建粘滞效果的圆控件贝塞尔曲线绘制圆创建控件创建形变可控形变形变边界形变动画创建手势控件创建页面布局更新拖拽物位置其它细节项目地址今天来说说怎样在.NETMAUI中制作一个灵动的类标签页控件,这类控件常用于页面中多个子页面的导航功能。比如在手机版的Chrome中,当用......
  • Elasticsearch掰开揉碎第21篇京东商场之爬取数据
    引言上一篇主要讲解的是:京东商场之前期准备(引入pom依赖、删除环境中无用的文件、修改资源配置文件、拷贝前端素材、创建测试controller、启动springboot项目、访问测试)本篇主要讲解的是:京东商场之爬取数据(京东商场搜索请求、HTML解析器之jsoup、编写html解析工具类、解析页面所......
  • 前端HTML标签1
    HTML实用合集11.框架使用英文!,按tab键出现框架。2.改标题<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content="IE=edge"><metaname=&q......
  • MKVToolNix工具批量修改MKV文件信息
    1.需求:有一部港剧,50集,mkv格式,国语和粤语双音轨,原文件默认播放国语音轨,现在要批量设置粤语为默认播放音轨,同时给视频轨道设置语言为中文。如果使用图形界面手动修改,则需要大量时间,现在寻求使用MKVToolNix的命令行工具,来进行批量操作,命令行工具mkvpropedit官方说明链接:https://mkvto......