记录指定个数的成语

时间：2024-02-28 18:46:23浏览次数：22

标签：__ url text 个数指定 re print import 成语

# !/usr/bin/env python
# -*- coding:utf-8 -*-

"""
# File       : chengyu-001.py
# Time       ：2024/1/16 11:55
# Author     ：lrtao2010
# version    ：python 3.10.1
# Description：记录指定个数的成语
"""

#导入模块
import requests #下载网页
import re
import time
import random


def spider(url):
    # 自定义请求头
    my_headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        #'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'no-cache',
        'Host': 'XXXX.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
    }
    resp = requests.get(url,headers=my_headers,timeout=(30,30))
    #print(resp.text)
    obj = re.compile(r'<a href=.*? target="_blank"><span>(?P<PIN>.*?)</span>(?P<CI>.*?)</a>',re.S)  # re.S可以让re匹配到换行符
    result = obj.finditer(resp.text)
    for item in result:
        dic = item.groupdict()
        #print("|".join(dic.values()))
        with open("./shuju/chengyu-4.txt", 'a+', encoding='utf-8')as s_f:
            s_f.write("|".join(dic.values()) + "\n")




#主程序，注意修改英文字母数量

if __name__ == '__main__':
    # url = f"https://XXXX.com/zishu_4.html"
    # print(url)
    # spider(url)
    # time.sleep(random.randint(2, 5))
    for page in range(13,21):
        url = f"https://XXXX.com/zishu_4_p{page}.html"
        print(url)
        spider(url)
        time.sleep(random.randint(2, 5))

标签：__,url,text,个数,指定,re,print,import,成语
From： https://www.cnblogs.com/lrtao2010/p/18041423

Mybatis-Plus接入多个数据源
导入依赖<dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.2.0</version></dependency>编辑properties#db1spring.d......
使用fsutil创建指定大小文件
以下命令将在 D:\projects\test目录下创建大小为4KB的文件 4096.txtfsutilfilecreatenewD:\projects\test\4096.txt4096需要注意的是，通过fsutil指令生成的文件是空文件。指定内容生成指定大小文件以下命令将在D:\projects\test目录下创建大小为2KB的文件2k......
代码随想录第六天哈希表理论基础 ● 242.有效的字母异位词 ● 349. 两个数组的交
LeetCode：242.有效的字母异位词-力扣（LeetCode）思路：既然只判断两个字符串的字母，就一个++，一个--，最后如果二十六个字母都是零，说明两个字符串相等。反思： //charat(i)是返回字符串索引，所以s.charAt(i)-'a'实际上是获取字符串s中第i个字符相对于字母'a'的偏移量。......
NLog条件配置——实现将包含某个特定字符串日志写入指定文件
需求产生缘由在开发中为了了解程序在运行的内存状态并记录下来，以便出问题时判断是不是与内存相关。于是实时采集了开发程序需要的内存信息。但采集的内存信息在存储时，以NLog中的Trace级别来存储的话，会与程序其它Trace级别的日志都记录在相同的TraceLog文件下，这会导致在查看内存......
聊聊maven指定version区间的妙用
前言在我们开发微服务项目的过程中，难免会依赖各种jar，开发环境可能引用1.0.0-SNAPSHOT,而到了正式环境，则需要引用1.0.0。之前我们的做法是通过pom配置profile来达到不同环境，使用不同的版本。形如下<profiles><profile><properti......
linux空磁盘挂载到指定目录操作步骤
linux磁盘挂载1、检查硬盘分区情况：fdisk-l 或 lsblk如图所示：/dev/sdb磁盘还未分区2、给新硬盘添加分区执行fdisk/dev/sdb按照下面步骤依次输入指令3、格式化分区类型mkfs.xfs/dev/sdb14、查看格式化后的所有文件系统类型blkid5、将新建分区挂载到指定目录m......
Excel表格设置指定字变色的方法（查了好多都是包含指定文字的行变色）
原文链接：https://jingyan.baidu.com/article/f25ef2547baff7092d1b8267.html1、选中目标列，点击条件格式2、选择新建规则3、选择只为包含以下内容的单元格设置格式，在特定文本选项下输入文字，点击格式。 4、选择文字颜色 5、点确定 ......
C++ GDAL用CreateCopy()新建栅格并修改波段的个数
本文介绍基于C++语言GDAL库，为CreateCopy()函数创建的栅格图像添加更多波段的方法。在C++语言的GDAL库中，我们可以基于CreateCopy()函数与Create()函数创建新的栅格图像文件。其中，CreateCopy()函数需要基于一个已有的栅格图像文件作为模板，将模板文件的各项属性信息（例如空间......
java实现scp功能实现目录下所有文件拷贝至指定服务器
1、添加pom依赖<dependency><groupId>com.jcraft</groupId><artifactId>jsch</artifactId><version>0.1.55</version></dependency>2、示例代码publicstaticvoidmain(String[]args)throwsIOException{try{......
无法加载DLL“xxxx”：找不到指定的模块
以前的一个c#项目，今天运行的时候突然发现调用DLL时出现了下面的错误。心中很诧异，明明以前能用的，今天怎么报错了。代码没有修改，也不存在DLL路径错误的问题。后来看到有网友说用depends这个软件可以对DLL文件进行分析，就拿来一试。果然找到了问题。是以前编译器调用的库和现在编......

记录指定个数的成语

相关文章

赞助商

阅读排行