用python从网页下载单词库

时间：2022-09-21 00:23:18浏览次数：79

标签：网页 get python 单词 meaning html words word

从网站下载单词库

1 每一页有几百个单词
2 每一个单词有独立的URL，URL中包含单词的中文解释
3 使用的库 requests,pyquery,web

#coding:utf-8

import requests as rq
from pyquery import PyQuery as pq
import web
import threading

db = web.database(dbn="sqlite",db="gre.db")


def initDB():
    _initSQL = """
        CREATE TABLE IF NOT EXISTS gre_word(
            id INTEGER PRIMARY KEY,
            word VARCHAR(200),
            meaning VARCHAR(200)
        )
    """
    db.query(_initSQL)

def get_html(url):
    """获取html文档"""
    headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
    }    
    response = rq.get(url=url,headers=headers)
    return response.content

def get_words(html):
    """
        获取单词表，返回值：[(单词，单词链接)]
    """
    url_pre = "https://www.koolearn.com"
    word = pq(html)
    words = [(i.text(),"{}{}".format(url_pre,i.attr("href"))) for i in word(".word-box a.word").items()]
    return words

def insert_words(word,meaning):
    """插入单词"""
    db.insert(
        "gre_word",
        word = word,
        meaning = meaning,
    )
    print("insert ok!")
        
def get_word_meaning(wordURL):
    """获取单词含义"""
    doc = pq(get_html(wordURL))
    try:
        meaning = doc("li.clearfix").text()
    except:
        meaning = ""
    return meaning
    
if __name__ == "__main__":
    url = "https://www.koolearn.com/dict/tag_921_{}.html"
    import time
    startT = time.time()
    db.delete("gre_word",where="1")
    for i in range(1,31):
        html_ = get_html(url.format(i))
        words = get_words(html_)
        with db.transaction():
            for j in words:
                word,meaning = j[0],get_word_meaning(j[1])
                insert_words(word,meaning)
    endT = time.time()
    print(endT - startT)

没有使用线程。

标签：网页,get,python,单词,meaning,html,words,word
From： https://www.cnblogs.com/daivlin/p/16714195.html

Python实验报告(第三周)
实验1：Python语言基础一、实验目的和要求1、学会使用Python的流程控制语句；2、掌握Python的选择语句和循环语句；3、学会运用条件语句和循环语句的嵌套结构。二、实验环境......
python学习随笔
python本周学习随笔一、打开Pycharm,新建项目1.创建名为hello.py文件(Python文件以.py后缀结尾)2.在hello.py中输入以下内容print("helloworld")3.在代码区域右键,选......
Python实验报告（第三周）
一、实验目的和要求1.正确书写python语句2.掌握条件语句的使用3.正确使用序列二、实验环境软件版本：Python3.1064_bit三、实验过程实例01:（省略题目）结果如下......
Python之numpy库（一）
NumPy（NumericalPython）是科学计算基础库，提供大量科学计算相关功能，比如数据统计，随机数生成等。其提供最核心类型为多维数组类型（ndarray），支持大量的维度数组与矩阵运算，N......
python lambda的使用说明
一用途减少代码冗余没有函数名字,也指匿名函数快速实现函数功能二用法说明：lambdaargument_list:expersionargument_list表示输入传入的参数expersion表......
我学python踩过的那些坑
变量作用域python对于变量作用域的处理，与我们常用的java，c都不同。下面这份代码会输出5，而不是4x=5deff(): x=4f()print(x)你可能觉着这很显然，因为这就相当于我在......
Python 使用requests下载图片的方法及示例代码
Python中可以使用requests模块执行GET和POST请求，requests继承了urllib2的所有特性。requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响......
[NOIP2000 提高组] 单词接龙
[NOIP2000提高组]单词接龙题目背景注意：本题为上古NOIP原题，不保证存在靠谱的做法能通过该数据范围下的所有数据。题目描述单词接龙是一个与我们经常玩的成语接龙相......
python基本数据类型
基本数据类型：整形int12浮点型float12.12列表list[]集合set{1,2,3}字典dict{1:'a'}，key是不可变类型，一般是字符串，value可以使任意类型元祖typle(1,2,3)......
python经典题目：list1=[1,2,3,4,5] 一行代码取出比4大的元素【杭州多测师】【杭州多测
#list1=[1,2,3,4,5]#一行代码取出比4大的元素print([iforiin[1,2,3,4,5]ifi>4]) #输入一串字符串、如果有重复的字符打印第一次出现的字符、否则打印no......

用python从网页下载单词库

从网站下载单词库

相关文章

赞助商

阅读排行