如何爬取BCZ的四级/六级词汇

声明:

以下内容仅供学习参考,切勿滥用,滥用与本作者无关!

一,安装Charles抓包工具

步骤:

打开Charles查看主机地址
配置手机端代理(主机地址:端口)
安装证书信任
抓取测试
抓取数据包
解析数据包
查看csv数据

关于下载安装Charles,安装证书,配置代理较为简单自行百度即可

打开BCZ下载词汇

二,抓取数据包

打开Charles抓取数据包

第二个或更多同样操作,待下载完成之后放到同一个r目录下

三,解析数据包并保存

下载好的数据包应该是.zpk结尾的,如用文版打开为乱码,如下:

依稀能看到几个关键字句子,示意等

下面使用代码解析并保存为csv格式(Excel查看)

import glob
import re
import csv

def extract_url():
    zpk_repo_path = 'r2/'  # 存放zpk文件的文件夹路径
    file_list = glob.glob(zpk_repo_path + '*.zpk')
    fw = open('word.csv', 'wt',encoding='utf-8-sig',newline="")
    # 注意如使用excel打开需使用utf-8-sig编码格式,否则乱码.  newline=""不产生第二行空格
    csv_writer = csv.writer(fw)
    title = ['word','例句','mean','句意']
    csv_writer.writerow(title)  # 写入标题

    for file in file_list:
        print(file)
        with open(file, 'rb') as f:
            line = ''
            while line.find('sentence_audio') < 0:
                line = f.readline().decode('utf8', 'ignore')
            try:
                word = re.search('"word":"(.*?)"', line).group(1)
                word_trans = re.search('"mean_cn":"(.*?)"', line).group(1)
                sentence = re.search('"sentence":"(.*?)"(,|})', line).group(1)
                sentence = sentence.replace(r'\u0027', "'")
                sentence = sentence.replace('\\', "")
                sentence_trans = re.search('"sentence_trans":"(.*?)"', line).group(1)
                z = []
                z.append(word)
                z.append(sentence)
                z.append(word_trans)
                z.append(sentence_trans)
                csv_writer.writerow(z)
            except BaseException:
                print(file)
    fw.close()

def main():
    print('开始解析:')
    extract_url()
    print('解析完成!')


if __name__ == '__main__':
    main()

下载完成打开测试:

抓取完成.

标签：词汇,word,file,sentence,爬取,bcz,line,csv,数据包
From： https://www.cnblogs.com/xueyitian/p/18117465

【爬虫】项目篇-selenium爬取大鱼潮汐网
爬取指定日期的潮汐数据创建driver对象，并设为最大窗口url="https://www.chaoxibiao.net/tides/75.html"option=Options()option.binary_location=r"C:\Users\txmmy\AppData\Local\Google\Chrome\Application\chrome.exe"drvier=webdriver.Chrome(options=option......
【爬虫】项目篇-使用selenium、requests爬取天猫商品评论
目录使用selenium使用requests使用seleniumfromselenium.webdriverimportChrome,ChromeOptionsfromselenium.webdriver.support.waitimportWebDriverWaitfromselenium.webdriver.common.byimportByfromselenium.webdriver.supportimportexpected_conditionsasE......
【爬虫】项目篇-爬取豆瓣电影周榜Top10，保存至Redis
写法一：编写两个爬虫程序文件：爬虫1将豆瓣一周口碑榜的电影url添加到redis中名为movie_url的列表中（注意避免多次运行导致重复的问题）；爬虫2从movie_url中读出网址，爬取每一部电影的导演、主演、类型、制片国家/地区、语言、上映日期、片长，并将它们保存到redis的hash表（自行命名）中。d......
【爬虫】项目篇-爬取丁香园的疫情数据
```#编写程序，从丁香园获取国内近期疫情数据，按省份提取当前确诊数，#确诊总数，疑似病例数，治愈数，死亡数，高危数等数据，保存到csv文件或excel文件中。importrequestsimportxlsxwriterfromfake_useragentimportUserAgentimportcchardetimportreimportjsonfrombs4importBeautif......
【爬虫】项目篇-爬取福州公交线路并保存至MongoDB
#http://www.fz-bus.cn/index.asp#1）在MongoDB中创建一个数据库和一个集合。#2）在程序执行过程中可输入线路名称查询公交线路，#每查询到一条线路的信息后，查询MongoDB数据库中是否存在该线路。若存在，则不做任何操作，否则执行第3步。#将线路名称、起点和终点、途径站点、#冬季首......
【爬虫】项目篇-爬取豆瓣电影周榜
目录使用re爬取+为请求头，保存为csv使用re爬取2+不保存使用xpath+lxml.html+lxml.etree使用re爬取+为请求头，保存为csvimportrequestsimportreimportcsvfromfake_useragentimportUserAgent#re文档：#https://docs.python.org/zh-cn/3.8/library/re.html#re.Sheader=......
【爬虫】项目篇-使用xpath爬取搜房网二手房信息
#使用requests和xpath从搜房网上抓取福州地区的二手房房源信息#（要求获取所有分页上的房源，且每套房源包含标题、楼盘、#地点、经纬度、面积、房型、楼层、朝向、建筑年代、单价、总价、经纪人、联系电话等，缺数据的留空）。importrequestsfromlxmlimportetreefromfake_use......
今日新词汇——现网版本
现网版本这个词，在不同的上下文中有着不同的含义，但在IT和软件行业通常是指：在网络游戏或应用服务领域中，“现网版本”指的是当前在线运营的、所有用户实际使用的正式版本。这个版本是已经上线并可供广大用户实时访问和交互的最新稳定版。在网络运维或者通信行业，“现网”指的是......
网页信息爬取
网页信息爬取示例代码：importrequestsfrombs4importBeautifulSoupdefscrape_website(url):#发起GET请求并获取网页内容response=requests.get(url)#检查响应状态码，200表示请求成功ifresponse.status_code==200:#使用Beautif......
英语背单词专四词汇 2024年04月 ChatGPT
2024-04-03 2024-04-02 2024-04-01IndexWordPronunciationPartsofSpeechExplanationTranslationinChinese1insulationɪnsəˈleɪʃənnounMaterialorsubstanceusedtopreventheat,electricity,orsoundfrompassing绝缘；隔热材料2......

如何爬取bcz的词汇

如何爬取BCZ的四级/六级词汇

声明:

一,安装Charles抓包工具

二,抓取数据包

三,解析数据包并保存

相关文章

赞助商

阅读排行