首页 > 其他分享 >如何爬取bcz的词汇

如何爬取bcz的词汇

时间:2024-04-06 15:22:57浏览次数:19  
标签:词汇 word file sentence 爬取 bcz line csv 数据包

如何爬取BCZ的四级/六级词汇

声明:

以下内容仅供学习参考,切勿滥用,滥用与本作者无关!

一,安装Charles抓包工具

步骤:

  1. 打开Charles查看主机地址
  2. 配置手机端代理(主机地址:端口)
  3. 安装证书信任
  4. 抓取测试
  5. 抓取数据包
  6. 解析数据包
  7. 查看csv数据

关于下载安装Charles,安装证书,配置代理较为简单自行百度即可

打开BCZ下载词汇

image-20240406143639213

image-20240406143759570

二,抓取数据包

​ 打开Charles抓取数据包

image-20240406143007531

image-20240406144002817

第二个或更多同样操作,待下载完成之后放到同一个r目录下

三,解析数据包并保存

下载好的数据包应该是.zpk结尾的,如用文版打开为乱码,如下:

image-20240406144639670

依稀能看到几个关键字 句子,示意等

下面使用代码解析并保存为csv格式(Excel查看)

import glob
import re
import csv

def extract_url():
    zpk_repo_path = 'r2/'  # 存放zpk文件的文件夹路径
    file_list = glob.glob(zpk_repo_path + '*.zpk')
    fw = open('word.csv', 'wt',encoding='utf-8-sig',newline="")
    # 注意如使用excel打开需使用utf-8-sig编码格式,否则乱码.  newline=""不产生第二行空格
    csv_writer = csv.writer(fw)
    title = ['word','例句','mean','句意']
    csv_writer.writerow(title)  # 写入标题

    for file in file_list:
        print(file)
        with open(file, 'rb') as f:
            line = ''
            while line.find('sentence_audio') < 0:
                line = f.readline().decode('utf8', 'ignore')
            try:
                word = re.search('"word":"(.*?)"', line).group(1)
                word_trans = re.search('"mean_cn":"(.*?)"', line).group(1)
                sentence = re.search('"sentence":"(.*?)"(,|})', line).group(1)
                sentence = sentence.replace(r'\u0027', "'")
                sentence = sentence.replace('\\', "")
                sentence_trans = re.search('"sentence_trans":"(.*?)"', line).group(1)
                z = []
                z.append(word)
                z.append(sentence)
                z.append(word_trans)
                z.append(sentence_trans)
                csv_writer.writerow(z)
            except BaseException:
                print(file)
    fw.close()

def main():
    print('开始解析:')
    extract_url()
    print('解析完成!')


if __name__ == '__main__':
    main()


下载完成打开测试:

image-20240406145347896

抓取完成.

标签:词汇,word,file,sentence,爬取,bcz,line,csv,数据包
From: https://www.cnblogs.com/xueyitian/p/18117465

相关文章

  • 【爬虫】项目篇-selenium爬取大鱼潮汐网
    爬取指定日期的潮汐数据创建driver对象,并设为最大窗口url="https://www.chaoxibiao.net/tides/75.html"option=Options()option.binary_location=r"C:\Users\txmmy\AppData\Local\Google\Chrome\Application\chrome.exe"drvier=webdriver.Chrome(options=option......
  • 【爬虫】项目篇-使用selenium、requests爬取天猫商品评论
    目录使用selenium使用requests使用seleniumfromselenium.webdriverimportChrome,ChromeOptionsfromselenium.webdriver.support.waitimportWebDriverWaitfromselenium.webdriver.common.byimportByfromselenium.webdriver.supportimportexpected_conditionsasE......
  • 【爬虫】项目篇-爬取豆瓣电影周榜Top10,保存至Redis
    写法一:编写两个爬虫程序文件:爬虫1将豆瓣一周口碑榜的电影url添加到redis中名为movie_url的列表中(注意避免多次运行导致重复的问题);爬虫2从movie_url中读出网址,爬取每一部电影的导演、主演、类型、制片国家/地区、语言、上映日期、片长,并将它们保存到redis的hash表(自行命名)中。d......
  • 【爬虫】项目篇-爬取丁香园的疫情数据
    ```#编写程序,从丁香园获取国内近期疫情数据,按省份提取当前确诊数,#确诊总数,疑似病例数,治愈数,死亡数,高危数等数据,保存到csv文件或excel文件中。importrequestsimportxlsxwriterfromfake_useragentimportUserAgentimportcchardetimportreimportjsonfrombs4importBeautif......
  • 【爬虫】项目篇-爬取福州公交线路并保存至MongoDB
    #http://www.fz-bus.cn/index.asp#1)在MongoDB中创建一个数据库和一个集合。#2)在程序执行过程中可输入线路名称查询公交线路,#每查询到一条线路的信息后,查询MongoDB数据库中是否存在该线路。若存在,则不做任何操作,否则执行第3步。#将线路名称、起点和终点、途径站点、#冬季首......
  • 【爬虫】项目篇-爬取豆瓣电影周榜
    目录使用re爬取+为请求头,保存为csv使用re爬取2+不保存使用xpath+lxml.html+lxml.etree使用re爬取+为请求头,保存为csvimportrequestsimportreimportcsvfromfake_useragentimportUserAgent#re文档:#https://docs.python.org/zh-cn/3.8/library/re.html#re.Sheader=......
  • 【爬虫】项目篇-使用xpath爬取搜房网二手房信息
    #使用requests和xpath从搜房网上抓取福州地区的二手房房源信息#(要求获取所有分页上的房源,且每套房源包含标题、楼盘、#地点、经纬度、面积、房型、楼层、朝向、建筑年代、单价、总价、经纪人、联系电话等,缺数据的留空)。importrequestsfromlxmlimportetreefromfake_use......
  • 今日新词汇——现网版本
    现网版本这个词,在不同的上下文中有着不同的含义,但在IT和软件行业通常是指:在网络游戏或应用服务领域中,“现网版本”指的是当前在线运营的、所有用户实际使用的正式版本。这个版本是已经上线并可供广大用户实时访问和交互的最新稳定版。在网络运维或者通信行业,“现网”指的是......
  • 网页信息爬取
    网页信息爬取示例代码:importrequestsfrombs4importBeautifulSoupdefscrape_website(url):#发起GET请求并获取网页内容response=requests.get(url)#检查响应状态码,200表示请求成功ifresponse.status_code==200:#使用Beautif......
  • 英语背单词 专四词汇 2024年04月 ChatGPT
    2024-04-03  2024-04-02  2024-04-01IndexWordPronunciationPartsofSpeechExplanationTranslationinChinese1insulationɪnsəˈleɪʃənnounMaterialorsubstanceusedtopreventheat,electricity,orsoundfrompassing绝缘;隔热材料2......