首页 > 其他分享 >各国代码采集

各国代码采集

时间:2024-02-03 23:56:01浏览次数:33  
标签:headers url text 代码 pop 采集 各国 countryNames response

import requests
from zhconv import convert
from lxml import etree

url = 'https://zh.wikipedia.org/wiki/%E5%9C%8B%E5%AE%B6%E5%9C%B0%E5%8D%80%E4%BB%A3%E7%A2%BC'
headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36",
            "Connection": "keep-alive",
         }
workDir = r'E:\Downloads'
response = requests.get(url=url, headers=headers)
html = etree.HTML(response.text)
country_flag = html.xpath('//*[@id="mw-content-text"]/div[1]/table[3]//tr/td[1]//img/@src')
countryCodes = html.xpath('//*[@id="mw-content-text"]/div[1]/table[3]//tr/td[3]/text()')
countryNames = html.xpath('//*[@id="mw-content-text"]/div[1]/table[3]//tr/td[1]/a/text()')

countryNames.pop(248)
countryNames.pop(248)
countryCodes.pop(249)
countryCodes.pop(249)
country_flag.pop(249)


countryNames_zh = [convert(i, 'zh-hans') for i in countryNames]

for i, url in enumerate(country_flag):
    response = requests.get(url = 'http:'+url, headers=headers, stream=True)
    with open(workDir + '\\' + countryCodes[i] + '.png', 'wb') as f:
         f.write(response.content)

结果:
['阿富汗', '阿尔巴尼亚', '阿尔及利亚', '美属萨摩亚', '安道尔', '安哥拉', '安圭拉', '南极洲', '安地卡及巴布达', '阿根廷', '亚美尼亚', '阿鲁巴', '澳大利亚', '奥地利', '阿塞拜疆', '巴哈马', '巴林', '孟加拉国', '巴巴多斯', '白俄罗斯', '比利时', '伯利兹', '贝宁', '百慕大', '不丹', '玻利维亚', '波黑', '博茨瓦纳', '布韦岛', '巴西', '英属印度洋领地', '英属维尔京群岛', '文莱', '保加利亚', '布吉纳法索', '缅甸', '布隆迪', '佛得角', '柬埔寨', '喀麦隆', '加拿大', '开曼群岛', '中非', '乍得', '智利', '中华人民共和国', '圣诞岛', '科科斯(基林)群岛', '哥伦比亚', '科摩罗', '刚果民主共和国', '刚果共和国', '库克群岛', '哥斯达黎加', '科特迪瓦', '克罗地亚', '古巴', '库拉索', '赛普勒斯', '捷克', '丹麦', '吉布提', '多米尼克', '多米尼加', '厄瓜多尔', '埃及', '萨尔瓦多', '赤道几内亚', '厄立特里亚', '爱沙尼亚', '衣索比亚', '福克兰群岛', '法罗群岛', '斐济', '芬兰', '法国', '法国本土', '法属圭亚那', '法属玻里尼西亚', '法属南部和南极领地', '加彭', '冈比亚', '巴勒斯坦', '格鲁吉亚', '德国', '加纳', '直布罗陀', '希腊', '格陵兰', '格瑞那达', '瓜德罗普', '关岛', '危地马拉', '根西', '几内亚', '几内亚比绍', '圭亚那', '海地', '赫德岛和麦克唐纳群岛', '梵蒂冈', '洪都拉斯', '香港', '匈牙利', '冰岛', '印度', '印度尼西亚', '伊朗', '伊拉克', '爱尔兰', '马恩岛', '以色列', '义大利', '牙买加', '日本', '泽西', '约旦', '哈萨克斯坦', '肯尼亚', '基里巴斯', '朝鲜', '韩国', '科索沃', '科威特', '吉尔吉斯斯坦', '老挝', '拉脱维亚', '黎巴嫩', '赖索托', '利比里亚', '利比亚', '列支敦斯登', '立陶宛', '卢森堡', '澳门', '北马其顿', '马达加斯加', '马拉维', '马来西亚', '马尔地夫', '马里', '马尔他', '马绍尔群岛', '马提尼克', '毛里塔尼亚', '模里西斯', '马约特', '墨西哥', '密克罗尼西亚联邦', '摩尔多瓦', '摩纳哥', '蒙古', '蒙特内哥罗', '蒙特塞拉特', '摩洛哥', '莫桑比克', '纳米比亚', '瑙鲁', '尼泊尔', '荷兰', '荷属安的列斯', '新喀里多尼亚', '新西兰', '尼加拉瓜', '尼日尔', '奈及利亚', '纽埃', '诺福克岛', '北马里亚纳群岛', '挪威', '阿曼', '巴基斯坦', '帛琉', '巴拿马', '巴布亚新几内亚', '巴拉圭', '秘鲁', '菲律宾', '皮特凯恩群岛', '波兰', '葡萄牙', '波多黎各', '卡塔尔', '留尼汪', '罗马尼亚', '台湾', '俄罗斯', '卢旺达', '圣巴泰勒米', '圣赫勒拿、阿森松和特里斯坦-达库尼亚', '圣基茨和尼维斯', '圣卢西亚', '法属圣马丁', '圣文森特和格林纳丁斯', '萨摩亚', '圣马力诺', '圣多美和普林西比', '沙乌地阿拉伯', '塞内加尔', '塞尔维亚', '塞舌尔', '塞拉利昂', '新加坡', '荷属圣马丁', '斯洛伐克', '斯洛维尼亚', '所罗门群岛', '索马里', '南非', '南乔治亚和南桑威奇群岛', '南苏丹', '西班牙', '斯里兰卡', '苏丹', '苏里南', '圣皮埃尔和密克隆', '斯威士兰', '瑞典', '瑞士', '叙利亚', '塔吉克斯坦', '坦桑尼亚', '泰国', '东帝汶', '多哥', '托克劳', '汤加', '千里达及托巴哥', '突尼西亚', '土耳其', '土库曼斯坦', '特克斯和凯科斯群岛', '图瓦卢', '乌干达', '乌克兰', '阿联酋', '英国', '美国', '美国本土外小岛屿', '乌拉圭', '乌兹别克斯坦', '瓦努阿图', '委内瑞拉', '越南', '美属维尔京群岛', '瓦利斯和富图纳', '巴勒斯坦', '西撒哈拉', '联合国', '东南亚国家联盟', '叶门', '扎伊尔', '尚比亚', '辛巴威', '罗德西亚', '西印度群岛联邦', '独立国家联合体', '澳大拉西亚', '南斯拉夫', '苏联', '达荷美', '上沃尔特', '波希米亚', '捷克斯洛伐克', '阿拉伯联合共和国', '塞尔维亚与蒙特内哥罗']
['AF', 'AL', 'DZ', 'AS', 'AD', 'AO', 'AI', 'AQ', 'AG', 'AR', 'AM', 'AW', 'AU', 'AT', 'AZ', 'BS', 'BH', 'BD', 'BB', 'BY', 'BE', 'BZ', 'BJ', 'BM', 'BT', 'BO', 'BA', 'BW', 'BV', 'BR', 'IO', 'VG', 'BN', 'BG', 'BF', 'MM', 'BI', 'CV', 'KH', 'CM', 'CA', 'KY', 'CF', 'TD', 'CL', 'CN', 'CX', 'CC', 'CO', 'KM', 'CD', 'CG', 'CK', 'CR', 'CI', 'HR', 'CU', 'CW', 'CY', 'CZ', 'DK', 'DJ', 'DM', 'DO', 'EC', 'EG', 'SV', 'GQ', 'ER', 'EE', 'ET', 'FK', 'FO', 'FJ', 'FI', 'FR', 'FX', 'GF', 'PF', 'TF', 'GA', 'GM', 'PS', 'GE', 'DE', 'GH', 'GI', 'GR', 'GL', 'GD', 'GP', 'GU', 'GT', 'GG', 'GN', 'GW', 'GY', 'HT', 'HM', 'VA', 'HN', 'HK', 'HU', 'IS', 'IN', 'ID', 'IR', 'IQ', 'IE', 'IM', 'IL', 'IT', 'JM', 'JP', 'JE', 'JO', 'KZ', 'KE', 'KI', 'KP', 'KR', 'XK', 'KW', 'KG', 'LA', 'LV', 'LB', 'LS', 'LR', 'LY', 'LI', 'LT', 'LU', 'MO', 'MK', 'MG', 'MW', 'MY', 'MV', 'ML', 'MT', 'MH', 'MQ', 'MR', 'MU', 'YT', 'MX', 'FM', 'MD', 'MC', 'MN', 'ME', 'MS', 'MA', 'MZ', 'NA', 'NR', 'NP', 'NL', 'AN', 'NC', 'NZ', 'NI', 'NE', 'NG', 'NU', 'NF', 'MP', 'NO', 'OM', 'PK', 'PW', 'PA', 'PG', 'PY', 'PE', 'PH', 'PN', 'PL', 'PT', 'PR', 'QA', 'RE', 'RO', 'TW', 'RU', 'RW', 'BL', 'SH', 'KN', 'LC', 'MF', 'VC', 'WS', 'SM', 'ST', 'SA', 'SN', 'RS', 'SC', 'SL', 'SG', 'SX', 'SK', 'SI', 'SB', 'SO', 'ZA', 'GS', 'SS', 'ES', 'LK', 'SD', 'SR', 'PM', 'SZ', 'SE', 'CH', 'SY', 'TJ', 'TZ', 'TH', 'TL', 'TG', 'TK', 'TO', 'TT', 'TN', 'TR', 'TM', 'TC', 'TV', 'UG', 'UA', 'AE', 'GB', 'US', 'UM', 'UY', 'UZ', 'VU', 'VE', 'VN', 'VI', 'WF', 'PS', 'EH', 'UN', 'EU', 'YE', 'ZA', 'ZM', 'ZW', 'RO', 'WI', 'EN', 'AZ', 'YG', 'UR', 'DH', 'VL', 'BO', 'TC', 'UA', 'SG']

标签:headers,url,text,代码,pop,采集,各国,countryNames,response
From: https://www.cnblogs.com/jl1771/p/18005421

相关文章

  • CSS给代码添加行号
     pre{width:96%;margin:auto;border-radius:15px15px;border:3pxsolid#000;background-color:#445;padding-left:10px;color:#fff;counter-reset:line;/*初始化计数器*/}......
  • R语言结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例|附代
    原文链接:http://tecdat.cn/?p=25044原文出处:拓端数据部落公众号最近我们被客户要求撰写关于结构方程模型的研究报告,包括一些图形和统计输出。1简介在本文,我们将考虑观察/显示所有变量的模型,以及具有潜在变量的模型。第一种有时称为“路径分析”,而后者有时称为“测量模型”。......
  • 代码随想录 day39 不同路径 不同路径 II
    不同路径这题由于说明了只能向下和向右那么对于终点而言显然只能由[i][j-1]+[i-1][j]种路线这就是状态转移方程那么初始值要赋予的就是上边和左边都是一也就是直接从边边到达重点的这样就保证我们的状态转移方程有数值可以将计算不同路径II这题难解的点在于障......
  • 系统代码编写规范
    软件项目全套文档资料下载:https://www.cnblogs.com/ouya921/p/17989620......
  • 安卓开发十——调试设置应用图标和源代码
    我们要设置图标和名称只需要修改这三个值就就可以了android:icon="@drawable/appimag"android:label="记账本"android:roundIcon="@drawable/appimag"然后最后的效果是这样的    源代码:<?xmlversion="1.0"encoding="utf-8&......
  • (python)代码学习||2024.2.3||题目是codewars上的【Validate Sudoku with size `NxN`
    题目的要求是写一个Sudoku类,类中要有一个实例函数判断传给对象的二维数组是否符合数独规则题目链接:https://www.codewars.com/kata/540afbe2dc9f615d5e000425/python下面是写完题后看到的别人的解决方法fromitertoolsimportchainclassSudoku(object):def__init__......
  • 代码随想录算法训练营第十一天| 20. 有效的括号 1047. 删除字符串中的所有相邻重复
    20.有效的括号 给定一个只包括 '(',')','{','}','[',']' 的字符串 s ,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的相同类型的左括号。题目链接:20.有效的括号-力扣(LeetCode)思路:只......
  • 手撸代码:从零开始的 AlexNet 图像分类(PyTorch框架)
    摘要:本文在PyTorch框架下搭建了AlexNet,并在CIFAR10上完成了图片分类。同时,更正了一些原论文中的小错误(如:输入图像尺寸)。由于CIFAR10没有验证集,本文将训练集的10%当作验证集。完整代码已上传至GitHub:https://github.com/TiezhuXing01/AlexNet_in_PyTorch1.引入库i......
  • 平衡小车 高速运动时 紧急避障转弯继续运动的超声波传感器代码
    以下是一个使用超声波传感器实现平衡小车高速运动时紧急避障转弯继续运动的示例代码:#include<Wire.h>//定义超声波传感器引脚constinttrigPin=2;//触发引脚constintechoPin=3;//回声引脚//定义电机引脚constintmotorA1=9;constintmotorA2=10;const......
  • postman自动生成Cookie java代码怎么实现
    在Java中实现Postman自动生成Cookie的功能,通常涉及到模拟HTTP请求,处理服务器的响应,并提取Cookie信息。这个过程可以使用一些Java库,如ApacheHttpClient或者OkHttp。以下是使用ApacheHttpClient来实现这个功能的步骤:步骤1:添加依赖首先,您需要在项目的pom.xml文件中添加ApacheHttpC......