第一个爬虫程序,抓取网页源码并保存为html文件
from urllib.request import urlopen
url = 'http://www.baidu.com'
res = urlopen(url)
# print(res.read().decode('utf-8'))
with open('save_baidu.html','w',encoding='utf-8') as f:
f.write(res.read().decode('utf-8'))
- 问题点: 百度的
logo图片
无法显示,抓取hao123
也有同样的问题,某些图片无法显示