给女朋友写的一个利用搜索引擎爬取会议论文的脚本

时间：2022-10-04 00:22:48浏览次数：61

标签：search url list 搜索引擎爬取 key print page 女朋友

import bs4, requests, os
from multiprocessing import Manager, Pool

#红色：报错
def R(message):
    return "\033[1;91m{}\033[0;m".format(message)
#绿色：成功
def G(message):
    return "\033[1;92m{}\033[0;m".format(message)

def B(message):
    return "\033[1;94m{}\033[0;m".format(message)

url_dict = Manager().dict()
key_list = ["On the TOCTOU Problem in Remote Attestation", "Search-based Approaches for Local Black-Box Code Deobfuscation: Understand, Improve and Mitigate", "Exorcising Spectres with Secure Compilers"]
fakeua = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36"}
search_depth = 10 #搜索前10个链接
thread_num = 8 #线程数

def search_page(search_list):
	print(B('[*]Starting search page now......'))
	for keywords in search_list:
		# 进行必应搜索并下载搜索页面
		searchPage = requests.get('https://cn.bing.com/search?q=' + keywords, headers = fakeua)
		searchPage.raise_for_status()    # 如果失败就抛出异常

		# 得到搜索结果的链接
		searchSoup = bs4.BeautifulSoup(searchPage.text, features="html.parser")
		elements = searchSoup.select('.sh_favicon')

		# 在浏览器中打开前search_depth个连接
		get_url = False
		for i in range(min(search_depth, len(elements))):
			href = elements[i].get('href')
			try:
				if "pdf" in href:
					url_dict[keywords] = href
					get_url = True
					break
			except:
				pass

		if get_url:
			print(G('[+] Get download href "%s" for paper "%s"' % (href, keywords)))
		else:
			print(R('[-] Cannot get download href for paper "%s"' % (keywords)))

def download_page(search_list):
	print(B('[*]Starting download page now......'))
	for key in search_list:
		if key not in url_dict:
			break
		url = url_dict[key]
		try:
			key = filter_key(key)
			data = requests.get(url, headers=fakeua, stream=True, timeout=30)
			result_dir = os.path.join(os.getcwd(), '\\result')
			if not os.path.exists(result_dir):
				os.mkdir(result_dir)
			page_path = os.path.join(result_dir, '%s.pdf' % key)
			with open(page_path, 'wb') as fp:
					fp.write(data.content)
			print(G('[+] Successfully download page "%s.pdf"' % (key)))
		except:
			print(G('[-] Failed download page "%s.pdf"' % (key)))
			pass

#替换掉名字中的特殊字符
def filter_key(key):
	sets = ['/', '\\', ':', '*', '?', '"', '<', '>', '|']
	for char in key:
		if char in sets:
			key = key.replace(char, '')
	return key

def gen_result_txt():
	path = os.path.join(os.getcwd(), 'result.txt')
	with open(path, 'w+') as fp:
		for key, value in url_dict.items():
			line = key + ' ==> ' + value + '\n'
			fp.write(line)
	print(G('[+] Successfully gen reulst text in: %s' % (path)))

if __name__ == '__main__':
	#分发线程任务
	thread_num = min(thread_num, len(key_list))
	each_len = len(key_list) // thread_num
	search_list = []
	for i in range(thread_num):
		if i == thread_num - 1:
			search_list.append(key_list[i*each_len:])
		else:
			search_list.append(key_list[i * each_len: i * each_len + each_len])

	print (search_list)
	pool = Pool(processes=thread_num)
	pool.map(search_page, search_list)
	pool.join()  # 主进程阻塞等待子进程的退出
	gen_result_txt()
	print (url_dict)
	pool = Pool(processes=thread_num)
	pool.map(download_page, search_list)

标签：search,url,list,搜索引擎,爬取,key,print,page,女朋友
From： https://www.cnblogs.com/z5onk0/p/16751693.html

python爬取黑马网站
......
使用 Scrapy + Selenium 爬取动态渲染的页面
在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过......
python爬虫入门教程：爬取网页图片
在现在这个信息爆炸的时代，要想高效的获取数据，爬虫是非常好用的。而用python做爬虫也十分简单方便，下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程：首先是要用到......
核酸管理网站爬取
fromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriver.common.byimportByimporttimeimportdatetime#date=st......
多线程爬取wallhaven
前言最近整理自己的项目时，发现之前自己写的爬取wallhaven网站顿时有来的兴趣决定再写一遍来回顾自己以前学的知识网站地址："https://wallhaven.cc/"1.url参数结构从ur......
女朋友让我深夜十二点催她睡觉，我有Python我就不干
事情是这样的：今天晚上，女朋友让我十二点催她睡觉。不过，可是我实在太困了，熬不下去……是吧？女朋友哪有睡觉重要？但，女朋友的命令，我是不敢违抗的…… ......
# 用飞书来谈恋爱，飞书机器人定时给女朋友问好
目录用飞书来谈恋爱，飞书机器人定时给女朋友问好前言技术要求操作步骤1.两个人用飞书建一个群，添加群机器人2.申请高德地图API3.创建SpringBoot工程，引入Web依赖4.制作飞书卡......
爬取某东的小米的手机信息20页用selenium来爬取
importtime#fromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServicefrombs4importBeautifulSoupfromselenium.webdriver.commo......
Python爬取全球疫情数据，制作数据可视化图
前言开发环境python3.8:解释器pycharm:代码编辑器requests发送请求pyecharts绘制图表pandas读取数据爬虫案例思路流程:一.数据来源分析:......
你真的会用百度吗？我不信 — 那些不为人知的搜索引擎语法
搜索引擎是咱们在日常生活、工作必备的工具查个明星八卦、地址，搜索遇到的某个问题的解决方法但是，作为一个有追求、有理想的技术人员其实搜索引擎的背后，有很多......

给女朋友写的一个利用搜索引擎爬取会议论文的脚本

相关文章

赞助商

阅读排行