python 批量爬取邮箱

时间：2023-03-24 18:14:42浏览次数：45

标签：comment python list else 爬取 url 邮箱 print mail

python 批量爬取邮箱地址

#coding: utf-8
import requests
import bs4 #解析网页
import lxml
import re

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'
}

proxyip = {
     'http': '121.13.252.61:41564'
}

#获取该页面所有url 地址，包括分页地址，返回除了本页面以外的所有分页地址
def fetch_url():
    url_list = []
    page_obj = requests.get('https://www.douban.com/group/topic/165453665/?start=100&_i=9637470y8YseOC',headers=headers,proxies=proxyip)
    bs4_obj = bs4.BeautifulSoup(page_obj.text,"lxml") #指定lxml 解析器
    #print(bs4_obj.text)
    #需要分析页面前端代码，div 以及标签选择器
    comment_else = bs4_obj.find_all(name="div",attrs={"class":"paginator"}) #comment_else 是一个大的列表
    for element in comment_else:
      comment_else_url = element.find("a") #查找所有 a 标签
      
      #<a href="https://www.douban.com/group/topic/165453665/?start=0">1</a> ，获取地址 https://www.douban.com/group/topic/165453665/?start=0
      comment_else_url = comment_else_url.attrs.get("href") #未带class 属性,直接提取href,获取真实分页http 地址
      url_list.append(comment_else_url)
      #print(comment_else_url.attrs.get("href"))
    return url_list

def fetch_mail_address(url):
    page_obj = requests.get(url,headers=headers,proxies=proxyip)
    #print(page_obj.text)
    bs4_obj = bs4.BeautifulSoup(page_obj.text,"lxml") #指定lxml 解析器
    comment_else = bs4_obj.find_all(name="div",attrs={"class":"reply-doc content"}) #comment_else 是一个大的列表
    #print(comment_else)
    #print(len(comment_else))
    # <span class="all ref-content">359906309@qq.com
    # <p class="reply-content">1489433531@qq.com谢谢楼主</p>

    mail_list = []
    for ele in comment_else:
        comment_ele_p = ele.find("p",attrs={"class":"reply-content"})
        comment_ele_pubtime = ele.find("span", attrs={"class": "pubtime"})
        #print(comment_ele_p.text,"-------------")
        #re 正则匹配邮箱地址
        comment_ele_address = re.search("\w+@\w+.\w+",comment_ele_p.text,flags=re.A) #flags防止匹配带上汉字
        #print(comment_ele_pubtime)
        if comment_ele_address:
            #print()
            mail_list.append([comment_ele_address.group(),comment_ele_pubtime.text])
    return mail_list


if __name__ == "__main__":
  url_list = fetch_url()
  mail_total_list = []
  for url in url_list:
    mail_list = fetch_mail_address(url)
    mail_total_list.append(mail_list)
  mail_now_page_mail = fetch_mail_address('https://www.douban.com/group/topic/165453665/?start=100&_i=9637470y8YseOC')
  mail_total_list.append(mail_now_page_mail)
  #print(mail_total_list)
  print('----------------------------------------------')

  mail_new_total_list = []
  for ilist in mail_total_list:
    for mail in ilist:
      #print(mail[0])
      mail_new_total_list.append(mail[0])
  
  print(mail_new_total_list)
  print(len(mail_new_total_list))

标签：comment,python,list,else,爬取,url,邮箱,print,mail
From： https://www.cnblogs.com/lixinliang/p/17252936.html

用Python和Pytorch使用softmax和cross-entropy
softmax激活函数softmax激活函数将包含K个元素的向量转换到（0，1）之间，并且和为1，因此它们可以用来表示概率。 python:defsoftmax(x):returnnp.exp(x)/np.s......
python超时处理方法eventlet的eventlet.Timeout
一、前言在使用python进行接口自动化测试、脚本编写、执行sql的时候，如果遇到以下问题的，都可以用eventlet.timeout这个方法。执行下载数据的接口，数据量较大导致后面接口......
python总结
whypython脚本比起c++更简单代码量更少，省去编译的时间。python比起rubby，pearl等其他脚本也更简洁一些，要的就是最简洁。python数据集合元组，列表，set，字典(相当于map)元组和列......
Python中实现获取所有微信好友的头像并拼接成一张图片
场景实现扫码登录微信并获取所有好友的昵称以及头像，并将所有头像拼接成一张图片。实现新建文件夹weixinImage文件夹下新建文件weixinImge.py#-*-coding:utf-8-*-fromw......
linux环境下离线安装python3
1、卸载旧的python3rpm-qa|greppython3|xargsrpm-ev--allmatches--nodepswhereispython3|xargsrm-frv2、安装python3http://npm.taobao.org/mirrors/python/......
Python中提示：UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position
场景Pycharm中运行：获取所有微信好友的头像并拼接成一张图片提示:UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe5inposition......
python stata转mysql
importnumpyasnpimportpyreadstataspyreadstatimportjson,re,random,pymysql,configparser,sysimportpandasaspdfromduconfigimportread_inidefdujieg......
Python中提示：no module named 'PIL'
场景实现不要执行pipinstallPIL要执行pipinstallPillow如果提示超时，执行pip--default-timeout=200install-UPillow......
简单介绍最新python 字符串数组互转问题
字符串转list数组str='1,2,3'arr=str.split(',')gpu_ids分配name=opt.namegpu_ids=[int(item)foriteminopt.gpu_ids.split(',')]#setgpuidsiflen(gpu_i......
从Python的turtle绘图开始学习图形化程序设计
Turtlepython2.6版本中后引入的一个简单的绘图工具，叫做海龟绘图(TurtleGraphics),turtle库是python的内部库,使用导入即可:importturtle画布画布就是turtle为我们展开用......

python 批量爬取邮箱

python 批量爬取邮箱地址

相关文章

赞助商

阅读排行