数之联官网新闻爬取

时间：2023-03-05 14:00:25浏览次数：44

标签：数之联 headers title 爬取 item href import 官网 id

import requests
import pandas as pd
import random
from time import sleep
import json


def shuzhilian(keyword):

    for i in range(1, 20):
        baseurl = 

f'https://www.17hongtu.cn/third_Party/Build/getArticle?id=340&page={i}&cate_id=0'
        headers = [  "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36" ]
        headers = {
            "User-Agent": str(random.choice(headers)),
        					}
        res = requests.get(url=baseurl, headers=headers).json()
        datalist = res['data']['data']
        for item in datalist:
            title = item['name']
            hrefid = item['id']
            href = f'http://www.unionbigdata.com/news/detail/news-9682-{id}-1.html'
            retime = item['create_time']
            intro = item['description']
            print(f'{title}的网址为{href}')
            info = pd.DataFrame(
                {'keyword': keyword, 'title': title, 'href': href, 'retime': retime, 'intro': intro},
                index=[1])
            info.to_csv(r'D:\桌面\shuzhilian.csv', mode='a', header=None, index=None, encoding='utf_8_sig')
            sleep(.3)
            
shuzhilian('成都数之联科技股份有限公司')

说明：代码仅供学习参考使用,请勿用于任何非法用途,否则自行承担法律责任

标签：数之联,headers,title,爬取,item,href,import,官网,id
From： https://www.cnblogs.com/ysnote/p/17180331.html

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）
概念网络爬虫就是按照一定的规则，自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页，获取网页中我们需要的数据。基本流程准备工作（构建流程）获取数据解析......
猪八戒网服务商名称爬取
importrequestsfromlxmlimportetreeurl='https://changsha.zbj.com/xcxkfzbjzbj/f.html?fr=zbj.sy.zyyw_2nd.lv3&r=2'headers={'User-Agent':'Mozilla......
爬虫实战---爬取图片
爬虫实战---爬取图片importrequestsimportreforpageinrange(1,11):ifpage==1:url="http://www.netbian.com/meinv/index.htm"else:......
HTTP代理如何爬取？保姆式教程（附测试视频）
在网络爬虫的应用中，HTTP代理的使用是常见的技术手段之一。通过使用HTTP代理，爬虫可以模拟不同的访问来源，避免被目标网站识别出爬虫行为，从而提高爬虫的成功率和效率。那么，如何......
python初学者也能搞定微信公众号爬取
微信公众号爬取，网上的东西很多。这里主要分两个阶段1.把公众号的文章URL爬取并保存下来。2.根据这些URL把内容下载下来。把URL爬取下来这里采用了，微信公众平台的方法，也就......
一个多线程爬取http://www.infobank.cn的爬虫
importrequestsfrombs4importBeautifulSoupimportreimportopenpyxlfrommultiprocessing.dummyimportPoolimporttimeimportos#从输入表格获取数据defread_exce......
爬取电影天堂最新电影下各个电影标题-电影磁链接
importrequestsimportreurl='xxx/index2.htm'headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGe......
python爬取豆瓣Top250（urlliib+re+bs4+xlwt）
frombs4importBeautifulSoupimporturllib.request,urllib.errorimportxlwt#进行excel操作importreimporttime#获取电影名的规则findtitle=re.compil......
王者荣耀英雄图片爬取
王者荣耀英雄图片爬取pyquery库https://pyquery.readthedocs.io/en/latest/官方文档https://github.com/gawel/pyquerygithubpyquery实际上是python中的jquery......
Microsoft Office 2016 专业增强版 for Windows 官网下载地址
MicrosoftOffice2016专业增强版是Microsoft公司推出的一款高级的办公软件套件，包括Word、Excel、PowerPoint、Outlook、OneNote、Access、Publisher、SkypeforBusiness......

数之联官网新闻爬取

相关文章

赞助商

阅读排行