89今日头条搜索

时间：2023-03-06 18:44:06浏览次数：53

标签：dic source 89 搜索 time import data page 头条

仅供学习参考！！

控制台图

存入excel图（从新运行，会覆盖，建议重新命名）

完整代码

import requests
from urllib.parse import quote
import pandas as pd
import time
import json
import re


def collect(key, total):
    resLs = []
    for page in range(total):
        url = f'https://so.toutiao.com/search?keyword={quote(key)}&pd=information&dvpf=pc&page_num={page}'
        headers = {
            'User-Agent': ua,
            'Cookie': ck
        }
        res = requests.get(url=url, headers=headers).content.decode('utf-8')
        ex = 'data-for=s-result-json data-used-by=hydrate>(.*?)</script>'
        pattern = re.compile(ex)
        for dic in pattern.findall(res):
            try:
                dic = json.loads(dic)
                title = dic['data']['title']
                abstract = dic['data']['abstract']
                date = time.strftime('%Y-%m-%d', time.localtime(int(dic['data']['publish_time'])))
                source = dic['data']['source']
                comment = dic['data']['comment_count']
                href = dic['data']['source_url']
                record = {
                    'title': title,
                    'abstract': abstract,
                    'date': date,
                    'source': source,
                    'href': href,
                    'comment': comment
                }
                resLs.append(record)
                print(record)
            except KeyError:
                pass
            except Exception as e:
                print(str(e))
            time.sleep(1)
    pd.DataFrame(resLs).to_excel('今日头条搜索.xlsx', index=False, encoding='utf-8')


if __name__ == '__main__':
    ua = 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.106Safari/537.36'
    ck = 'passport_csrf_token=72948754528a79a9bf062bf1733fc133; tt_webid=7078110223483389448; _S_DPR=1.25; _S_IPAD=0; MONITOR_WEB_ID=7078110223483389448; ttwid=1%7ChKYuO5fu4IwwB_lSa1vsppRwr8U2VaXqA7O3OhsuYpA%7C1648012935%7C5497cee960112e92e59f927c732a5b71043db6617e25e79f2af45faa8144898c; _S_WIN_WH=394_754'
    key = input("输入查询的关键字：")
    page = int(input("采集的页数:"))
    collect(key, page)

标签：dic,source,89,搜索,time,import,data,page,头条
From： https://www.cnblogs.com/code3/p/17184955.html

直播电商平台开发，uni-app 实现搜索关键词高亮效果
直播电商平台开发，uni-app实现搜索关键词高亮效果1.实现逻辑使用腾讯地图sdk关键词输入提示，过滤出符合条件的值过滤出来的值要添加样式，达到想要的高亮效果。需要正......
LeetCode 96. 不同的二叉搜索树（/）
原题解题目约束题解方法一classSolution{public:intnumTrees(intn){vector<int>G(n+1,0);G[0]=1;G[1]=1;......
CF1789 Codeforces Round 853 (Div. 2) D. Serval and Shift-Shift-Shift
https://codeforces.com/contest/1789/problem/D给定两个n位二进制数a,b，你可以每次使\(a=a\oplusa>>k\)或\(a=a\oplusa<<k\)，你需要用不超过n次操作......
【LeetCode二叉树#20】二叉搜索树转换为累加树，巩固二叉树的遍历（特殊的中序遍历）
将二叉搜索树转换为累加树力扣题目链接(opensnewwindow)给出二叉搜索树的根节点，该树的节点值各不相同，请你将其转换为累加树（GreaterSumTree），使每个节点node的新值......
【LeetCode二叉树#18】修剪二叉搜索树（涉及重构二叉树与递归回溯）
修剪二叉搜索树力扣题目链接(opensnewwindow)给定一个二叉搜索树，同时给定最小边界L和最大边界R。通过修剪二叉搜索树，使得所有节点的值在[L,R]中(R>=L)。你可能需......
【LeetCode二叉树#19】有序数组转换为二叉搜索树（构造二叉树）
将有序数组转换为二叉搜索树力扣题目链接(opensnewwindow)将一个按照升序排列的有序数组，转换为一棵高度平衡二叉搜索树。本题中，一个高度平衡二叉树是指一个二叉树每个......
C++ 深度优先搜索(DFS) 讲解
目录DFS初步概念DFS例题-迷宫游戏题目描述输入输出格式输入输出样例输入#1输出#1输入#2输出#2解题思路代码DFS初步概念DFS是一种深度搜索算法，它的特点是"不撞南墙不回头"......
基于禁忌搜索的TSP问题求解仿真输出路线规划图和收敛曲线
1.算法描述禁忌搜索（TabuSearch或TabooSearch，简称TS）是对局部搜索（LS）的一种扩展，是一种全局寻优算法，其特点是采用禁忌技术，即用一个禁忌表记录下已经到达过的局部最优点及求解......
基于禁忌搜索的TSP问题求解仿真输出路线规划图和收敛曲线
1.算法描述禁忌搜索（TabuSearch或TabooSearch，简称TS）是对局部搜索（LS）的一种扩展，是一种全局寻优算法，其特点是采用禁忌技术，即用一个禁忌表记录下已经到达过......
搜索引擎 - ES
ES集群有哪些类型的节点，以及节点对应的职责是什么？主要有Master节点和DataNode节点。Master节点主要负责：管理索引（创建索引、删除索引）、分配分片维护元数据管理集群节点......

89今日头条搜索

相关文章

赞助商

阅读排行