首页 > 编程语言 >零代码编程:用ChatGPT提取新闻网站上的文本

零代码编程:用ChatGPT提取新闻网站上的文本

时间:2023-06-09 22:01:00浏览次数:71  
标签:提取 网站 新闻 编程 正文 URL ChatGPT 文本

现在国内的新闻网站上,乱七八糟的广告和其他不相干内容太多。

零代码编程:用ChatGPT提取新闻网站上的文本_服务器

怎么能批量提取出新闻标题和正文呢?

GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。借助GEN这个Python库,就可以很轻松的实现提取新闻内容的任务。

在ChatGPT中输入如下提示词:

写一段Python代码,实现提取新闻网站上文本的任务。具体步骤如下:

用户输入一个新闻页面的URL,获取URL;

用gne库(GeneralNewsExtractor)来提取标题和主体内容;

提取内容保存到d盘的excel文件中,excel文件标题为News,新闻标题标题放在第1列,新闻内容放在第2列;

程序运行后,显示错误信息:

403 Forbidden

You don't have permission to access the URL on this server.

denied by UA ACL = blacklist

Powered by Tengine CDN Request Id: a3b5179f16863107904525739e

求助于ChatGPT,回复如下:

看起来你遇到了403禁止访问的错误。这可能是因为目标网站的服务器拒绝了你的请求。这通常是因为服务器检测到了Python请求的User-Agent,认为这是一个爬虫或自动化工具。

你可以尝试在请求中伪装成一个常见的浏览器User-Agent,这样服务器可能就不会阻止你的请求了。以下是修改后的代码:

零代码编程:用ChatGPT提取新闻网站上的文本_服务器_02

输入一篇网易新闻: https://www.163.com/news/article/I6QD90N400019K82.html

程序运行后,结果如下:

零代码编程:用ChatGPT提取新闻网站上的文本_程序运行_03

文本提取的准确度比较高,可以满足要求。

标签:提取,网站,新闻,编程,正文,URL,ChatGPT,文本
From: https://blog.51cto.com/fancyar/6451524

相关文章

  • 文心一言 VS 讯飞星火 VS chatgpt (36)-- 算法导论5.3 6题
    六、请解释如何实现算法PERMUTE-BY-SORTING,以处理两个或更多优先级相同的情形。也就是说,即使有两个或更多优先级相同,你的算法也应该产生一个均匀随机排列。文心一言:算法PERMUTE-BY-SORTING是一种基于排序的随机排列算法,它通过将输入数组中的元素按照优先级排序,然后根据优先级......
  • 2023高考第一天,用ChatGPT挑战全国卷作文,已达到双一流高校学生水平?
    前言2023年高考语文结束啦,今天我们用ChatGPT来挑战高考作文,一起来看看它的表现如何?ChatGPT突然爆火网络,它真的会取代人类的工作吗?什么是ChatGPT?ChatGPT是由OpenAI开发的,OpenAI是一家由伊隆·马斯克和其他著名科技企业家共同创立的人工智能研究公司。OpenAI旨在推动人工智能技术......
  • UDP编程
    字节序概念:是指多字节数据的存储顺序小端格式:将低位字节数据存储在低地址(LSB)大端格式:将高位字节数据存储在低地址(MSB)特点1、网络协议指定了通讯字节序—大端2、只有在多字节数据处理时才需要考虑字节序3、运行在同一台计算机上的进程相互通信时,一般不用考虑字节序4、异构......
  • Python递归法计算棋盘上所有路径总奖品最大值(京东2016编程题)
    问题描述:假设有一个6x6的棋盘,每个格子里有一个奖品(每个奖品的价值在100到1000之间),现在要求从左上角开始到右下角结束,每次只能往右或往下走一个格子,所经过的格子里的奖品归自己所有。问最多能收集价值多少的奖品。思路:每个格子所在路径的总奖品最大值依赖于左边的格子或右边的格子。......
  • Python编写编程作业批量自动打分程序的思路与实现
    总体思路:把接口明确地告诉学生(本文后面的代码要求学生程序中必须有个函数叫做searchOnede),然后学生把Python程序文件(学号_姓名.py)以任何方式提交给老师,放到同一文件夹中。下面的代码首先由老师编写一个自己认为的最佳和最优实现,然后把学生的程序文件作为模块导入并调用其中的searchO......
  • 使用Python读写文本文件内容
    本文主要演示如何读写文本文件的内容,以及上下文管理语句with的用法。使用上下文管理语句with时,即使在操作文件内容时引发异常也能保证文件被正确关闭。#'w'表示写入文件,默认为文本文件#如果文件test1.txt不存在,就创建#如果文件test1.txt已存在,就覆盖withopen('test1.txt','w')......
  • Python批量提取PDF文件中的文本
    首先需要执行命令pipinstallpdfminer3k来安装处理PDF文件的扩展库。importosimportsysimporttimepdfs=(pdfsforpdfsinos.listdir('.')ifpdfs.endswith('.pdf'))forpdf1inpdfs:pdf=pdf1.replace('','_').replace('-......
  • java集成chatGpt完整案例代码(效果和官网一样逐字输出)
    背景要集成chatGpt参考我上一篇文章即可。但是,如果要实现官网一样的效果,逐字输出,难度就提升了不少了。经过在官网的研究发现它应该是采用了SSE技术,这是一种最新的HTTP交互技术。SSE(Server-SentEvents):通俗解释起来就是一种基于HTTP的,以流的形式由服务端持续向客户端发送数据的......
  • Python响应Ctrl键+鼠标滚轮操作动态调整文本框的字号
    编写程序,使用tkinter设计程序界面,其中放置带滚动条的文本框组件ScrolledText,当鼠标悬于该组件上方时,可以通过Ctrl键和鼠标滚轮来动态调整文本框中文本的字号,鼠标滚轮向上滚动时增大字号,向下滚动时减小字号。参考代码:......
  • Python趣味编程3则:李白买酒、猴子吃桃、宝塔上的琉璃灯
    1、李白买酒问题描述:李白街上走,提壶去买酒。遇店加一倍,见花喝一斗。店不相邻开,花不成双长。三遇店和花,喝光壶中酒。请问此壶中,原有多少酒?简单分析:题目中加一倍是指再购买和壶中酒同样数量的酒,喝一斗是指喝掉壶中的一斗酒。根据描述,李白应该是先后遇到了酒店、鲜花、酒店、鲜花、酒......