零代码编程：用ChatGPT提取新闻网站上的文本

时间：2023-06-09 22:01:00浏览次数：71

现在国内的新闻网站上，乱七八糟的广告和其他不相干内容太多。

零代码编程：用ChatGPT提取新闻网站上的文本_服务器

怎么能批量提取出新闻标题和正文呢？

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。借助GEN这个Python库，就可以很轻松的实现提取新闻内容的任务。

在ChatGPT中输入如下提示词：

写一段Python代码，实现提取新闻网站上文本的任务。具体步骤如下：

用户输入一个新闻页面的URL，获取URL；

用gne库（GeneralNewsExtractor）来提取标题和主体内容；

提取内容保存到d盘的excel文件中，excel文件标题为News，新闻标题标题放在第1列，新闻内容放在第2列；

程序运行后，显示错误信息：

403 Forbidden

You don't have permission to access the URL on this server.

denied by UA ACL = blacklist

求助于ChatGPT，回复如下：

看起来你遇到了403禁止访问的错误。这可能是因为目标网站的服务器拒绝了你的请求。这通常是因为服务器检测到了Python请求的User-Agent，认为这是一个爬虫或自动化工具。

你可以尝试在请求中伪装成一个常见的浏览器User-Agent，这样服务器可能就不会阻止你的请求了。以下是修改后的代码：

零代码编程：用ChatGPT提取新闻网站上的文本_服务器_02

输入一篇网易新闻： https://www.163.com/news/article/I6QD90N400019K82.html

程序运行后，结果如下：

零代码编程：用ChatGPT提取新闻网站上的文本_程序运行_03

文本提取的准确度比较高，可以满足要求。

标签：提取,网站,新闻,编程,正文,URL,ChatGPT,文本
From： https://blog.51cto.com/fancyar/6451524

文心一言 VS 讯飞星火 VS chatgpt （36）-- 算法导论5.3 6题
六、请解释如何实现算法PERMUTE-BY-SORTING，以处理两个或更多优先级相同的情形。也就是说，即使有两个或更多优先级相同，你的算法也应该产生一个均匀随机排列。文心一言：算法PERMUTE-BY-SORTING是一种基于排序的随机排列算法，它通过将输入数组中的元素按照优先级排序，然后根据优先级......
2023高考第一天，用ChatGPT挑战全国卷作文，已达到双一流高校学生水平？
前言2023年高考语文结束啦，今天我们用ChatGPT来挑战高考作文，一起来看看它的表现如何？ChatGPT突然爆火网络，它真的会取代人类的工作吗？什么是ChatGPT？ChatGPT是由OpenAI开发的，OpenAI是一家由伊隆·马斯克和其他著名科技企业家共同创立的人工智能研究公司。OpenAI旨在推动人工智能技术......
UDP编程
字节序概念：是指多字节数据的存储顺序小端格式:将低位字节数据存储在低地址（LSB）大端格式:将高位字节数据存储在低地址（MSB）特点1、网络协议指定了通讯字节序—大端2、只有在多字节数据处理时才需要考虑字节序3、运行在同一台计算机上的进程相互通信时,一般不用考虑字节序4、异构......
Python递归法计算棋盘上所有路径总奖品最大值（京东2016编程题）
问题描述：假设有一个6x6的棋盘，每个格子里有一个奖品（每个奖品的价值在100到1000之间），现在要求从左上角开始到右下角结束，每次只能往右或往下走一个格子，所经过的格子里的奖品归自己所有。问最多能收集价值多少的奖品。思路：每个格子所在路径的总奖品最大值依赖于左边的格子或右边的格子。......
Python编写编程作业批量自动打分程序的思路与实现
总体思路：把接口明确地告诉学生（本文后面的代码要求学生程序中必须有个函数叫做searchOnede），然后学生把Python程序文件（学号_姓名.py）以任何方式提交给老师，放到同一文件夹中。下面的代码首先由老师编写一个自己认为的最佳和最优实现，然后把学生的程序文件作为模块导入并调用其中的searchO......
使用Python读写文本文件内容
本文主要演示如何读写文本文件的内容，以及上下文管理语句with的用法。使用上下文管理语句with时，即使在操作文件内容时引发异常也能保证文件被正确关闭。#'w'表示写入文件，默认为文本文件#如果文件test1.txt不存在，就创建#如果文件test1.txt已存在，就覆盖withopen('test1.txt','w')......
Python批量提取PDF文件中的文本
首先需要执行命令pipinstallpdfminer3k来安装处理PDF文件的扩展库。importosimportsysimporttimepdfs=(pdfsforpdfsinos.listdir('.')ifpdfs.endswith('.pdf'))forpdf1inpdfs:pdf=pdf1.replace('','_').replace('-......
java集成chatGpt完整案例代码(效果和官网一样逐字输出)
背景要集成chatGpt参考我上一篇文章即可。但是，如果要实现官网一样的效果，逐字输出，难度就提升了不少了。经过在官网的研究发现它应该是采用了SSE技术，这是一种最新的HTTP交互技术。SSE(Server-SentEvents):通俗解释起来就是一种基于HTTP的，以流的形式由服务端持续向客户端发送数据的......
Python响应Ctrl键+鼠标滚轮操作动态调整文本框的字号
编写程序，使用tkinter设计程序界面，其中放置带滚动条的文本框组件ScrolledText，当鼠标悬于该组件上方时，可以通过Ctrl键和鼠标滚轮来动态调整文本框中文本的字号，鼠标滚轮向上滚动时增大字号，向下滚动时减小字号。参考代码：......
Python趣味编程3则：李白买酒、猴子吃桃、宝塔上的琉璃灯
1、李白买酒问题描述：李白街上走，提壶去买酒。遇店加一倍，见花喝一斗。店不相邻开，花不成双长。三遇店和花，喝光壶中酒。请问此壶中，原有多少酒？简单分析：题目中加一倍是指再购买和壶中酒同样数量的酒，喝一斗是指喝掉壶中的一斗酒。根据描述，李白应该是先后遇到了酒店、鲜花、酒店、鲜花、酒......

零代码编程：用ChatGPT提取新闻网站上的文本

相关文章

赞助商

阅读排行