现在国内的新闻网站上,乱七八糟的广告和其他不相干内容太多。
怎么能批量提取出新闻标题和正文呢?
GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。借助GEN这个Python库,就可以很轻松的实现提取新闻内容的任务。
在ChatGPT中输入如下提示词:
写一段Python代码,实现提取新闻网站上文本的任务。具体步骤如下:
用户输入一个新闻页面的URL,获取URL;
用gne库(GeneralNewsExtractor)来提取标题和主体内容;
提取内容保存到d盘的excel文件中,excel文件标题为News,新闻标题标题放在第1列,新闻内容放在第2列;
程序运行后,显示错误信息:
403 Forbidden
You don't have permission to access the URL on this server.
denied by UA ACL = blacklist
Powered by Tengine CDN Request Id: a3b5179f16863107904525739e
求助于ChatGPT,回复如下:
看起来你遇到了403禁止访问的错误。这可能是因为目标网站的服务器拒绝了你的请求。这通常是因为服务器检测到了Python请求的User-Agent,认为这是一个爬虫或自动化工具。
你可以尝试在请求中伪装成一个常见的浏览器User-Agent,这样服务器可能就不会阻止你的请求了。以下是修改后的代码:
输入一篇网易新闻: https://www.163.com/news/article/I6QD90N400019K82.html
程序运行后,结果如下:
文本提取的准确度比较高,可以满足要求。
标签:提取,网站,新闻,编程,正文,URL,ChatGPT,文本 From: https://blog.51cto.com/fancyar/6451524