首页 > 其他分享 >网页可读内容抽取 API 数据接口

网页可读内容抽取 API 数据接口

时间:2024-08-31 20:37:39浏览次数:3  
标签:抽取 网页 string 接口 API 参数 文章 Data

网页可读内容抽取 API 数据接口

智能提取文章关键元素信息,智能抽取,多种元素信息。

gugudata_api_cover

1. 产品功能

  • 智能提取网页可阅读内容;
  • 提供网页可阅读内容的 HTML 代码;
  • 支持传递网页 HTML 或网页 URL 参数;
  • 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
  • 秒级解析性能,支持高并发;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/readability

接口地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/websitetools/readability

数据预览: https://www.gugudata.com/preview/readability

接口测试: https://api.gugudata.com/websitetools/readability/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY
html string YOUR_VALUE 需要抽取的网页 HTML 内容,与参数 url 二选一
url string YOUR_VALUE 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题)

4. 返回参数

参数名 参数类型 备注
DataStatus.RequestParameter string 接口请求参数
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.Title string 文章标题
Data.Byline string 文章作者
Data.Dir string 文章文字方向
Data.Lang string 文章语言
Data.Content string 文章内容
Data.TextContent string 文章内容(不包含 HTML 标签,按段落分割)
Data.Length int 文章长度
Data.Excerpt string 文章摘要
Data.SiteName string 网站名称
Data.PublishedTime string[] 文章发布时间

标签:抽取,网页,string,接口,API,参数,文章,Data
From: https://www.cnblogs.com/parry/p/18390730

相关文章

  • 《真三国无双7帝国》启动故障排除手册:彻底解决steam_api.dll丢失及其他常见问题
    《真三国无双7帝国》是一款备受欢迎的动作游戏,但一些玩家在尝试启动游戏时可能会遇到“steam_api.dll丢失”的错误提示。这个问题往往让人感到困扰,因为缺少这个动态链接库(DLL)文件会导致游戏无法正常启动。本文将深入探讨这一问题的原因,并提供有效的解决方法。steam_api.dll丢......
  • 管易云API接口对接实例
    管易云(C-ERP)是一款面向电商企业的企业管理软件,它集成了订单管理、库存管理、财务管理等多种功能。为了更好地与其他系统集成,管易云提供了API接口,使得第三方应用可以通过调用这些接口来实现数据交互。管易云API接口对接实例假设我们有一个电商平台需要与管易云进行订单同步,以便及时......
  • 使用python基于fastapi发布接口(二)-连接mysql数据库查询数据
    上一章在这里操作MySQL数据库使用mysql-connector-python库安装mysql-connector-pythonpipinstallmysql-connector-python代码编写在原来代码基础上添加数据库连接配置fromtypingimportUnionfromfastapiimportFastAPIapp=FastAPI(......
  • SimpleTranslationAIAgent借助SiliconCloud API 构建自己的专属翻译助手
    SimpleTranslationAIAgent介绍SimpleTranslationAIAgent是一款基于C#与LLM通过简单对话即可实现文件到文件的翻译任务的简单应用,基于WPF与SemanticKernel构建。该软件是MIT协议完全开源免费的,但是调用LLM的API可能需要费用,但是没关系,赛博菩萨硅基流动有免费的模型可调了。这个......
  • 豆包 API 调用示例代码详解-Python版
    文章目录豆包API调用示例代码详解-Python版一、事前准备二、所需Python包三、代码详解五、源码下载四、总结豆包官方API文档豆包API调用示例代码详解-Python版在本文中,我们将详细介绍如何使用Python调用豆包API,并提供相关的事前准备和代码执行步骤。一、......
  • C++ Windows API CreateFile
    前言本文介绍windows提供的打开文件或创建的系统接口-----CreateFile().开发中,时常有打开文件的需求,日常我们使用的是c++标准库内的ofstream和ifstream来进行文件的创建、读写。但是Windows系统本身也为我们提供了相关的接口。内容CreateFime函数原型HANDLECreateFil......
  • .Net 5.0 WebAPI 发布至 CentOS 7 系统
    〇、前言本文主要介绍了在CentOS7上部署WebAPI项目的过程。先安装.net5.0的环境,再创建一个示例项目并发布至CentOS上,同时列明了一些注意的点;最后将dotnet命令添加到系统自启动服务。一、Linux环境准备1.1centos7.x在线安装.net5.0第一行命令是添加包源,第二......
  • [js] 页面可见性API 监测用户切屏
    PageVisibilityAPI在做考试系统或者网课系统的时候,通常需要监测用户是否隐藏了当前标签页在看其它页面。PageVisibilityAPI提供了一个事件和两个状态来监测页面可见性,可以用它来判断用户是否切屏。visibilitychange这个事件会在页面可见性变化时触发。(隐藏时、打开时)//......
  • [js] 页面可见性API 监测用户切屏
    PageVisibilityAPI在做考试系统或者网课系统的时候,通常需要监测用户是否隐藏了当前标签页在看其它页面。PageVisibilityAPI提供了一个事件和两个状态来监测页面可见性,可以用它来判断用户是否切屏。visibilitychange这个事件会在页面可见性变化时触发。(隐藏时、打开时)//......
  • [js] 页面可见性API 监测用户切屏
    PageVisibilityAPI在做考试系统或者网课系统的时候,通常需要监测用户是否隐藏了当前标签页在看其它页面。PageVisibilityAPI提供了一个事件和两个状态来监测页面可见性,可以用它来判断用户是否切屏。visibilitychange这个事件会在页面可见性变化时触发。(隐藏时、打开时)//......