首页 > 其他分享 >文档提取工具 apache/tika

文档提取工具 apache/tika

时间:2024-05-07 18:00:26浏览次数:23  
标签:err text fmt 9998 文档 apache tika

docker安装

拉取镜像

docker pull apache/tika:latest

运行容器

docker run -itd -p 9998:9998 --name tika apache/tika:latest

使用

命令行模式

curl -s -X PUT -T ./test.txt localhost:9998/tika  --header 'Accept: text/plain'

golang

package main

import (
	"context"
	"fmt"
	"github.com/google/go-tika/tika"
	"os"
)

func main() {

	client := tika.NewClient(nil, "http://127.0.0.1:9998")
	// 解析的文件的路径
	filePath := "./test.txt"
	file, err := os.Open(filePath)
	if err != nil {
		fmt.Println("Error opening file:", err)
		return
	}
	// 使用 Tika 提取文本
	text, err := client.ParseWithHeader(context.TODO(), file, map[string][]string{
		"Accept": []string{"text/plain"},
	})
	if err != nil {
		fmt.Println("Error extracting text:", err)
		return
	}
	// 输出提取的文本
	fmt.Println("Extracted Text:", text)
}

标签:err,text,fmt,9998,文档,apache,tika
From: https://www.cnblogs.com/xingzr/p/18177405

相关文章

  • web server apache tomcat11-33-CDI
    前言整理这个官方翻译的系列,原因是网上大部分的tomcat版本比较旧,此版本为v11最新的版本。开源项目从零手写实现tomcatminicat别称【嗅虎】心有猛虎,轻嗅蔷薇。系列文章webserverapachetomcat11-01-官方文档入门介绍webserverapachetomcat11-02-setup启动web......
  • Apache Log4j2远程命令执行漏洞
    目录漏洞原理复现反弹shell漏洞修复AApacheLog4j2是一个基于Java的日志记录工具,被广泛应用于业务系统开发,开发者可以利用该工具将程序的输入输出信息进行日志记录。Log4j2远程代码执行漏洞编号CVE-2021-44228。漏洞原理漏洞主要由于Log4j2在处理程序日志记录时存在JNDI入......
  • 如何通过文件外发系统 有效防止图纸等文档泄密?
    文件外发系统是企业数据安全管理中的关键组成部分,主要用于处理企业内部文件向外部传输的流程。 以下是文件外发系统的几个主要用途:1、防止数据泄露:通过严格的审批流程和安全策略,防止未经授权的文件外发,降低数据泄露风险。2、提高数据传输安全性:文件外发系统通常具备加密传输......
  • web server apache tomcat11-31-websocket
    前言整理这个官方翻译的系列,原因是网上大部分的tomcat版本比较旧,此版本为v11最新的版本。开源项目从零手写实现tomcatminicat别称【嗅虎】心有猛虎,轻嗅蔷薇。系列文章webserverapachetomcat11-01-官方文档入门介绍webserverapachetomcat11-02-setup启动web......
  • Apache Shiro 721反序列化漏洞Padding Oracle Attack
    目录漏洞原理复现修复方式漏洞原理Shiro的RememberMeCookie使用的是AES-128-CBC模式加密。其中128表示密钥长度为128位,CBC代表CipherBlockChaining,这种AES算法模式的主要特点是将明文分成固定长度的块,然后利用前一个块的密文对当前块的明文进行加密处理。这种模式的加......
  • Apache Shiro 550反序列化漏洞
    目录漏洞原理复现漏洞探测方式一ysoserial反弹shell方式二ShiroAttack2一键利用修复措施ApacheShiro是一个用于身份验证、授权、加密和会话管理的Java安全框架。ApacheShiro550是个反序列化漏洞,漏洞编号为CVE-2016-4437。漏洞原理Shiro框架提供了一个RememberMe功能,允许......
  • Alpha冲刺接口文档
    Alpha冲刺用户模块POST注册POST/user/register用户在注册时需要设定好:用户名、用户密码、用户的邮箱、邮箱验证码绑定邮箱不是输入邮箱就可以了,而是要发送验证码到指定的邮箱中,确认完验证码之后才能绑定发送邮箱验证码会单独提供一个接口。逻辑可以参照,以下序列图sequen......
  • 【排课小工具】排排课使用文档
    概述该工具致力于解决小学排课问题,通过输入固定格式的课程以及教师等数据,可以快速完成整个年级的排课任务,输出的排课结果遵循自然规律,避免时间冲突,同时尽可能将教师的上课时间分散开。除了输出每个班级的课表外,还附带输出每个教师视角下的课表,使得教师从整体上看到自己的时间安排......
  • apache druid 初识
    一:Apachedruid是一种实时分析数据库,设计用于对大型数据集进行快速分析(OLAP),支持数据的实时摄取,提供低时延的查询性能。二:Apachedruid主要特点(1)列式存储格式,查询时只加载特定查询的列,还根据数据类型优化每一列的存储,加快查询速度。(2)可扩展的分布式系统。典型的Druid部署......
  • 开源文档预览项目 kkFileView (9.9k star) ,快速入门
    kkFileView是一款文件文档在线预览解决方案,采用流行的SpringBoot框架构建,易于上手和部署。该项目基本支持主流办公文档的在线预览,包括但不限于doc、docx、xls、xlsx、ppt、pptx、pdf、txt、zip、rar,以及图片、视频、音频等格式。1Docker部署拉取镜像:#网络环境方便......