首页 > 其他分享 >Go每日一库之176:filetype(文件类型鉴别)

Go每日一库之176:filetype(文件类型鉴别)

时间:2023-09-29 21:23:18浏览次数:36  
标签:type filetype 一库 MIME 176 Go 文件类型 buf fmt

filetype(https://github.com/h2non/filetype)是一个 Go 语言的第三方库,可以根据文件的魔数(magic numbers)签名来推断文件的类型和 MIME 类型。它支持多种常见的文件类型,包括图片、视频、音频、文档、压缩包等。它还提供了一些便捷的函数和类型匹配器,可以方便地对文件进行分类和筛选。它的特点有:

  • 支持多种文件类型,提供文件扩展名和正确的 MIME 类型
  • 可以根据扩展名或 MIME 类型来发现文件类型
  • 可以根据类别(图片、视频、音频等)来发现文件类型
  • 可以添加自定义的新类型和匹配器
  • 简单而语义化的 API
  • 即使处理大文件也非常快速
  • 只需要前 262 字节表示最大的文件头,所以你可以只传递一个切片
  • 无依赖(只有 Go 代码,不需要 C 编译)
  • 跨平台的文件识别

实现原理分析

filetype 的实现原理是基于文件的魔数(magic numbers)签名来进行类型检测的。魔数是一种特定的字节序列,通常出现在文件的开头,用来标识文件的格式或内容。不同的文件类型有不同的魔数,比如 JPEG 文件的魔数是 FF D8 FF,PNG 文件的魔数是 89 50 4E 47,ZIP 文件的魔数是 50 4B 03 04 等。通过读取文件的前几个字节,就可以根据魔数来判断文件的类型。

这个库的核心原理还是基于魔数来推断文件类型,但是它没有直接定义一个 Matcher 接口,而是定义了一个函数类型 type Matcher func([]byte) bool。然后,它为每种支持的文件类型定义了一个 Matcher 函数,并将它们注册到一个全局的 matchers.Map 中。

当用户调用 filetype.Match(buf) 函数时,这个函数会遍历所有注册的 Matcher 函数,并调用它们,如果有一个找到了匹配的文件类型,返回对应的 Type 结构体和一个空错误。如果没有找到匹配的文件类型,就返回 Unknown 类型和一个错误信息。

这个库还允许用户自定义新的文件类型和匹配器,并将它们添加到全局的 Typesmatchers.Map 中。

filetype 还提供了一些辅助函数,比如 IsImage(buf)IsVideo(buf)IsAudio(buf) 等,用来判断给定的字节切片是否属于某个类别。它们都是基于 Matchers 变量来实现的,只是过滤了一些不属于该类别的类型。例如,IsImage(buf) 函数会遍历所有属于图片类别(MIME 类型以 image/ 开头)的匹配器,并返回是否有任何一个匹配器返回 true。

filetype 还提供了一些其他函数,比如 IsSupported(ext)IsMIMESupported(mime)GetType(ext)GetMIME(ext) 等,用来根据扩展名或 MIME 类型来查询或发现文件类型。它们都是基于 types.go 文件中定义的一个全局变量 Types 来实现的,它是一个映射表,存储了所有已注册的类型和对应的扩展名和 MIME 类型。例如,IsSupported(ext) 函数会在 Types 中查找是否有对应扩展名的类型存在,并返回 true 或 false。

使用示例

下面给出一些使用 filetype 库的具体例子:

简单地检测文件类型

package main

import (
    "fmt"
    "io/ioutil"
    "github.com/h2non/filetype"
)

func main() {
    // 读取一个文件
    buf, _ := ioutil.ReadFile("sample.jpg")

    // 匹配文件类型
    kind, _ := filetype.Match(buf)
    if kind == filetype.Unknown {
     fmt.Println("Unknown file type")
     return
 }
    fmt.Printf("File type: %s. MIME: %s\n", kind.Extension, kind.MIME.Value)
}

输出:

File type: jpg. MIME: image/jpeg

检查文件类别

package main

import (
    "fmt"
    "io/ioutil"
    "github.com/h2non/filetype"
)

func main() {
    // 读取一个文件
    buf, _ := ioutil.ReadFile("sample.jpg")

    // 检查是否是图片
    if filetype.IsImage(buf) {
     fmt.Println("File is an image")
 } else {
     fmt.Println("Not an image")
 }
}

输出:

File is an image

查询支持的类型

package main

import (
    "fmt"
    "github.com/h2non/filetype"
)

func main() {
    // 检查是否支持某个扩展名
    if filetype.IsSupported("jpg") {
     fmt.Println("Extension supported")
 } else {
     fmt.Println("Extension not supported")
 }

    // 检查是否支持某个 MIME 类型
    if filetype.IsMIMESupported("image/jpeg") {
     fmt.Println("MIME type supported")
 } else {
     fmt.Println("MIME type not supported")
 }
}

输出:

Extension supported
MIME type supported

添加自定义类型和匹配器

package main

import (
    "fmt"
    "github.com/h2non/filetype"
)

// 定义一个新的类型
var fooType = filetype.NewType("foo", "foo/foo")

// 定义一个新的匹配器
func fooMatcher(buf []byte) bool {
    return len(buf) > 1 && buf[0] == 0x01 && buf[1] == 0x02
}

func main() {
    // 注册新的匹配器和类型
    filetype.AddMatcher(fooType, fooMatcher)

    // 检查是否支持新的扩展名
    if filetype.IsSupported("foo") {
     fmt.Println("New supported type: foo")
 }

    // 检查是否支持新的 MIME 类型
    if filetype.IsMIMESupported("foo/foo") {
     fmt.Println("New supported MIME type: foo/foo")
 }

    // 尝试匹配新的类型
    fooFile := []byte{0x01, 0x02}
    kind, _ := filetype.Match(fooFile)
    if kind == filetype.Unknown {
     fmt.Println("Unknown file type")
 } else {
     fmt.Printf("File type matched: %s\n", kind.Extension)
 }
}

输出:

New supported type: foo
New supported MIME type: foo/foo
File type matched: foo

优缺点分析,和标准库 http.DetectContentType 的对比

filetype 库相比于标准库中提供的 http.DetectContentType 函数有以下优缺点:

优点:

  • 支持更多种类和更细分的文件类型,比如视频、音频、文档等。
  • 提供更准确和更规范化的 MIME 类型,比如 image/jpeg 而不是 image/jpg
  • 提供更多便捷和灵活的函数和接口,比如根据类别、扩展名或 MIME 类型来检测或发现文件类型。
  • 提供可插拔性,可以添加自定义的类型和匹配器。
  • 提供更简单而语义化的 API。

缺点:

  • 需要额外引入这个第三方库,并保持更新。
  • 可能存在一些未知或不常见格式的检测不准确或不支持的情况(但比标准库的好很多)

性能分析

为了评估 filetype 库的性能,我们可以使用 Go 的标准测试工具来进行基准测试(benchmark)。我编写一个简单的测试文件,比如 filetype_test.go,其中包含以下代码:

package main

import (
    "io/ioutil"
    "testing"
    "github.com/h2non/filetype"
)

// 读取一个文件并返回字节切片
func readFile(filename string) []byte {
    buf, _ := ioutil.ReadFile(filename)
    return buf
}

// 测试文件类型检测的性能
func BenchmarkMatch(b *testing.B) {
    // 读取一个图片文件
    buf := readFile("sample.jpg")
    // 重置计时器
    b.ResetTimer()
    // 循环执行 b.N 次
    for i := 0; i < b.N; i++ {
     // 调用 filetype.Match 函数
     filetype.Match(buf)
 }
}

// 测试标准库函数的性能
func BenchmarkDetect(b *testing.B) {
    // 读取一个图片文件
    buf := readFile("sample.jpg")
    // 重置计时器
    b.ResetTimer()
    // 循环执行 b.N 次
    for i := 0; i < b.N; i++ {
     // 调用 http.DetectContentType 函数
     http.DetectContentType(buf)
 }
}

然后我们运行 go test -bench=. -benchmem 来执行基准测试,得到以下输出:

goos: darwin
goarch: arm64
pkg: test/filetype
BenchmarkMatch-8        268744659                4.381 ns/op           0 B/op          0 allocs/op
BenchmarkDetect-8        8401593               142.1 ns/op             0 B/op          0 allocs/op
PASS
ok      test/filetype   3.478s

从输出中我们可以看到,filetype 的性能远高于标准库。(可能和标准库读取前 512 字节有关,而 filetype 只需要读取前 262 个字节)

综上所述,我们可以得出以下结论:

  • filetype 库是一个快速、无依赖的 Go 语言文件类型检测库,它支持多种常见的文件类型,并提供了一些便捷和灵活的函数和接口。
  • filetype 库的实现原理是基于文件的魔数(magic numbers)签名来进行类型检测的,它只需要前 262 字节表示最大的文件头,所以它可以只传递一个切片,不需要全部内容。
  • filetype 库的性能非常高,即使处理大文件也不会有明显的延迟。

标签:type,filetype,一库,MIME,176,Go,文件类型,buf,fmt
From: https://www.cnblogs.com/arena/p/17737367.html

相关文章

  • Go每日一库之174:delve (Go 调试工具)
    简介Delve 用来调试 Go 语言开发的程序,该工具的目标是为 Go 语言提供一个简单、功能齐全的调试工具。为什么不推荐gdb• gdb对Go的调试支持是通过一个python脚本文件 src/runtime/runtime-gdb.py 扩展的,功能有限• gdb只能做到最基本的变量打印,却理解不了go......
  • Go每日一库之173:Pie (高性能、类型安全的slice操作库)
    在Go语言中,对slice和map是我们最常用的数据结构。比如,计算两个切片的交集、差集;判断切片中的元素是否都满足某个条件的等。我推荐大家使用这个包:[elliotchance/pie](https://github.com/elliotchance/pie)。该包封装了对切片和map的常用操作,能满足工作中的大部分需求。比如计算......
  • Go每日一库之172:go-prompt
    简介受python提示工具包的启发,在Go中构建强大的交互式提示一、代码示例packagemainimport( "fmt" "github.com/c-bata/go-prompt")funccompleter(dprompt.Document)[]prompt.Suggest{ s:=[]prompt.Suggest{ {Text:"users",Description:"Store......
  • Go每日一库之133:lo(基于泛型的 Golang lodash 库)
    近日,Go核心开发团队终于宣布了Go1.18正式版本的发布!这是一个大家期待很久的版本!Go1.18包含大量新功能:模糊测试、性能改进、工作区等,以及Go语言开源以来最大的一次语法特性变更——支持泛型!支持泛型后,我们便不再需要写如下冗余的代码:现在只需要简单的一行即可:funcMi......
  • Go每日一库之132:wasm与tinygo
    WASM的概念,这几年还是挺火的,新的语言,比如Rust、Go、Swift等,都对WASM提供支持。相比之下,Go语言的简单性,使得对WASM的支持,使用起来也较简单。本文是目前公开资料中为数不多较完整的教程,希望能对你有帮助。WASM是什么标题说:“Golang中的Wasm太棒了。”,但请用几句话来说......
  • Go每日一库之131:caddy(轻量web服务器)
    一直以来,我都是使用Nginx作为Web服务器,但是配置可以说是非常麻烦了。每次我要新开一个域名,都要先使用acme.sh签发SSL证书,然后再写配置,大概要花上5分钟的时间。曾经想过写个脚本自动完成这些工作,但是苦于对Linux的了解不多,也就作罢了。最近看到了Caddy,一个用Go写的......
  • Go每日一库之130:go-humanize(人性化显示)
    go-humanize是一个「人性化」的Go语言库,人性化的意思不是形容这个Go语言库,而是这个Go语言库实现的功能,它可以把数字、时间、容量等转换为我们人类容易理解的词语,比如硬盘的容量是82854982bytes,我们可不太好理解,但是如果说容量是83M,那就好理解了,go-humanize干的就是这个事情。......
  • Go每日一库之129:promu(Prometheus构建发布工具)
    众所周知,Go语言中打包命令是gobuild。在项目中,你可以单独使用gobuild命令对项目进行编译打包,也可以根据自己的需要,在该命令后加各种参数。prometheus官方为了统一项目(包括prometheus、alertmanager和各种官方的exporter)的编译和打包,开发了promu工具。官方对promu工具......
  • Go每日一库之128:podinfo(k8s微服务模板)
    项目介绍官方Github:PodinfoPodinfo是一个用Go制作的小型web应用程序,它展示了在Kubernetes中运行微服务的最佳实践。它已实现的技术指标(截选自官方README.md):里面每一项技术指标的实现方式,其实都可以拿出来单独讲好久,相关理论也有好多。这里我只是讲针对这个项......
  • Go每日一库之145:MinIO(高性能对象存储)
    1.MinIO简介MinIO是一个基于Go实现的高性能、兼容S3协议的对象存储。它采用GNUAGPLv3开源协议,项目地址是https://github.com/minio/minio,官网是https://min.io。它适合存储海量的非结构化的数据,例如说图片、音频、视频等常见文件,备份数据、容器、虚拟机镜像等等,小......