数据结构与算法 —— Transformers之Pipeline

时间：2024-07-16 08:58:31浏览次数：21

标签：Pipeline 文本 Transformers 模型后处理数据结构推理

Transformers之Pipeline是Hugging Face Transformers库中提供的一种使用预训练模型进行推理的极简方式。这些Pipeline对象从库中抽象出大部分复杂代码，为多项任务（如命名实体识别、情感分析、特征提取和问答等）提供了简单的API。以下是对Transformers之Pipeline的详细介绍：

一、Pipeline概述

Pipeline是Transformers库中的一个基础功能，它封装了预训练模型和对应的前处理与后处理环节。用户只需输入数据，Pipeline就能自动完成预处理、模型推理和后处理，最终返回易于理解的结果。这种方式极大地简化了模型的使用流程，使得非专业用户也能轻松上手。

二、Pipeline支持的任务类型

Transformers库将目前的NLP任务归纳为以下几大类，并提供了相应的Pipeline支持：

文本分类：如情感分析、句子对关系判断等。
词语分类：如词性标注（POS）、命名实体识别（NER）等。
文本生成：如填充预设的模板（prompt）、预测文本中被遮掩（masked）的词语、文本翻译、自动摘要等。
问答系统：如根据给定的问题从一段文本中抽取出对应的答案。
其他任务：还包括特征提取、零训练样本分类、图像分类、自动语音识别等。

目前常用的Pipeline包括但不限于：

feature-extraction：获得文本的向量化表示。
fill-mask：填充被遮盖的词或片段。
ner（命名实体识别）。
question-answering：自动问答。
sentiment-analysis：情感分析。
summarization：自动摘要。
text-generation：文本生成。
translation：机器翻译。
zero-shot-classification：零训练样本分类。

三、Pipeline的创建与使用

创建和使用Pipeline非常简单，主要有两种方法：

根据任务类型直接创建Pipeline：

from transformers import pipeline
classifier = pipeline("sentiment-analysis")
result = classifier("I've been waiting for a HuggingFace course my whole life.")
print(result)

指定任务类型和模型创建Pipeline：

from transformers import pipeline
classifier = pipeline("text-classification", model="uer/roberta-base-finetuned-dianping-chinese")
result = classifier("我觉得不太行!")
print(result)

四、Pipeline的高级功能

Pipeline还支持一些高级功能，如批处理、GPU推理、自定义后处理等。例如，可以通过设置device参数将Pipeline绑定到GPU上进行推理，以提高处理速度。

五、Pipeline的实现原理

Pipeline的实现原理大致可以分为三个步骤：

数据预处理：将输入数据转换为模型可以理解的格式，如文本分词、编码等。
模型推理：将预处理后的数据送入预训练模型进行推理。
后处理：对模型的输出进行后处理，如解码、格式化等，最终返回易于理解的结果。

六、总结

Transformers之Pipeline是Hugging Face Transformers库中提供的一种非常实用的功能，它极大地简化了预训练模型的使用流程，使得用户能够轻松地进行各种NLP任务的推理。无论是专业研究人员还是非专业用户，都可以通过Pipeline快速上手并应用这些强大的预训练模型。

标签：Pipeline,文本,Transformers,模型,后处理,数据结构,推理
From： https://blog.csdn.net/hai40587/article/details/140401492

数据结构与算法 —— DFS的实现方法（递归与迭代）
在讨论文件系统（FileSystem，简称FS）的实现方法时，特别是关注于递归与迭代这两种编程范式，我们实际上是在探讨如何在编程层面上对文件系统进行操作，如遍历目录、创建多级目录等。虽然文件系统的底层实现（如FAT32、NTFS、ext4等）复杂且通常不由应用开发者直接操作，但我们可以从应用层......
C语言数据结构初阶排序（上篇）
排序的概念排序：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。稳定性：假定在待排序的记录序列中，存在多个具有相同的关键字的记录，若经过排序，这些记录的相对次序保持不变，即在原序列中，r[i]=r[j]，且r[i]在r[j]之前，而在排序后的序列中，r[i]仍......
数据结构-二叉树
引入图论中的树和现实生活中的树长得一样，只不过我们习惯于处理问题的时候把树根放到上方来考虑。这种数据结构看起来像是一个倒挂的树，因此得名。定义一个没有固定根结点的树称为无根树（unrootedtree）。无根树有几种等价的形式化定义：有n个结点，n-1条边的连通无向图无向无环......
数据结构：线性表的链式表示
继上文《数据结构：线性表的顺序表示》，我们知道线性表的主要操作如下：InitList(&L):初始化表length(L):求表长LocateElem(L,e):按值查找操作GetElem(L,i):按位查找操作ListInsert(&L,i,e):插入操作ListDelete(&L,i,&e):删除操作PrintList(L)：输出操作Empty(L)：判空操......
数据结构的基础（集合框架算法，复杂度和泛型）
一.什么是集合框架 Java集合框架JavaCollectionFramework，又被称为容器container，是定义在java.util包下的一组接口interfaces和其实现类classes。其主要表现为将多个元素element置于一个单元中，用于对这些元素进行......
数据结构学习笔记——线性表
链表1.单链表链表的插入: （1）需要知道插入位置的前驱结点（从表头顺序遍历）（2）先修改要插入的结点（新结点）的指针（3）再修改前驱结点的指针链表的删除：（1）要知道删除结点的前驱结点（从表头顺序遍历）（2）只需要修改前驱结点的指......
【数据结构】线性结构——数组、链表、栈和队列
目录前言一、数组（Array）1.1优点1.2缺点1.3适用场景二、链表（LinkedList）2.1优点2.2缺点2.3适用场景三、栈（Stack）3.1优点3.2缺点3.3适用场景四、队列（Queue）4.1优点4.2缺点4.3适用场景......
数据结构第28节字典树
字典树（Trie，也称前缀树）是一种用于存储字符串的树形数据结构。它将字符串中的字符作为树的边，每个节点代表一个可能的前缀。字典树非常适合处理大量字符串的搜索、插入和删除操作，尤其是在查找具有相同前缀的字符串时非常高效。基本概念：根节点：通常不包含任何数据，它的子节点包......
数据结构绪论
本篇主要介绍数据结构的基本概念和术语数据：数据是信息的载体。数据元素：数据的基本单元，通常作为一个整体进行考虑和处理。数据项：构成数据元素的不可分割的最小单位。数据对象：具有相同性质的数据元素的集合。数据类型原子类型：值不可再分的数据类型结构类型：值可以分解为......
【NOI】C++数据结构入门之一维数组（一）数组基础
文章目录前言一、概念1.导入2.数组2.1数组的创建2.2数组的使用二、例题讲解问题：1423-考试成绩的简单统计问题：1153-查找“支撑数”问题：1156-排除异形基因问题：1155-找找谁的身高超过全家的平均身高问题：1231-考试成绩的分布情况三、总结四、感谢前言在......