构建高效NLP管道：PydanticOutputParser与Langchain的结合

时间：2024-08-27 22:50:48浏览次数：20

标签：PydanticOutputParser NLP name 输出模型 Langchain BookInfo book

PydanticOutputParser 是一个用于解析语言模型输出的实用工具，它允许用户指定一个 Pydantic 模型，并查询语言模型以生成符合该模型的 JSON 输出。这个工具特别有用，因为它可以帮助开发者确保从语言模型获得的结构化数据符合预期的格式，从而简化了数据处理和集成的过程。

使用 PydanticOutputParser 之前，你需要定义一个 Pydantic 模型，这个模型将作为数据的结构模板。Pydantic 的 BaseModel 类似于 Python 的数据类，但它提供了实际的类型检查和数据转换功能。你可以在模型中定义字段，并使用 Field 函数添加额外的元数据，如字段描述。此外，你还可以使用 validator 装饰器来添加自定义验证逻辑，确保数据的正确性。

例如，如果你想要解析一个关于笑话的数据结构，你可以创建一个包含 setup（笑话的铺垫）和 punchline（笑话的结尾）字段的 Pydantic 模型。然后，你可以使用 PydanticOutputParser 来指导语言模型生成符合这个模型的输出。

在实际应用中，你可以将 PydanticOutputParser 与语言模型和其他工具（如 PromptTemplate）结合使用，构建一个完整的数据处理流程。这样，你不仅可以获得结构化的数据输出，还可以通过模板化的方式控制语言模型的输入，使其更加灵活和强大。

总的来说，PydanticOutputParser 是一个强大的工具，它结合了 Pydantic 的数据模型能力和语言模型的生成能力，为开发者提供了一种高效的方式来处理和解析结构化数据。

from typing import List

from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import ChatPromptTemplate
from langchain.schema import HumanMessage
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_openai import ChatOpenAI


class BookInfo(BaseModel):
    book_name: str = Field(description="书籍的名字")
    author_name: str = Field(description="书籍的作者")
    genres: List[str] = Field(description="书籍的体裁")


output_parser = PydanticOutputParser(pydantic_object=BookInfo)  #BookInfo
# 查看输出解析器的内容，会被输出成json格式
print(output_parser.get_format_instructions())

prompt = ChatPromptTemplate.from_messages([
    ("system", "{parser_instructions} 你输出的结果请使用中文。"),
    ("human", "请你帮我从书籍的概述中，提取书名、作者，以及书籍的体裁。书籍概述会被三个#符号包围。\n###{book_introduction}###")
])

book_introduction = """
《朝花夕拾》原名《旧事重提》，是现代文学家鲁迅的散文集，收录鲁迅于1926年创作的10篇回忆性散文， [1]1928年由北京未名社出版，现编入《鲁迅全集》第2卷。
此文集作为“回忆的记事”，多侧面地反映了作者鲁迅青少年时期的生活，形象地反映了他的性格和志趣的形成经过。前七篇反映他童年时代在绍兴的家庭和私塾中的生活情景，后三篇叙述他从家乡到南京，又到日本留学，然后回国教书的经历；揭露了半殖民地半封建社会种种丑恶的不合理现象，同时反映了有抱负的青年知识分子在旧中国茫茫黑夜中，不畏艰险，寻找光明的困难历程，以及抒发了作者对往日亲友、师长的怀念之情 [2]。
文集以记事为主，饱含着浓烈的抒情气息，往往又夹以议论，做到了抒情、叙事和议论融为一体，优美和谐，朴实感人。作品富有诗情画意，又不时穿插着幽默和讽喻；形象生动，格调明朗，有强烈的感染力。
"""

model = ChatOpenAI(model="gpt-3.5-turbo",
                   openai_api_key="sk-BuQK7SGbqCZP2i2z7fF267AeD0004eF095AbC78d2f79E019",
                   openai_api_base="https://api.aigc369.com/v1")
final_prompt = prompt.invoke({"book_introduction": book_introduction,
                              "parser_instructions": output_parser.get_format_instructions()})
response = model.invoke(final_prompt)
print(response.content)
result = output_parser.invoke(response)
print(result)

PydanticOutputParser 被用来创建一个输出解析器，该解析器将根据 BookInfo 模型来解析语言模型的输出。get_format_instructions() 方法返回一个字符串，这个字符串描述了语言模型输出应该如何格式化以匹配 BookInfo 模型。

{
    "book_name": "书籍的名字",
    "author_name": "书籍的作者",
    "genres": "书籍的体裁"
}

代码能够成功执行，result预期的输出可能如下：

# 这是语言模型的原始响应，具体内容取决于模型的生成结果
{
"book_name": "朝花夕拾",
"author_name": "鲁迅",
"genres": "散文集"
}
# 这是解析后的结果，它将是一个 BookInfo 模型的实例
BookInfo(book_name='朝花夕拾', author_name='鲁迅', genres=['散文集'])

这样输出了JSON数据方便对接数据的二期处理。

标签：PydanticOutputParser,NLP,name,输出,模型,Langchain,BookInfo,book
From： https://blog.csdn.net/ylong52/article/details/141527294

NLP从零开始------14.文本中阶序列处理之语言模型(2)
3.2长短期记忆梯度消失问题的一个解决方案是使用循环神经网络的变体——长短期记忆( long short- term memory, LSTM)。长短期记忆的原理是，在每一步t，都保存一个隐状态和一个单元状态( cell state) , 通过单元状态来存储长距离......
langchain(基础)一
1 Langchain概述(1)LangChain是一个基于语言模型开发应用程序的框架。(2)LangChain为特定用例提供了多种组件，例如个人助理、文档问答、聊天机器人、查询表格数据、与API交互、提取、评估和汇总。(3)LangChain中的模型分类：LLM（大型语言模型）：这些模型将文本字符串作为输入......
教你迅速上手LangChain：十分钟入门到精通，一篇文章足矣！
背景快速入门的三部曲跟家里安装防盗门的步骤是类似的.安装门设密码测试一下对应到解决方案领域的快速入门的三部曲是什么?安装:Install环境设置:Env写DEMO:Demo那对应到LangChain的快速入门上是什么呢?前两个步骤没差异,关键是写DEMO上.了解本文详......
LangChain入门手册——附赠PDF版
《LangChain入门指南》LangChain作为大模型集成框架鼎鼎大名，这本《LangChain入门指南》是一本很及时的书，值得推荐～01为什么需要LangChain首先想象一个开发者在构建一个LLM应用时的常见场景。当你开始构建一个新项目时，你可能会遇到许多API接口、数据格式和工具。对于一......
手把手教你用 LangChain 实现大模型 Agent
关于智能体（Agents）通常，大型语言模型（LLM）通常通过RAG（Retrieval-AugmentedGeneration）架构来增强其存储器能力。然而，LLM智能体（LLMAgents）不仅能增强存储器，还将推理、工具、答案和操作都集成到了其系统中。LLMS是一种人工智能技术，可以生成类似人类语言的文本，而LLM智能体则是一......
Summarization with Langchain
教程链接—https://youtu.be/w6wOhSThnoo摘要是自然语言处理（NLP）的一个关键方面，它能够将大量文本浓缩成简洁的摘要。LangChain，作为NLP领域中的一个强大工具，提供了三种不同的摘要技术：stuff、map_reduce和refine。每种方法都有其独特的优点和局限性，使它们适用于不同的情况。本文深......
吴恩达力荐，100%好评-LangChain大型语言模型(LLM)应用开发
LangChain是一个开源框架，旨在帮助人工智能开发者将大语言模型（如GPT-4）与外部计算和数据源结合起来。这个框架提供了Python和JavaScript包，使开发者能够轻松地将自己的数据与大语言模型连接起来，从而实现更复杂的人工智能应用。免费获取：吴恩达力荐，100%好评-Lang......
使用RAG-Chroma和LangChain构建强大的问答系统
标题:使用RAG-Chroma和LangChain构建强大的问答系统内容:使用RAG-Chroma和LangChain构建强大的问答系统引言在人工智能和自然语言处理领域,检索增强生成(Retrieval-AugmentedGeneration,RAG)技术正在迅速崛起。本文将介绍如何使用RAG-Chroma模板和LangChain框架构建......
Langchain pandas agent - Azure OpenAI account
Langchainpandasagent结合AzureOpenAI账户使用时，主要涉及到通过AzureOpenAI提供的自然语言处理能力，来操作pandasDataFrame或进行相关的数据处理任务。以下是关于这一结合使用的详细解析：一、Langchainpandasagent概述在LangChain中，Agent是一个核心概念，它代表了......
在亚马逊云科技上部署开源大模型并利用RAG和LangChain开发生成式AI应用
项目简介：小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWSAI最佳实践，并应用到自己的日常工作里。本次介绍的是如何在亚马逊云科技上利用SageMaker机器学习服务部署开源大模型，使用La......

构建高效NLP管道：PydanticOutputParser与Langchain的结合

相关文章

赞助商

阅读排行