本文介绍Pydantic 库,首先介绍其概念及优势,然后通过基本示例展示如何进行数据验证。后面通过多个示例解释如何在LangChain中通过Pydantic进行数据验证,保证与大模型进行交互过程中数据准确性,并显示清晰的数验证错误信息。
Pydantic 简介
Pydantic 是用于数据验证和设置管理的 Python 库。它主要用于在 Python 程序中对数据进行严格的类型检查和验证,确保数据符合预期的格式和类型。它在处理用户输入、配置文件解析、API 数据交互等场景中非常有用。
Pydantic 基于 Python 的类型提示(type hints)构建。类型提示是 Python 3.5 + 版本引入的一个特性,用于在代码中声明变量、函数参数和返回值的类型,Pydantic 利用这些类型提示来验证数据。
Pydantic 的优势
-
数据验证功能强大
可以验证多种数据类型,包括基本数据类型(如整数、字符串、浮点数等)和复杂数据类型(如列表、字典、自定义对象等)。例如,验证一个包含用户信息的字典,其中年龄字段必须是整数,姓名字段必须是字符串。
支持嵌套数据结构的验证。如果有一个包含多个子对象的复杂数据结构,Pydantic 可以递归地验证每个子对象的类型和格式。比如一个包含订单信息的对象,其中订单详情是一个列表,每个订单详情对象又包含商品名称、价格等字段,Pydantic 可以验证整个结构的正确性。
-
易于使用和集成
基于 Python 的类型提示,代码的可读性非常高。开发人员只需要在定义类或函数时使用类型提示,Pydantic 就能自动进行数据验证。例如:
from pydantic import BaseModel
class User(BaseModel):
name: str
age: int
可以很方便地与其他 Python 库和框架集成,如 FastAPI。在 FastAPI 中,Pydantic 用于验证 API 请求和响应的数据格式,大大简化了 API 开发过程中的数据验证部分。
- 提供友好的错误信息
当数据验证失败时,Pydantic 会返回清晰、详细的错误信息。这些错误信息能够帮助开发人员快速定位问题所在。例如,如果一个字符串类型的字段被传入了一个整数,Pydantic 会指出哪个字段不符合预期类型以及正确的类型应该是什么。
简单验证示例
- 基本数据验证示例
from pydantic import BaseModel
class Item(BaseModel):
name: str
price: float
is_available: bool
# 正确的数据
item1 = Item(name="Apple", price=0.5, is_available=True)
print(item1)
# 错误的数据,会引发验证错误
try:
item2 = Item(name="Banana", price="not a float", is_available=True)
except ValueError as e:
print(e)
在这个示例中,定义了一个Item
类,它有三个字段:name
(字符串类型)、price
(浮点数类型)和is_available
(布尔类型)。当创建item1
时,传入的数据符合预期类型,所以能够正确创建对象。而当创建item2
时,price
字段传入了一个字符串而不是浮点数,Pydantic 会引发一个ValueError
,并且可以通过捕获这个异常来处理错误。
- 嵌套数据验证示例
from pydantic import BaseModel
class OrderDetail(BaseModel):
product_name: str
quantity: int
class Order(BaseModel):
order_id: int
customer_name: str
details: list[OrderDetail]
order_data = {
"order_id": 1,
"customer_name": "John",
"details": [
{"product_name": "Book", "quantity": 2},
{"product_name": "Pen", "quantity": 3}
]
}
order = Order(**order_data)
print(order)
这里定义了两个类,OrderDetail
用于表示订单详情,包含product_name
(字符串类型)和quantity
(整数类型)。Order
类用于表示整个订单,包含order_id
(整数类型)、customer_name
(字符串类型)和details
(OrderDetail
对象列表)。通过传入符合结构要求的字典order_data
,可以正确创建Order
对象。Pydantic 会自动验证order_data
中的每个字段和嵌套对象的类型是否正确。
**Pydantic驾驭LangChain **
在 LangChain 中,Pydantic 主要用于数据验证和模型定义。LangChain 通常需要处理各种类型的数据,包括从外部 API 接收的数据、用户输入的数据以及内部组件之间传递的数据。Pydantic 的数据验证功能可以确保这些数据符合预期的结构和类型,从而避免因数据不匹配导致的错误。
同时,Pydantic 的 BaseModel
可以帮助你创建清晰的数据结构,方便在 LangChain 应用程序中进行数据的序列化和反序列化操作。
简单示例场景
假设你正在构建一个使用 LangChain 的对话机器人,你可能需要处理用户的输入和从语言模型返回的信息。你可以使用 Pydantic 来定义输入和输出的数据模型。
from pydantic import BaseModel
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
# 定义一个 Pydantic 模型来表示用户输入
class UserInput(BaseModel):
topic: str
# 定义一个 Pydantic 模型来表示语言模型的输出
class LLMOutput(BaseModel):
response: str
# 定义一个提示模板
prompt = PromptTemplate(
input_variables=["topic"],
template="请告诉我关于{topic}的一些信息。"
)
# 初始化语言模型
llm = OpenAI(temperature=0.9)
# 创建一个链
chain = LLMChain(llm=llm, prompt=prompt)
# 示例用户输入
user_input = UserInput(topic="人工智能的发展")
# 验证用户输入
if not isinstance(user_input, UserInput):
raise ValueError("输入必须是 UserInput 类型")
# 运行链
response = chain.run(topic=user_input.topic)
# 处理语言模型的输出
llm_output = LLMOutput(response=response)
print(llm_output)
-
首先,创建自定义的数据模型。
UserInput
类是一个 Pydantic 模型,它规定了用户输入必须包含名为topic
的字符串字段。LLMOutput
类是一个 Pydantic 模型,它规定了语言模型的输出必须包含名为response
的字符串字段。 -
我们使用
PromptTemplate
来创建一个提示模板,它将根据用户输入的topic
生成相应的提示。然后,我们使用OpenAI
初始化一个语言模型,并将其与LLMChain
结合,创建一个链。 -
当我们收到用户输入时,我们将其存储在
user_input
变量中,并将其作为UserInput
类型进行验证。如果输入不符合UserInput
类型,将引发ValueError
。运行链时,我们将用户输入的topic
传递给链。 -
语言模型返回的结果存储在
response
中,我们将其包装在LLMOutput
类型中,以确保其符合预期的数据结构。
其他组件结合示例
Pydantic 可以与 LangChain 的其他组件如 Agents
、Memory
和 Tools
等结合使用。例如,当你使用 Agents
时,你可以定义 Pydantic 模型来表示工具的输入和输出,以确保数据在工具调用和工具响应之间的一致性。
from pydantic import BaseModel
from langchain.agents import Tool
# 定义工具输入的 Pydantic 模型
class ToolInput(BaseModel):
query: str
# 定义工具输出的 Pydantic 模型
class ToolOutput(BaseModel):
result: str
# 定义简单的工具
def sample_tool(input_data: ToolInput) -> ToolOutput:
# 确保输入数据是 ToolInput 类型
if not isinstance(input_data, ToolInput):
raise ValueError("输入必须是 ToolInput 类型")
result = f"你查询的是: {input_data.query}"
return ToolOutput(result=result)
# 将工具包装为 LangChain 的工具
tool = Tool(
name="SampleTool",
func=sample_tool,
description="一个简单的示例工具,它会重复你的查询。",
parameters=ToolInput.schema()
)
# 测试工具
input_data = ToolInput(query="测试工具")
output = tool.run(input_data.json())
print(output)
- 这里我们定义了
ToolInput
和ToolOutput
两个 Pydantic 模型,分别用于表示工具的输入和输出。 - 我们创建简单的
sample_tool
函数,它接受ToolInput
类型的输入并返回ToolOutput
类型的输出。 - 然后我们使用
Tool
类将这个工具包装起来,并将其作为 LangChain 的工具使用。我们使用ToolInput.schema()
来提供工具的输入参数的模式信息,方便 LangChain 对输入进行验证。
通过上述示例,你可以看到如何在 LangChain 中使用 Pydantic 来定义清晰的数据结构,并确保数据的一致性和正确性,同时将 Pydantic 与 LangChain 的不同组件进行结合,以增强你的应用程序的稳定性和可维护性。
详细完整示例
from pydantic import BaseModel, ValidationError
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
# 定义 Pydantic 模型用于输入数据的验证
class QueryInput(BaseModel):
query: str
max_length: int
# 定义 Pydantic 模型用于输出数据的验证
class QueryOutput(BaseModel):
answer: str
# 定义提示模板
prompt_template = PromptTemplate(
input_variables=["query", "max_length"],
template="请回答关于 {query} 的问题,回答长度不超过 {max_length} 个字符。"
)
# 初始化语言模型
llm = OpenAI(temperature=0.7)
# 创建一个 LLMChain
chain = LLMChain(llm=llm, prompt=prompt_template)
def process_query(input_data: dict):
try:
# 使用 Pydantic 模型对输入数据进行验证
validated_input = QueryInput(**input_data)
except ValidationError as e:
print(f"输入数据验证失败: {e}")
return None
# 运行 LLMChain
result = chain.run(query=validated_input.query, max_length=validated_input.max_length)
try:
# 使用 Pydantic 模型对输出数据进行验证
validated_output = QueryOutput(answer=result)
except ValidationError as e:
print(f"输出数据验证失败: {e}")
return None
return validated_output
# 测试数据
test_input = {
"query": "什么是人工智能",
"max_length": 100
}
# 调用函数进行处理
output = process_query(test_input)
if output:
print(output.answer)
通过这种方式,我们可以在 LangChain 应用中有效地使用 Pydantic 来确保输入和输出数据的一致性和正确性,避免由于数据不匹配或格式错误导致的问题。此外,Pydantic 的 ValidationError
提供了清晰的错误信息,帮助我们快速定位和解决数据验证问题。