token是什么?
比较官方的token解释:
Token是对输入文本进行分割和编码时的最小单位。它可以是单词、子词、字符或其他形式的文本片段。
- token 是自然语言处理的最细粒度。简单点说就是,LLM的输入是一个个的 token,输出也是一个个的 token。
- token 是由LLM处理的基本数据单元。在文本的背景下,一个token 可以是一个单词、单词的一部分(子词)或甚至是一个字符,这取决于token 化过程。
LLM的流式输出
单个LLM调用的运行时间通常比传统资源请求运行得更长,当构建需要多个推理步骤的复杂的链式或代理时,这种情况会更加复杂为了解决这个问题,我们可以采用流式输出,输出一旦生成,就可以立即显示。
- 所谓的流式输出,就是类似打字机式的方式,一个字或一个词的输出,给用户一种答案逐渐出现的动画效果。市面上的LLM模型案例基本上都是以流式输出的方式展示给用户的。
- 本文只介绍流式输出的概念,之后的文章会分别介绍流式WebAPI的搭建,基于VUE3前端技术构建问答页面。
实践
如果没有看过上一篇文章,可以前去了解下:
AI大语言模型LLM学习-入门篇
- 依赖安装
pip install langchain
- 代码
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
api_key = "api_key(平台注册获得)"
model = "qwen2-72b-instruct"
llm = ChatOpenAI(
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
api_key=api_key,
model=model,
streaming=True,
)
prompt_template = ChatPromptTemplate.from_messages([
("system", "你是一个很出色的历史老师,给我讲讲历史人物的故事吧。"),
("user", "{input}")
])
#使用|操作符将prompt_template和llm连接在一起,创建一个chain对象。
chain =prompt_template | llm
while True:
question = input("\n请输入你需要了解的历史人物,按q退出:")
if question == "q":
break
else:
# 使用流式输出
for token in chain.stream({"input": question}):
print(token.content, end="")
- 运行效果:
在langchain中查看StreamingStdOutCallbackHandler的源码,可以找到几个核心的方法:
on_llm_start(self, serialized: Dict[str, Any], prompts: List[str], **kwargs: Any)
on_llm_new_token(self, token: str, **kwargs: Any)
on_llm_end(self, response: LLMResult, **kwargs: Any)
根据on_llm_new_token这个方法名,大家就会明白为啥市面上的问答型AI都是以打字机式的方式进行输出,第一次遇到这种打字机模式,我在心里暗骂那帮前端程序员:会做几个特效就NB了,现在在此向这帮前端程序员表达我深深的歉意。