- 2025-01-22逆波兰表达式求值(力扣150)
这道题也是一道经典的栈应用题。为什么这样说呢?我们可以发现,当我们遍历到运算符号的时候,我们就需要操控这个运算符之前的两个相邻的数。这里相邻数不仅仅指最初数组里相邻的数,在进行了运算之后,得到的结果与后面的数也可以理解为相邻。这样的涉及操作相邻元素描述是不是跟删除字
- 2025-01-19CogAgent: A Visual Language Model for GUI Agents
CogAgent:利用VLM操作GUI。主要内容提出了一个18B的VLM模型CogAgent(CogVLM的新版本),旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入,在9个VQAbenchmarks上取得了sota。同时,CogAgent利用截屏输入,在PC和安卓GUI导航任务上比其他基于
- 2025-01-18leetcode——令牌放置(java)
你的初始能量为power,初始分数为0,只有一包令牌以整数数组tokens给出。其中tokens[i]是第i个令牌的值(下标从0开始)。你的目标是通过有策略地使用这些令牌以最大化总分数。在一次行动中,你可以用两种方式中的一种来使用一个未被使用的令牌(但不是对同一个令牌使
- 2025-01-16二次开发,在使用LangChain中的Tongyi模型进行流式输出streaming报错问题,官网框架的BUG修复。非常好的干货。
在使用LangChain中的Tongyi模型进行流式输出时,按照官方的代码直接运行会报一个类型错误:TypeError:Additionalkwargskeyoutput_tokensalreadyexistsinleftdictandvaluehasunsupportedtype<class'int'>.其指向的错误文件路径如下C:\Users\Chenhao\AppData\Lo
- 2025-01-14文本预处理是指在将文本数据用于模型训练或分析之前,对其进行的一系列清洗、转换和处理操作
文本预处理是指在将文本数据用于模型训练或分析之前,对其进行的一系列清洗、转换和处理操作。这些操作旨在消除文本中的噪声和不必要的信息,并将其转化为适合后续处理的格式。以下是文本预处理的一些常见方法:一、文本清洗去除HTML标记和特殊字符:移除文本中的HTML标签(如、等)
- 2025-01-08大语言模型中常用的tokenizer算法
大语言模型中常用的tokenizer算法对于自然语言处理(NLP)任务至关重要。它们将文本分解为更小的单元(token),这些单元可以是单词、子词或字符,进而用于模型训练和推理。以下是几种常用的tokenizer算法及其详细介绍。常用的Tokenizer算法1.基于规则的Tokenizer1.1空格分词空格分词是
- 2025-01-07AutoGen入门-让两个AI自行聊天完成任务
AutoGen介绍AutoGen是一个开源编程框架,用于构建AI代理并促进多个代理之间的合作以解决问题。AutoGen旨在提供一个易于使用和灵活的框架,以加速代理型AI的开发和研究,就像PyTorch之于深度学习。它提供了诸如代理之间可以对话、LLM和工具使用支持、自主和人机协作工作流以及
- 2025-01-056.4 Using tokens with references 将令牌与引用一起使用
https://lalrpop.github.io/lalrpop/lexer_tutorial/004_token_references.htmlWhenusingacustomlexer,youmightwanttokenstoholdreferencestotheoriginalinput.Thisallowstousereferencestotheinputwhenthegrammarcanhavearbitrarysymbolssu
- 2025-01-0111.21
“AI界拼多多”毋庸置疑,DeepSeek-V3的发布再次证明,开源模型正迅速缩小与封闭模型之间的差距,在多项任务上实现了几乎相当的性能。这对行业发展未尝不是一件好事,不仅降低了某个AI巨头垄断市场的可能性,还为企业提供了更多选择和灵活性。在定价方面,回顾今年5月,DeepSeek发布第
- 2024-12-23Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text
tiktokenhttps://github.com/openai/tiktokentiktokenisafastBPEtokeniserforusewithOpenAI'smodels.tiktokentiktokenisafastBPEtokeniserforusewithOpenAI'smodels.importtiktokenenc=tiktoken.get_encoding("o200k_base&quo
- 2024-12-21VAR:Visual Autoregressive Modeling: Scalable ImageGeneration via Next-Scale Prediction 论文解读
目录一、概述二、相关工作1、大型自回归语言模型的性质2、视觉生成三、VAR 1、讨论传统AR的缺点2、VAR框架一、概述 该论文提出了一种新的生成范式VAR视觉自回归模型,(区别于ddpm那种加噪之后unet去噪的工作),这种自回归模型实现coarsetofine的方法进行生
- 2024-12-16Pipelines 进阶
pipelines_advanced-Copy1 Pipelines进阶¶以下任务:使用Pipeline如何与现代的大语言模型结合,以完成各类下游任务使用Tokenizer编解码文本使用Models加载和保存模型 使用Pipeline调用大语言模型¶LLM¶两种典型的语言模型:自回归:模
- 2024-12-09C#实现一个HttpClient集成通义千问-流式输出内容提取
返回对象处理返回对象分析根据流式返回的数据处理内容对象{"choices":[{"delta":{"content":"","role":"assistant"},"index":0,"logprobs":null,"finish_reas
- 2024-12-07Transfomer教程
PipelinePipeline工作原理将文本预处理为模型可以理解的格式;将预处理好的文本送入模型;对模型的预测值进行后处理,输出人类可以理解的格式。文本预处理将输入切分为词语、子词或者符号(例如标点符号),统称为 tokens;根据模型的词表将每个token映射到对应的token编号(就是
- 2024-12-07AI - 谈谈RAG中的查询分析
AI-谈谈RAG中的查询分析大家好,今天我们来聊聊RAG(Retrieval-AugmentedGeneration)中的一个重要环节——查询分析(QueryAnalysis)。什么是查询分析查询分析,说简单点,就是理解用户在问什么。在RAG系统中,用户输入一个查询,我们的任务是通过一些技术手段弄明白这个查询的真正
- 2024-12-06如何理解 AI 对话中的 Token?
什么是Token?1、定义:在自然语言处理(NLP)和AI对话系统中,token通常指的是文本中的一个单元,可以是一个单词、一个标点符号、一个数字,或者甚至是一个子词(如“playing”可以被分成“play”和“##ing”)。2、通俗理解:想象你正在玩拼图游戏,每个拼图块代表一个单词或符号,这些拼图块就是to
- 2024-12-02SEHH/SEHS2042 Computer Programming
SEHH/SEHS2042ComputerProgrammingGroupProject–AIServiceTokenManagementSystem(Due:23:59,1Dec2024,Sunday)ExpectedLearningOutcomesdevelopcomputerprogramsinoneormorehighlevellanguageprogrammingenvironment;designanddevel
- 2024-11-29CTranslate2:在 AMD GPU 上高效推理 Transformer 模型
CTranslate2:EfficientInferencewithTransformerModelsonAMDGPUs—ROCmBlogsTransformer模型通过在机器翻译、文本摘要、文本生成和语音识别等任务中提供高性能结果,彻底改变了自然语言处理(NLP)的领域。然而,由于这些模型对计算和内存的高需求,在生产环境中部署它们
- 2024-11-26Jenkin window bat批处理脚本如何 获取json对象返回值数据
前两天有这么个小需求:在cmd中运行某测试工具后/请求某个api后,会返回一个json结果,其中有一个参数的值每次都变且经常要用,正常情况复制粘贴就好了,但这个值非常长,配上cmd的标记+粘贴的行为,就很酸爽了。然后就想快速提取这个值,顺着cmd的这个思路,就走上了批处理的道路。借这个机会,简
- 2024-12-13手搓一个极简远端git库
原文地址:手搓一个极简远端git库–无敌牛欢迎参观我的个人博客:无敌牛–技术/著作/典籍/分享等问题分析公司一直用gitlab(或者极狐都是一样的)作为代码管理库,但是看了一些文章说代码最小的管理只需要git就可以了。那么gitlab和git到底是什么关系呢?就调研了一下。
- 2024-12-12how about对比how is;coca区别
按频率排序youathe,thisiwe"ofsome-ifoneandforjustinlittleme...andoon'swithallgowhat:thosenowmygetwhen WORD 1: HOWABOUT WORDW1W2 INSTEAD1440 ANOTHER1821 DINNER1771 CALL1111 TOMORROW2212 YOURSELF
- 2024-12-12这是一个举报帖
牛翰网上这位与我同名的“岁月月宝贝”(下图)涉嫌对我博客的抄袭!!!“小洋的python入门笔记”是我2024年11月20日上传过的(下图)很显然此人抄袭了我的帖子!!!(链接可证!!)抄袭者帖子链接:https://www.niucores.com/forum-post/31078.html本人原帖链接:https://www.cnblogs.com/HYLOVEYOU
- 2024-12-11javaweb毕业设计项目 网上飞机票售票预订系统
目录项目介绍具体实现截图开发核心技术:核心代码部分展示详细视频演示源码获取方式项目介绍本次设计的网上机票预订系统通过访问主页,可以实现用户管理、公告信息管理、航班信息管理、机票信息管理、订单信息管理、退订信息管理、兑换信息管理、系统管理等基本功能,为
- 2024-12-10Android 13 源码编译
前言全局说明一、说明1.1环境:Ubuntu18.04.6LTS(Linuxqt-vm5.4.0-150-generic#167~18.04.1-UbuntuSMPWedMay2400:51:42UTC2023x86_64x86_64x86_64GNU/Linux)1.2清华源AOSP清华源:https://mirrors.tuna.tsinghua.edu.cn/AOSP帮助:https://mirrors.tuna.tsi
- 2024-12-02刷题分享12-2日
刷题分享1.(力扣131)这是一道分割子串的问题,其核心在于理解清除startindex即为当前切割线,而每一层对应的startindex-I这个区间,其实就是当前分割出来的子串classSolution{public:vector<vector<string>>res;vector<string>path;booljudge(strings,int