首页 > 其他分享 >AI学习 | 概念解释 + Scikit-learn 的简单情况

AI学习 | 概念解释 + Scikit-learn 的简单情况

时间:2024-07-15 11:54:41浏览次数:13  
标签:--- AI 模型 Scikit 学习 token 解码器 learn 文本

一些机器学习概念解释

点击查看代码
* 机器学习:是AI的一个子集,不用人类显式编程,让计算机通过算法自行学习和改进  

* 监督学习:有数据、有标签,告诉机器什么是什么,让机器来学习输入和输出的映射关系。比如:分类和回归(预测)

* 非监督学习:有数据没有标签,让机器自己寻找规律。比如:聚类

* 半监督学习:有数据和少量标签,让机器学一点,然后自行寻找规律、探索分类

* 强化学习:就是训狗。小狗自行做出动作,但是根据训犬师的引导发现有些行为可以获得零食,有些会受到惩罚。通过观察动作和奖惩之间的联系,让小狗行为达到预期。
    即让机器在环境中采取行动,获得反馈,从反馈里自己总结经验,以最大化奖励和最小化损失。主要是用来培训机器人的,让计算机接触一个完全没做过的任务,只告诉它目标,让它自行探索解决问题的途径,比如告诉机器人让它投篮,中了会得一分,机器人会尝试各种方法去投篮,开始可能命中率低,之后会自行总结方法,提高命中率。这类机器人代笔:阿尔法go。

* 遗传算法:和强化学习类似。就是模拟人类进化,淘汰弱者适者生存,让计算器设计模型,并基于以前的模型设计更多代的模型,然后自行淘汰掉效果不好的模型,并基于留下的强者进行变异和繁衍。

* 深度学习:是机器学习的另一种类,核心在于使用人工神经网络,通过层次化的方法提取和表示数据特征。比如学习识别小猫的流程:1.将猫猫图片传入输入层(让机器看到图片)--- 2. 通过隐藏层对数据进行复杂的数学运算,识别特征 --- 3. 输出层获得结果

  人工神经网络(Artificial Neural Network(ANN))就是让机器模仿人类神经元来进行学习,很多NN就是Neural Network的缩写。可以用于深度学习、监督学习、无监督学习、强化学习

  如果人工神经网络分三层来传递信息,那么深度学习可能就要分几十层甚至上百层,所以对硬件设备要求高,通常还是选择云服务器或者基站来学习。深度学习的框架有很多,两巨头是谷歌的TensorFlow和脸书的pytorch,前者学习曲线更陡峭,覆盖从低层次的数学运算到直接使用的模型,更全面;后者更容易直接用模型上手。都是不错的选择。其他还包括ONNX, Caffe, Torch,Theano, DL4J等。但一般用前两个就是了

* 生成式AI: 深度学习的一种应用,利用神经网络来学习现有内容的模型和结构(比如视频、文本、图片、音频等),学习生成新内容

* 大语言模型(LLM,Large Language Model):也是深度学习的一种应用,专门用于进行自然语言处理任务。【大】:模型参数量大,训练过程也需要海量文本数据集。比如谷歌的BERT模型,擅长理解上下文,但不擅长文本生成,被认为不属于生成式AI

Sciki-learn:简称sklearn,是一种python中强大的传统机器学习模块。对常用的机器学习算法进行了封装,包括回归、降维、分类和聚类四大机器学习算法。具体需要使用到什么模块,可以通过查看下图来进行判断,需要用哪个模块再学具体使用方法吧。该模块的数据库很有价值,from sklearn import datasets。

LLM AI的发展史

点击查看代码
17年前 
  语言模型主要架构为循环神经网络 RNN(Recurrent Neural Network)—— 无法并行计算,只能依次;不擅长处理长文本,无法捕捉长距离的语义关系。
  后来出现RNN改良版本,长短期记忆网络LSTM(Long Short-Term Memory) —— 还是无法并行计算,处理长文本能力有限

2017年 谷歌团队 Transformer >>>> ① Attention 解决了短时记忆问题(浏览全文并给予每个词不同的权重);② 位置编码解决了文字序列问题,从而同时处理序列里的所有位置,独立计算。
Transformer 模型的原理:大致可以分为编码层和解码层。
  以翻译为例,输入的文本进入编码层被token化 --- 传入嵌入层 ,把每个token用向量嵌入--- 将词向量位置编码,即把位置向量和词向量相加,从而让模型既理解词意思,又捕获词的位置和顺序关系 --- 编码器核心部分,结合attention自注意力机制对位置编码进一步并行计算权重。(有些是多头自注意力机制)--- 前馈神经网络,通过额外计算提高模型的表达能力 --- 
  将序列 传给解码器 作为输入(解码器还会把之前生成的文本共同作为输入) --- 完成嵌入层和位置编码 --- 针对已生成的序列的带掩码的多头自注意力层 --- 针对输入序列的抽象表示的多头自注意力 --- 前馈神经网络 --- 线性层和softmax层,把解码器输出的表示转化为词汇表的概率分布

  *   编码器和解码器都是多个堆到一起的。实际上解码器是在根据概率猜测下一个输出是什么,所以当模型开始胡说八道,就叫出现了幻觉 hallucination

  *   Token:文本的基本单位,取决于不同的token化方法。短单词可能一个词为一个token,长单词可能会被拆解为多个token。每个token会被用整数数字表示,即token ID,以便于计算机储存。

  *   向量嵌入:即用一串数字来表示token,这样能记录更多的语法语义等信息

  *   多头自注意力:即每个attention模块关注不同的词,比如有的关注动词、有的关注情感类词等

  *   带掩码的多头自注意力层:编码器中自注意力会关注输入序列里所有其他词,但解码器中自注意力只关注某词前面的所有词,以保证文本生成时遵循正确的时间顺序

  后来transformer出现了一些变种:
    ① 仅编码器/自编码模型:如BERT等,用来掩码语言建模、情感分析等
    ② 仅解码器/自回归模型:如GPT-2, GPT-3等,用来文本生成
    ③ 编码器-解码器/序列到序列模型:如T5, BART等,把一个序列转换另一个序列,用来翻译、总结

2018年 OPENAI--GPT 1.0; 谷歌--BERT

2019年 OPENAI--GPT 2.0; 百度--ERNIE 1.0

GPT:generative pre-trained transformer


标签:---,AI,模型,Scikit,学习,token,解码器,learn,文本
From: https://www.cnblogs.com/abloger/p/18281692

相关文章

  • LeetCode 1530. Number of Good Leaf Nodes Pairs
    原题链接在这里:https://leetcode.com/problems/number-of-good-leaf-nodes-pairs/description/题目:Youaregiventhe root ofabinarytreeandaninteger distance.Apairoftwodifferent leaf nodesofabinarytreeissaidtobegoodifthelengthof thesh......
  • Improving News Recommendation via Bottlenecked Multi-task Pre-training论文阅读笔
    ImprovingNewsRecommendationviaBottleneckedMulti-taskPre-training论文阅读笔记Abstract现存的问题:​ 现有的PLM大多是在大规模通用语料库上预先训练的,并没有专门用于捕捉新闻文章中的丰富信息。因此,它们生成的新闻嵌入信息可能不足以表示新闻内容或描述新闻之间的关......
  • Tool-Cross-compilation-Toolchain-ARM-Linaro
    Tool-Cross-compilation-Toolchain-ARM-LinaroUbuntu上基于Arm的交叉编译工具链。引用:arm生态发展与交叉编译链选择-知乎arm-none-linux-gnueabi-gcc:是Codesourcery公司(目前已经被Mentor收购)基于GCC推出的的ARM交叉编译工具。可用于交叉编译ARM(32位)系统中所有环节的代码,包......
  • 卡通AI图片生成器
    AI卡通生成器是一个AI工具,你可以毫不费力地用文本创建美丽的卡通图像!AI卡通生成器简介:创意与轻松相遇的地方!有了我们创新的人工智能工具,用文字制作迷人的卡通图像就像点击一样简单。无论你是将可爱的人工智能动物带到生活中,还是用人工智能故事漫画讲述引人入胜的故事,或者设计你......
  • 使用Docker部署mailcow开源邮件系统详细过程
    1.项目介绍项目网站:mailcow:dockerized–Blog根据官方介绍,这个项目名称是mailcow,名称都是小写的。下面内容是通过AI翻译自官方文档:mailcow:dockerizeddocumentationmailcow:dockerized是一个基于Docker的开源组件/电子邮件套件。mailcow依赖于许多广为人知且长期......
  • 【AI大模型】李彦宏从“卷模型”到“卷应用”的深度解析:卷用户场景卷能给用户解决什么
    文章目录一、理解李彦宏的发言1.1李彦宏的核心观点1.2背景分析二、技术发展:从辨别式到生成式2.1辨别式AI技术2.2生成式AI技术2.3技术发展的挑战三、“卷应用”:聚焦实际应用与价值3.1应用为王3.2技术落地的关键四、“卷场景”:多元化应用场景的探索4.1行业痛点......
  • Win11系统提示找不到learning_tools.dll文件的解决办法
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个learning_tools.dll文件(挑选合适的版本文件......
  • AI人工智能歌词创作,激发音乐无限可能
    在音乐的浩瀚宇宙中,创新与突破始终是引领前行的璀璨星辰。如今,人工智能歌词创作的兴起,正以一种前所未有的力量,激发着音乐领域的无限可能。 “妙笔生词智能写歌词软件(veve522)”作为这股创新浪潮中的杰出代表,正以其独特的魅力改变着音乐创作的格局。  想象一下,您正沉浸于一段......
  • Datawhale2024年AI夏令营第二期:CV图像--学习笔记
       Deepfake攻防--图像赛道是该夏令营第二期的学习活动(“CV图像”方向),是于蚂蚁集团举办的“外滩大会-全球Deepfake攻防挑战赛”开展的实践学习——适合想入门、了解并实践,关于深度学习和计算机视觉方向的学习者参与。此次学习活动的速通手册如下:从零入门CV图像竞赛(Deepf......