首页 > 其他分享 >Datawhale X 李宏毅苹果书AI夏令营深度学习入门(三)

Datawhale X 李宏毅苹果书AI夏令营深度学习入门(三)

时间:2024-09-03 10:04:25浏览次数:11  
标签:函数 训练 AI 李宏毅 模型 Datawhale CNN 数据 比较

一.实践方法论
(一)模型偏差
模型偏差可能会影响模型训练。若模型过于简单,一个有未知参数的函数代θ1 得到一个函数 fθ1(x),同理可得到另一个函数 fθ2(x),把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了,没有包含任何一个函数,可以让损失变低的函数不在模型可以描述的范围内。在这种情况下,就算找出了一个 θ∗,虽然它是这些蓝色的函数里面最好的一个,但损失还是不够低。
(二)优化问题
一般只会用到梯度下降进行优化,这种优化的方法很多的问题。比如可能会卡在局部最小值的地方,无法找到一个真的可以让损失很低的参数
(三)判断模型够不够大的方法
通过比较不同的模型来判断模型现在到底够不够大,看到一个从来没有做过的问题,可以先跑一些比较小的、比较浅的网络,或甚至用一些非深度学习的方法,比如线性模型、支持向量机(Support Vector Machine,SVM),SVM 可能是比较容易做优化的,它们比较不会有优化失败的问题。也就是这些模型它会竭尽全力的,在它们的能力范围之内,找出一组最好的参数,它们比较不会有失败的问题。
(四)过拟合
在训练数据上的损失是 0。把训练数据通通丢进这个函数里面,它的输出跟训练集的标签是一模一样的,所以在训练数据上面,这个函数的损失可是 0 呢,可是在测试数据上面,它的损失会变得很大。
解决方案:
(a)增加训练数据集,或者进行数据增强,数据增强就是根据问题的理解创造出新的数据,比如在进行图片识别时,对图像进行翻转裁剪得出的数据增加到训练集
(b)另外一个解法是给模型一些限制,让模型不要有过大的灵活性
最好模型正好跟背后产生数据的过程,过程是一样的就有机会得到好的结果。给模型制造限制可以有如下方法:
给模型比较少的参数。如果是深度学习的话,就给它比较少的神经元的数量,本来每层一千个神经元,改成一百个神经元之类的,或者让模型共用参数,可以让一些参数有一样的数值。全连接网络(fully-connected network)其实是一个比较有灵活性的架构,而卷积神经网络(Convolutional Neural Network,CNN)是一个比较有限制的架构。CNN 是一种比较没有灵活性的模型,其是针对图像的特性来限制模型的灵活性。所以全连接神经网络,可以找出来的函数所形成的集合其实是比较大的,CNN 所找出来的函数,它形成的集合其实是比较小的,其实包含在全连接网络里面的,但是就是因为CNN 给了,比较大的限制,所以 CNN 在图像上,反而会做得比较好
还有别的方法,比如早停(early stopping)、正则化(regularization)和丢弃法(dropoutmethod)。但也不要给太多的限制。
(五)交叉验证
比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集(training set),一部分是验证集(validation set)。比如 90% 的数据作为训练集,有 10% 的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数,根据验证集上面的分数去挑选结果

(六)不匹配
不匹配是指训练集和测试集的分布不同

标签:函数,训练,AI,李宏毅,模型,Datawhale,CNN,数据,比较
From: https://www.cnblogs.com/CuckooAI/p/18393994

相关文章

  • 【AI大模型】使用AI大模型进行企业数据分析与决策支持
    前言ChatGPT4相比于ChatGPT3.5,有着诸多不可比拟的优势,比如图片生成、图片内容解析、GPTS开发、更智能的语言理解能力等,但是在国内使用GPT4存在网络及充值障碍等问题,如果您对ChatGPT4.0感兴趣,可以私信博主为您解决账号和环境问题。同时,如果您有一些AI技术应用的需要,也欢迎......
  • 活动火热报名中|搜索进化论:基于大模型的企业级AI搜索
    活动介绍随着人工智能技术的飞速发展,AI搜索正在成为企业提升信息处理效能的重要利器。搜索开发工作台,是阿里云为企业及开发者打造的先进AI搜索平台,具备丰富的组件化服务与强大的模型能力。时间:2024/9/1313:30-17:30地点:阿里巴巴北京朝阳科技园C区,C-C2-B01圆月山庄本次活动中,我们将......
  • 解决auditwheel repair过程rpath被修改的问题
    问题背景AuditWheel是一个用于修复Python的whl包的工具,例如在这个CyFES开源库中,因为使用到了Cython和CUDA编译动态链接库的技术,方便Python调用。但是在编译CUDA算子时如果使用到了运行时库,那么在第一步构建whl包的时候不会自动包含运行时库,而第二步使用auditwheel进行whl包修复的......
  • 工作服反光衣AI视频识别系统
    工作服反光衣AI视频识别系统根据智能化视频剖析,全自动剖析和识别视频图像信息内容,不用人工控制,可对建筑工地职工不穿工作服开展全天监管,工作服反光衣AI视频识别系统发现违规人员立即预警,合理帮助管理者工作中降低虚报汇报和忽略遗漏的状况,减少人力监管成本费。人工智能技术视频识......
  • 【异常解决】springBoot单元测试es报错availableProcessors is already set to [12],
    单元测试的时候,报错异常信息片段2024-09-0309:07:12.439ERROR5676---[main]c.a.m.c.c.es.ElasticsearchConfig:availableProcessorsisalreadysetto[12],rejecting[12]java.lang.IllegalStateException:availableProcessorsisalreadyset......
  • 新手入门 | 搭建 AI 模型开发环境
    目录安装显卡驱动和开发库对于Tesla系列显卡对于N卡安装CUDA和cuDNN安装Miniconda安装PyTorch和Transformers使用Modelscope下载加载模型PyCharm项目配置模型加载和对话CPU和GPU问题transformers版本错误TORCH_USE_CUDA_DSA错误学习模型开发时,搭建环境可能会......
  • 深度学习入门篇Task3#Datawhale X 李宏毅苹果书 AI夏令营
    第二章实践方法论2.1模型偏差模型过于简单导致未拟合重新设计模型增加特征2.2优化问题梯度下降优化的不够,没找到最优参数针在海里,大海捞针,但是方法不给力建议:先使用简单的线性模型或者是SVR测试一下,一般这些模型不会优化不到位训练数据损失突然不再降低或者......
  • Typora 适配高版本 Mermaid
    Typora适配高版本Mermaid查看Mermaid版本info下载最新的mermaid.min.js文件在搜索框输入CDNhttps://cdn.jsdelivr.net/npm/mermaid@11/替换Typora的window.html文件<script> constinterval=setInterval(()=>{ console.log('checkmermaid...'); if......
  • 科普文:软件架构Elasticsearch系列之【2024年8月30日 Shay:Elasticsearch is Open Sourc
     2021年1月,当时Elastic公司决定把Elasticsearch和Kibana的许可证从Apache2.0变更为ElasticLicense2.0(ELv2)和ServerSidePublicLicense(SSPL)双许可。尽管这两个许可证也允许源代码公开,但它们并不符合开源倡议组织(OSI)的开源定义。应对质疑:“本就是一个错误,现......
  • 使用kamailio进行分机注册及互拨
    操作系统版本:Debian12.5_x64kamailio版本:5.8.2kamailio作为专业的SIP服务器,可承担注册服务器的角色。今天记录下kamailio作为注册服务器,承接分机注册,并实现相互拨打的过程。我将从以下几个方面展开:模块配置分机账号添加无rtp代理的分机互拨带rtp代理的分机互拨配套资源......