机器学习
机器学习:
定义:能够从经验中学习从而能够 把事情不断做好的计算机程序
人工智能的一个分支和 实现方式
理论基础:概率论 数理统计 线性代数 数学分析 数值逼近 最优化理论 计算复杂理论
核心要素:数据 算法 模型
机器学习 ≠ 人工智能
艺术创作 金融领域 医疗领域 自然语言处理 网络安全 工业领域 娱乐行业
机器学习的一般流程: 明确分析目标、 收集数据 、数据预处理、 建模分析、 结果评估 、部署使用、 学习更新。
统计分析:统计学是研究如何收集资料、整理资料和进行量化分析、推断的一门学科 概念; 在科学计算、工业和金融领域有着重要的应用 ; 统计分析是机器学习的基本方法 。
高维数据降维:采用某种映射方法,降低随机变量的数量。(PCA\LDA\)
线性回归分析:
回归分析 分析一个变量与其他一个(或几 个)变量之间的相关关系的统计方法
种类
线性回归、多元回归、非线性回 归、广义线性回归(对数、possion )
主要内容
1. 确定连续变量之间的相关关系
2. 建立回归模型
3. 检验变量之间的相关程度
4. 应用回归模型对变量进行预测
决策树算法: 一种有监督的学习 从数据中推导函数的技术 (ID3算法、C4.5算法、CART算法)。使用于组合的算法是弱学习算法, 即分类正确率仅比随机猜测略高的 学习算法,但是组合之后的效果仍 可能高于强学习算法,即集成之后 的算法准确率和效率都很高。
集成学习(Ensemble learning): 是用多种学习方法的组合来获取比 原方法更优的结果(装袋法、提升法、随机森林)。
聚类分析
把数据对象划分成子集 簇中对象相似 簇间对象不相似
无监督学习 无标签 数据驱动
聚类方法分类
基于划分的方法 基于层次的方法 基于密度的方法 基于网格的方法 基于模型的方法
良好聚类算法的特征
聚类高维数据的能力 处理噪声数据的能力 良好的伸缩性 处理不同类型数据的能力 发现任意形状的聚类 易解释性和易用性 对样本顺序的不敏感性 约束条件下的表现
基于划分的聚类----K均值算法
基于划分的聚类----k-mediods算法
基于划分的聚类----k-prototype算法
基于密度的聚类方法----DBSCAN算法
基于层次的聚类----类间距离计算方法
基于模型的聚类----期望最大化算法(EM算法)
基于模型的聚类----Kohonen神经网络聚类
文本分析的基本问题
将文本中抽取出的特征词进行向量化表示
将非结构化的文本转化为结构化信息
找出最具代表性的文本特征TF-IDF、信息增益和互信息等
采用向量空间模型(VSM)来描述文本向量
建立文本的数学模型实现对文本的计算、识别、分类等操作
文本特征提取及表示----TF-IDF
文本特征提取及表示----信息增益
文本特征提取及表示----互信息
文本特征提取及表示----卡方统计
文本特征提取及表示----词嵌入
文本特征提取及表示----语言模型
文本特征提取及表示----向量空间模型
词法分析----文本分词
词法分析----命名实体识别
词法分析----语义消歧
句法分析----依存结构句法分析
句法分析----短语结构句法分析
神经网络介绍
并行处理 神经元以分布式的方式处理信息
用途 1. 用神经网络模拟生物学习过程并建模 2. 获得高效的分类器
神经网络介绍----感知机
神经网络介绍----梯度下降
神经网络介绍----批量学习
神经网络介绍----随机学习
神经网络介绍----感知机
神经网络介绍----多层感知机
神经网络介绍---- Sigmoid函数
神经网络介绍----BP神经网络
神经网络介绍----埃尔曼网络
神经网络介绍----霍普菲尔网络
贝叶斯网络定义 使用有向无环图来表示变量间依赖关系的概率图模型
贝叶斯网络的构建
根据问题和领域专家 知识手工构建 通过对数据进行分析得到 贝叶斯网络 结合领域专家知识和数据分 析得到贝叶斯网络
支持向量机模型----线性分类器
支持向量机模型----点到超平面的距离
支持向量机模型----分类器的选择
支持向量机模型----拉格朗日乘数法
支持向量机模型----核函数
Holland在上世纪60年代提出了遗传算法
进化计算的一个分支
一种模拟自然界生物进化过程的随机搜索算法 遗传算法
首先对问题进行编码
然后随机初始化种群,每个个体对应一个编码
通过适应度函数以及选择函数来进行对个体的淘汰
保留优良个体基因,产生新的子代
选择算子 根据适应值把个体按比例进行淘汰,从而提高群体的适应值
交叉算子 种群中随机选择2个个体,交换染色体部分编码,产生2个新 的子个体
变异算子 以一个很小的概率随机改变染色体上的某个基因来 增加群体的多样性
核心问题
01 如何提高各分布式任务节点之间的网络传输效率
02 如何解决参数同步问题
03 如何提高分布式环境下的容错能力
分布式机器学习基础----参数服务器
解决分布式学习里面的一致性、扩展性和稳定性问题 作用
支撑并行训练,存储模型参数和状态 功能
高效通信、宽松一致性、灵活可扩展、容错能力强、易用
特点
灵活可扩展 训练过程中支持动态扩展节点,不需要重启训练任务就可以动 态插入新节点到集合中,可节省大量训练时间
容错能力强 在大型服务器集群中,由于节点较多,小概率故障往往常态化 需要节点恢复时间要短,不能中断训练过程
易用 为了减少学习难度,尽可能使用常用语言或将参数表示成通用的 形式,如向量、矩阵等,与现有机器学习框架无缝拼接
应用背景
推荐系统是信息过滤器 推荐系统是一种营销手段 应用背景 帮助用户快速发现有用信息的工具 提高产品销量
应用场景
电商平台 “猜你喜欢”
个性化电影网站 根据观看历史推荐
社交网络 推荐互加好友
音乐歌单 协同过滤推荐