1.1.1 ML基本认识
机器学习是研究AI的一种方法。其从数据中挖掘特征从而学习到一些规律、规则(模型),然后对输入的新数据做出 预测(回归)和判断(分类)。
机器学习主要分为:
有监督学习:数据有标签
无监督学习:数据无标签,如:聚类等。
半监督学习:人工标注是一项极其耗时的工程,为了省一部分人工。只对一部分数据打标签,对模型训练也有效果。从而衍生了半监督学习。
强化学习:没有开始的训练数据,机器从环境中主动学习并获得反馈。
1.1.2 数据集表示方法
通过笛卡尔坐标系中的坐标点来表示样本数据。在 机器学习中的数学:概率论 中,用距离通过映射函数来计算概率值。因此,在笛卡尔坐标系中,可以通过计算样本点间的距离来衡量样本的相似度。
常用的表示距离的方法:
曼哈顿距离(L1范数);
欧式距离(L2范数);
切比雪夫距离(L∞范数);
闵可夫斯基距离(Lp范数);
余弦距离(将坐标看作原点出发的向量)。
1.1.3 Jupyter环境设置
Jupyter是一个实时交互的机器学习代码运行平台,兼具本文文档的功能。 Jupyter按照cell来划分单元,每个cell可以单独运行,cell中的代码每运行一次就相当于复制当前cell的代码然后放在后面与逆行,因此,多次执行某个cell的代码且cell代码修改了其中某个变量的值,下次运行cell的时候,该变量的值会继承上次cell运行返回的结果。
Jupyte的优势在于:可以将整个项目代码分成几段分别运行;并且能及时返回结果,实时交互。
修改Jupyter工具默认的项目文件存储 根路径:
1)在配置文件中设置Jupyter文件存储 根路径。
2)在某个环境下,修改Jupyter的 文件存储路径为配置文件中的存储路径。
3)重启。
标签:学习,机器,1.1,距离,cell,概述,Jupyter,范数 From: https://www.cnblogs.com/zhangzhenw/p/18080183