人工智能和机器学习并不神秘 人工智能和机器学习方法并不神秘,其本质是以数理模型为核心工具,结合控制论、认知心理学等其它学科的研究成果,最终由计算机系统模拟人类的感知、推理、学习、决策等功能。理解常用的机器学习算法,有助于澄清对人工智能的种种误解和偏见,帮助我们更清晰地认识人工智能的长处和局限,从而更合理、有效地将人工智能运用于投资领域。 机器“学习”的对象是客观存在的规律 机器学习的对象是某种客观存在的规律。这种规律可以非常浅显,比如教给计算机勾股定理,机器就拥有了计算直角三角形边长的智慧。规律也可以相当复杂,如指纹识别系统学习的是不同指纹图像之间差异的规律,苹果语音助手 Siri 学习的是人类语言的声信号和背后表达意义的规律,无人驾驶学习的是当前路况和驾驶行为的规律。有的规律甚至连人类自己都无法完美诠释,如 AlphaGo 学习的是围棋落子和胜负之间的规律,智能投顾学习的是资本市场中投资决策和收益之间的规律。 机器学习遵循基本的流程 机器学习往往遵循一些基本的流程,主要步骤包括:数据获取、特征提取、数据转换、模型训练、模型选择和模型预测。数据获取可以通过数据库以及网络爬虫技术,途径日趋多元化。特征提取基于人的经验和探索,优质的特征能够起到事半功倍的效果。数据转换包括缺失值填充,标准化和降维。机器学习模型可分为监督学习,非监督学习和强化学习。模型选择通常借助交互验证和一系列评价指标。监督学习寻找特征和标签之间的规律,应用极为广泛监督学习由使用者给出特征和标签,由算法挖掘规律,学习一个模式,并且根据此模式预测新的特征所对应的标签。监督学习应用更广泛,学习效果好。我们从最简单的线性回归模型开始,介绍包括线性回归、岭回归、Lasso 回归、逻辑回归、线性判别分析和二次判别分析、支持向量机、决策树、随机森林、AdaBoost、神经网络、深度学习和 K 最近邻算法在内的众多监督学习方法。无监督学习通常用来挖掘数据自身的规律无监督学习不给出标签,由算法仅仅根据原始特征寻找模式,挖掘数据自身蕴含的规律。聚类和降维是常用的无监督学习方法。聚类包括 K 均值聚类、分层聚类和谱聚类。降维包括以主成分分析为代表的线性降维,以及以流形学习为代表的非线性降维。风险提示:机器学习的结果是历史经验的总结,存在失效的可能。 本文研究导读 2016 年 3 月,举世瞩目的围棋人机大战在韩国首尔上演。Google DeepMind 团队的人工智能围棋软件 AlphaGo 以四胜一负的战绩击败世界冠军韩国棋手李世乭,轰动围棋界。017 年 5 月,AlphaGo 升级版在乌镇围棋峰会中以 3:0 完胜世界围棋第一人中国棋手柯洁,又一次掀起社会上对于人工智能的热议。其实人工智能并不是什么新鲜的名词,早在20 年前,IBM 的人工智能“深蓝”就曾击败国际象棋世界冠军卡斯帕罗夫;而在近 20 年中,人工智能和它借助的机器学习方法也逐渐渗透到人类生活的方方面面。从手写数字的自动识别,到电脑手机上的指纹解锁功能、语音识别系统,再到无人驾驶、智能医疗、智能投顾等热门领域,处处都有人工智能的身影。在普罗大众的心目中,人工智能和机器学习可能还带有一些神秘色彩。有人质疑人工智能的可靠程度,认为电脑永远不可能达到人脑的水平。有人忧虑人工智能的无限发展最终将导致机器人统治人类。即使在内行看来,人工智能相当于黑箱子,人们无法破译程序“思考”的过程,那么使用人工智能时自然也要打上一个问号。其实,人工智能和它所借助的机器学习方法并没有想象的那么神秘,其本质是以数理模型为核心工具,结合控制论、认知心理学等其它学科的研究成果,最终由计算机系统模拟人类的感知、推理、学习、决策等功能。理解常用的机器学习算法,有助于我们澄清对人工智能的种种误解和偏见,帮助我们更清晰地认识人工智能的长处和局限,从而引导我们更合理、有效地将人工智能运用于投资领域。以下,我们的报告将分为两部分进行论述。 1. 所谓“举一纲而万目张”。在介绍具体的机器学习算法之前,我们首先将介绍机器学习项目的基本套路,为我们未来的系列研究构建好框架。随后我们将着重探讨特征提取、数据转换、交互验证和模型评价等重要步骤,帮助读者建立一个对机器学习的大致概念。 2. 传统机器学习方法包含监督学习和无监督学习两大门类。近年来强化学习逐渐受到重视,成为第三大门类。通俗地说,监督学习是教师(使用者)给出问题(特征)和正确答案(标签),由学生(算法)挖掘规律,学习一个模式,并且根据此模式回答新的问题(预测新的特征所对应的标签)。无监督学习不给出正确答案,由算法仅根据原始特征寻找模式。强化学习的目标是让模型学会使奖赏最大化的决策,是三大门类中最年轻也是最困难的方法。监督学习应用最为广泛,并且学习效果较好,因此第二部分我们将着重围绕监督学习进行介绍。我们将从最简单的线性回归模型开始,介绍包括广义线性模型、线性判别分析、支持向量机、决策树和随机森林、神经网络、K 最近邻算法在内的众多监督学习方法。另外我们也将介绍聚类这一无监督学习方法,以及数据转换常用的降维方法。本研究的一大亮点是,针对每一种机器学习方法,我们都配合原创、浅显、并且与投资密切相关的例子加以阐述,以一种非常接地气的描述方式推送给读者,试图帮助读者厘清基本概念,使人工智能方法脱去神秘的外衣,让读者都有可能开发出成功的机器学习投资策略,也为我们后续的系列研究报告做铺垫 机器学习基本框架 机器“学习”什么?从物质层面上看,人类的大脑是一个毫不起眼的器官,成年人的大脑约为 1.5 公斤,仅占体重的 2%,相当于一大瓶可口可乐的重量。然而,人类的大脑又是一个极其复杂的器官,约 860 亿个神经元形成的复杂网络上有百万亿数量级别的突触连接, 被誉为宇宙中最复杂的 1.5 公斤重的物体。基于它, 人类产生了知觉、注意、语言、决策、记忆、意识、情感等心理和认知过程, 也产生了以科学和艺术为代表的灿烂的文明。对于人类来说,最神奇的地方莫过于我们的大脑拥有着无以伦比的学习能力。婴儿甚至没有人教就可以学会爬行、站立和行走。儿童即使没有上学也能熟练地用母语与他人交流。青少年在校园的短短十多年间掌握的科学知识就已超过几百年前人类文明的总和。而当今时代,即使最强大的机器人也无法像人类一样自然地行走,最先进的计算机也不能在和人类对话时以假乱真,我们也无法象人工智能参加高考能得多少分。自计算机问世以来,科学家便试图探索计算机究竟能在多大程度上取代人类。很长一段时 间,计算机帮助人类实现人脑无法承担的大规模运算,储存人脑无法储存的海量信息,然而这些仍离智慧相距甚远。随着计算机科学的逐步发展成熟,人们意识到让计算机拥有智慧的关键,就在于让机器拥有和大脑一样的学习能力。人工智能和机器学习由此应运而生。机器学习的对象是某种客观存在的“规律”。这种规律可以非常浅显,比如教给计算机勾股定理
标签:机器,规律,人工智能,简介,模型,学习,选股,数据 From: https://www.cnblogs.com/bluejj/p/17966781