你想知道什么是数据科学吗?阅读此内容以了解。
介绍
在随机的一天,您只需进入您的 Instagram,点击用户故事并收到一些关于您正在搜索的原声吉他的广告。
之后,您的屏幕上会出现有关 Rock In Rio 门票的其他公告。
推荐算法怎么可以这么好??
仅仅是因为你留下了一些有用的信息吗?
是和不是。
当您使用社交网络时,公司可以访问您的信息,例如您用于搜索 Instagram 个人资料的文本、对视频的点赞、照片、您保存的照片等。
但是只有数据是不够的。 从这些数据中提取相关信息很重要 . 你需要使用科学来做到这一点,你需要数据科学。
那么,什么是数据科学和数据科学家?
数据科学是一个科学领域,它结合了数学统计、机器学习和人工智能来帮助公司的业务。
数据科学是在公司中应用数据科学的学科和数据科学家。事实上,数据科学有直接的商业应用,数据科学家在就业市场上的需求越来越大。在下图中,您可以观察到数据科学家的职位发布随着时间的推移而增长。
Source: https://www.hiringlab.org/2019/01/17/data-scientist-job-outlook/
什么是顶尖的数据科学技能?
很难总结数据科学技能,因为您可以在就业市场中找到不同的概念。但是,恕我直言,我认为我们可以在下面列出硬能力:
- 统计分析与计算
- 机器学习/深度学习
- 数据处理(Pandas、spark 等)
- 数据可视化
- 数学与统计
- 编程
看到数据科学技能的维恩图也很常见。下图是我喜欢的一张。 ( 资源 )
我们可以举例说明哪些数据科学应用?
除了推荐在广告中的应用,我们还可以提到其他常见的商业数据科学应用:
- 乳腺癌肿瘤鉴定。由于人眼很难观察到,我们可以使用机器学习来实现这一点。
- 通过送餐预测到达时间。优步为此使用机器学习。
- 一家名为 WHOOP 的公司生产可跟踪运动员身体数据的可穿戴设备,例如静息心率、睡眠周期和呼吸频率。数据科学用于优化运动员的训练、何时需要训练以及何时需要休息。
- 动视是一家大型游戏公司,负责《使命召唤》、《魔兽世界》和《守望先锋》等优秀游戏玩家。他们使用数据科学来改善在线游戏体验。
- Airbnb 应用数据科学来提高其搜索引擎的质量。
- 这些不可思议的艺术( 资源 ):
数据科学项目是如何发生的?数据科学项目的阶段是什么?
简而言之,将数据科学划分为一些阶段/步骤是很常见的。我们也可以说这些步骤是 项目生命周期 .下图来自 亚伯拉罕·摩西 的文章。我也用他的文章简单地回答了这个问题:)。
让我们在每个阶段深入一点:
- 业务问题理解。
第一阶段是了解业务需求。你需要将他们想要解决的问题转化为数据科学问题。业务团队需要的是使用数据对组织产生积极影响。
让我们假设业务团队发现人们通过提供虚假信息(例如地址、姓名、年龄等)来击败信用系统。然后,您观察到您可以使用从软件系统收集的数据来检测某人是否要进行欺诈。这是文献中的一个常见问题,称为信用卡欺诈检测。一个非常经典的数据集可以在 Kaggle 上找到 这里 .
- 数据采集
在你观察你想要解决信用卡欺诈检测之后。您注意到该公司尚未收集所有必要的数据。您阅读了文献并注意到拥有人口统计数据、贷款信息等很重要。然后,您可以使用一些好的技术,例如美丽的汤或刮擦来收集这些数据。
- 数据清洗和处理
在一些数据科学课程中收到非常好的数据是很常见的。但在现实生活中,情况并非如此。
您可能会收到非常差的数据,有时问题无法像您想象的那样解决。或者您收到可接受的数据,您只需要对其进行清理和结构化。
当我说清理它时,我的意思是删除非信息性数据,例如空数据、负年龄、空地址等等。
这个阶段非常重要,因为如果我们将坏数据插入到我们的模型中,它就不会理解模式。 这就是为什么这是一个关键阶段,数据科学家可以在此步骤中将 80% 的时间花在数据科学项目上。
- 探索性数据分析
整理完所有数据后,就该进行分析并获得洞察力了。勘探数据分析(EDA)中常见的分析是单变量分析、双变量分析、缺失值处理、异常值处理、变量变换、特征工程和相关性分析。
在我们的信用卡欺诈检测示例中,分析示例可以回答以下问题:
- 该位置是否会影响信用卡欺诈?
- 什么时候出现更多的欺诈行为?哪几个月?一周中的哪一天?
- 我们可以改进哪些功能以更深入地了解欺诈行为? (特征工程)。
创建良好的分析和功能以创建良好的预测器非常重要。
- 模型构建和评估
这是我们选择使用某种评估技术训练的最佳模型的阶段。
当我们将数据集划分为训练集和测试集时,最常见的评估技术是保留。训练集用作模型(或模型集)来拟合数据并理解模式。测试数据是一个看不见的数据集,我们将使用它来观察模型在某些指标方面的表现。一个非常常用的评估指标是准确率和 f1-score。
在这个阶段也常见做模型超参数优化。例如,在决策树中,我们可以测试深度参数的不同值并观察 f1-score 度量的结果。
- 传达模型结果
沟通是每个数据科学家都需要的一项非常重要的技能。因为,您首先需要沟通来判断数据科学项目是否可行,然后您需要为项目利益相关者创建模型结果的故事。
展示您的模型如何帮助解决业务问题非常重要。经理们对您的参数优化如何达到最佳评估指标不感兴趣。这就是为什么数据科学家需要良好的讲故事技巧。
- 模型部署和维护
在这个阶段,并不是所有的数据科学家都这样做。有时,机器学习工程师会收到模型并将其设计用于生产。在信用卡欺诈检测的示例中,您可以想象当用户尝试在银行应用程序中注册时可以使用该模型。
所以,事情没那么简单。我们需要了解应用程序中使用了哪些技术。此外,我们需要创建一个应用程序接口 (API) 来创建应用程序和信用卡欺诈预测模型之间的通信。
为了使其更加复杂,有时需要重新训练模型。这就是为什么我们需要创建指标和监控。我们可以使用new relic、grafana、cloud watch等程序。
免责声明
数据科学家的定义还不是很简洁。甚至数据科学阶段也可能因公司和文献而异。
你喜欢它吗??请拍下这篇文章并关注我。
我推荐的书:
[
使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习:概念、工具和技术……
使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习:构建……的概念、工具和技术
amzn.to
[
实用自然语言处理:构建真实世界 NLP 系统的综合指南
实用自然语言处理:构建真实世界 NLP 系统的综合指南 [Vajjala, Sowmya…
amzn.to
[
数据科学的基本数学:用基本线性代数控制你的数据……
为数据科学购买基本数学:使用基本线性代数、概率和……控制您的数据
amzn.to
[
商业数据科学:您需要了解的有关数据挖掘和数据分析思维的知识
购买商业数据科学:在 Amazon.com 上您需要了解的有关数据挖掘和数据分析思维的知识 ✓ 免费……
amzn.to
[
数据科学家实用统计:使用 R 和 Python 的 50 多个基本概念
数据科学家实用统计:使用 R 和 Python 的 50 多个基本概念:9781492072942:计算机科学……
amzn.to
下一篇文章:
数据工程师、数据科学、数据分析师和机器学习工程师之间有什么区别?
参考:
https://towardsdatascience.com/five-stages-of-every-data-science-project-8a62885e46de
https://www.simplilearn.com/what-skills-do-i-need-to-become-a-data-scientist-article
https://builtin.com/data-science/data-science-applications-examples
https://www.hiringlab.org/2019/01/17/data-scientist-job-outlook/
https://www.ibm.com/cloud/learn/data-science-introduction
https://www.youtube.com/watch?v=RyHAEEr2nYM
https://www.youtube.com/watch?v=Zwvq-rlIHAw
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/15604/35590510
标签:阅读,data,模型,内容,https,科学,amzn,数据 From: https://www.cnblogs.com/amboke/p/16657251.html