首页 > 其他分享 >Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多

Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多

时间:2023-08-22 12:31:49浏览次数:67  
标签:机器 硕博 82% 科学家 Kaggle 学习 数据 Cloud

Kaggle开发者年度报告,机器之心编辑


Kaggle 正式发布了 2021 年度报告,超过 2.5 万名开发者参与调查,但来自中国的 Kaggle 数据科学家应该并不多。这是 Kaggle 进行用户深度调查和公开分享结果的第五个年头。在调查过程中,超过 25000 名数据科学家和机器学习工程师提交了关于自身背景和日常经验的答案——从受过的教育到薪水,再到偏爱的技术等。

Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习


调查在 2021 年 9 月 1 日至 2021 年 10 月 4 日进行,梳理数据后,得到共计 25973 个有效回复。


与往年一样,参与调查并获得所设奖项的用户受到一定限制:


假如您是克里米亚地区、古巴、伊朗、叙利亚、朝鲜的居民,或者受到美国出口管制或制裁个人 / 实体代表,不得参与竞赛。



当然,这份报告只关注了部分群体的数据,14% 的受访者目前的职位是「数据科学家」。报告分为五个部分: 


  • 01 技术
  • 02 数据科学家概况;
  • 03 教育;
  • 04 数据科学和机器学习经验;
  • 05 就业。


在今年的调查报告中,XGBoost 成为受访开发者最喜欢的机器学习框架之一,排名第三(去年是排名第四)。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_02

图源:XGBoost 核心开发者、CMU 助理教授陈天奇发表感言。


相比去年,Keras 的排名有所下降,François Chollet 表示,Keras 下降了 3 个百分点,而 TensorFlow 增加了 3 个百分点,这是因为 99% 的新 TF 使用都利用了内建的 Keras。


1. 技术


交互式的开发环境(IDE)


基于 Jupyter 的 IDE 仍然是数据科学家的首选工具,大约四分之三的数据科学家都在使用这一工具。VS Code 紧随其后,使用人数占比为 38%。



Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_03


虽然 VS Code 的受欢迎程度远不及 Jupyter Notebook,但从历年情况来看,它的受欢迎程度是逐年提升的。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_04


方法 & 算法


和去年一样,最常用的算法是线性回归和逻辑回归,其次是决策树和随机森林。在更复杂的方法中,梯度提升机(gradient boosting machine,GBM)和卷积神经网络是最流行的方法。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_05



此外,我们还可以看到大型语言模型流行度的逐年增长,如基于 transformer 的 BERT、GPT-3 等。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_06


机器学习框架


在机器学习框架领域,基于 Python 的工具仍占主导地位。


和去年一样,Scikit-learn 以超过 80% 的采用率位居第一,它就像一把瑞士军刀,在很多项目中都能派上用场。TensorFlow 和 Keras 主要用于深度学习,采用率都在 50% 左右。梯度提升库 XGBoost 位居第三,采用率和前两年差不多。


尽管从总体来看,PyTorch 的排名不在前三,但它的逐年增长势头依然强劲。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_07


企业云计算


云计算领域最受欢迎的前三位重磅玩家依然是 Amazon Web Services、Google Cloud Platform 和 Microsoft Azure。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_08



那些使用云服务的人还被问及调查中的具体产品。亚马逊的弹性云计算(Elastic Compute Cloud)是最受欢迎的云计算产品,但谷歌云的计算引擎和 Azure 的虚拟机也得到了广泛的采用。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_09


同样,亚马逊的 Simple Storage Service(S3)也是最受欢迎的数据存储产品,但 Google Cloud Storage 和 Azure Data Lake Storage 也有较高的采用率。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_10


企业机器学习工具


和去年一样,在 ML 的企业客户中,Amazon SageMaker 是迄今为止最受欢迎的选择。排在 SageMaker 后面的是 Databricks——它的采用率与 Azure ML Studio 相似(约 13%),比谷歌 Cloud Vertex AI 的采用率高。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_11



企业大数据


关于数据库,数据科学家们并没有明确的偏好。MySQL、PostgreSQL 和 Microsoft SQL Server 保持在前三名。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_12


机器学习环境


与去年相比,现在有更多的数据科学家使用工具来跟踪和管理他们的实验。其中,TensorBoard 仍然是最受欢迎的工具(22.3%),MLflow 紧随其后(18%)。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_13



自动化机器学习


Google Cloud AutoML 在 AutoML 类别中保持了第一。 


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学_14



Google Cloud AutoML 技术的采用在过去几年里稳步增长。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_15


TPU



在算力硬件方面,GPU 仍然是主流,谷歌的 TPU 也显示出了逐年增长的趋势。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_16



2. 数据科学家概况


性别


在 2021 年,数据科学领域依旧面临着性别分布不均的问题。在工作场所,82% 的用户是男性。从过去五年的数据分析,性别差异问题始终没有得到明显的改善。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学_17


年龄


同时,数据科学仍然是一个相当年轻化的职业,超过一半的数据科学家年龄在 22 到 34 岁之间。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_18


国家


国家人口统计数据层面,与去年基本相同,印度占 Kaggle 数据科学家的 24.4% ,此外 12.2% 的数据科学家居住在美国。巴西排名第三但远远落后,低于 4.3%。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_19



3. 教育


高等教育


研究生学历仍然是数据科学家的主流,超过 62% 的数据科学家拥有硕士或博士学位。少于 5% 的数据科学家只有高中文凭。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_20



与往年同期相比,没有高学历的数据科学家越来越常见,但高学历群体仍然占比接近 64%。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_21


持续学习


数据科学和机器学习的迭代是非常快的,在当下比较流行的在线学习资源平台中,Kaggle 数据科学家最喜欢 Coursera。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_22


Kaggle 学习课程则排在第二位,从去年到现在,Kaggle 学习课程的受欢迎程度增长了 9%。


4. 数据科学和机器学习经验


编程经验


大多数 Kaggle 数据科学家都有编程经验,这份报告显示他们大多有一年以上的编程经验,没有编程经验的人极少。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学_23


机器学习经验


相比于编程,大多数 Kaggle 数据科学家更不熟悉机器学习。约 55% 的数据科学家机器学习经验不足三年。只有不到 6% 的专业数据科学家已有十年以上的机器学习从业经验。值得注意的是,美国数据科学家的机器学习经验普遍略多于全球受访者。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_24


5. 就业


薪酬


报告中的调查结果显示,美国科技公司给数据科学从业者的薪酬大多为 6 位数(美元)。而在全球范围内,数据科学从业者的薪酬会普遍低一些,但分布较为均匀。其中呈现出一些地区趋势,例如印度,近 90% 的人每年的收入低于 50000 美元。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_25



对比美国和印度两个国家的薪资会发现,大多数美国数据科学家的年薪超过了 100000 美元,而印度只有 3% 的数据科学家能够达到这个薪资水平。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学_26



从事数据科学的公司


和去年的调查结果一样,大型企业和小型初创公司是数据科学家最常选择的公司类型。一半以上的公司员工数量少于 250 人,约 20% 的公司有超过 10000 人的员工。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_27



数据科学团队


数据科学团队的规模与去年相比没有显着变化——超过一半的数据科学家仍在小组人数不超过 5 人的公司工作,约 20% 的人在含 20 名数据科学家的团队工作。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学家_28



开销


今年的调查报告显示从业者们在机器学习和云计算产品上投入了大量资金,但并非所有数据科学家都是如此。超过四分之一的数据科学家声称根本没有这部分开销,而约十分之一的人在过去五年中花费了超过 100000 美元。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_29



与全球同行相比,美国数据科学家在云上的花费会更多一些。与其他国家相比,最高可达其他国家从业者开销的两倍多。


Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_机器学习_30


报告链接:

https://www.kaggle.com/kaggle-survey-2021

Kaggle发布数据科学最新报告!82%男性, 62%硕博,薪酬6位数居多_数据科学_31


标签:机器,硕博,82%,科学家,Kaggle,学习,数据,Cloud
From: https://blog.51cto.com/u_15699042/7188613

相关文章

  • py之路——day13-20230821:生成器和迭代器
    作者:zb一、列表生成式1、定义用来生成列表的表达式2、特点可以使代码更加简洁示例代码如下:1#普通方法定义列表2a=[1,2,3]3print(a)4#列表生成式方法定义列表5b=[i*2foriinrange(10)]6print(b)7#如果不用列表生成式,上述b列表定义会很麻烦......
  • 20230821比赛
    20230821比赛T1【佛山市选2013】树环转换GMOJ3230Description给定一棵N个节点的树,去掉这棵树的一条边需要消耗值1,为这个图的两个点加上一条边也需要消耗值1。树的节点编号从1开始。在这个问题中,你需要使用最小的消耗值(加边和删边操作)将这棵树转化为环,不允许有重边。环的定......
  • [Mac软件]AutoCAD 2024 for Mac(cad2024) v2024.3.61.182中文版支持M1/M2/intel
    下载地址:前往黑果魏叔官网AutoCAD是一款计算机辅助设计(CAD)软件,目前已经成为全球最受欢迎的CAD软件之一。它可以在二维和三维空间中创建精确的技术绘图,并且可以应用于各种行业,如建筑、土木工程、机械制造等领域。AutoCAD允许用户使用命令行或者图形用户界面来创建几何形状,并且可以根......
  • 【pytorch】目标检测:一文搞懂如何利用kaggle训练yolov5模型
    笔者的运行环境:python3.8+pytorch2.0.1+pycharm+kaggle。yolov5对python和pytorch版本是有要求的,python>=3.8,pytorch>=1.6。yolov5共有5种类型n\s\l\m\x,参数量依次递增,对训练设备的要求也是递增。本文以yolov5_6s为切入点,探究yolov5如何在实战种运用。1.数据集的准备roboflow......
  • day01-运维介绍与虚拟机安装-20230820
     1.解释我们正在使用哪些互联网行业的软件,移动端?PC端? (1)平台不一样视觉范围更广,可设计的地方更多,设计性更强,相对来说容错度更高一些。操作局限性大,在设计上可用空间显得尤为珍贵,避免原件过小过近。(2)操作系统不一样对于会员系统、视频和音乐、购物支付等功能都进行了精简,使......
  • CF1823F Random Walk 题解
    题意给定一棵由\(n\)个节点组成的树,定义每次移动的方式为等概率的移动到相邻节点上,询问从\(s\)移动到\(t\)的过程中每个点的期望经过次数。(\(1\len\le2\times10^5\))。题解定义\(f_i\)为节点\(i\)的期望经过次数,\(fa_u\)为节点\(u\)的父亲节点,\(\operatorna......
  • ffpyplayer源码编译报错:ffpyplayer/tools.pyx:182:28: Cannot assign type 'void (*)(
    编译ffpyplayer报错,具体错误如标题。  报错信息:ffpyplayer/tools.pyx:182:28:Cannotassigntype'void(*)(void*,int,constchar*,va_list)except*nogil'to'void(*)(void*,int,constchar*,va_list)noexceptnogil'  解决方法:pipinstallblos......
  • MIT6.s081/6.828 lectrue5/6:System call entry/exit 以及 Lab4 心得
    这篇博客主要复习lecture05:GDBcallingconentions和lecture06:Systemcallentry/exit的内容,外加Lab4:traps的心得前置知识这里的前置知识是指lecture05:GDBcallingconentions的内容,是由TA来上的,是作为lecture06的前置知识,主要讲解了以下三点内容:指令集架构的概念......
  • iBooker 技术评论 20230820:为什么我特别反感游戏佬
    好吧,其实我也打游戏,但是我主业是一名独立开发者,和AI研究员。这就导致了即使我打游戏,需求也和游戏佬是不同的。游戏加载依赖硬盘的顺序读写,而我做RPA处理大量小文件,更依赖硬盘的随机读写。游戏佬的游戏互联网上全是,不需要太多的数据安全,只需要大容量就够了。而我作为数字产品......
  • 【230820-1】▲ABC中,AC=根号二,BC=根号六,S△ABC=根号三/2,若线段BA上的延长线存在点D,使
    ......