首页 > 编程语言 >寒假学习 15 Spark机器学习库MLlib编程实践

寒假学习 15 Spark机器学习库MLlib编程实践

时间:2024-02-25 15:57:15浏览次数:28  
标签:map 15 MLlib toDouble Adult spark Spark

1.针对数据导入,提前导入必要的包,如下所示

 

2.将数据集转换为DataFrame

import spark.implicits._

case class Adult(features: org.apache.spark.ml.linalg.Vector, label: String)

val df = sc.textFile("/export/server/spark-3.0.0-bin-hadoop3.2/adult.data.txt").map(_.split(",")).map(p => Adult(Vectors.dense(p(0).toDouble,p(2).toDouble,p(4).toDouble, p(10).toDouble, p(11).toDouble, p(12).toDouble), p(14).toString())).toDF()

 

标签:map,15,MLlib,toDouble,Adult,spark,Spark
From: https://www.cnblogs.com/jizhaosai/p/18032490

相关文章

  • [ARC155D] Avoid Coprime Game 题解
    Description非负整数\(x,y\)的最大公约数记为\(\gcd(x,y)\),规定\(\gcd(x,0)=\gcd(0,x)=x\)。黑板上写了\(N\)个整数\(A_1,A_2,...,A_N\),这\(N\)个数的最大公约数是\(1\)。Takahashi和Aoki在玩游戏,有一个变量\(G\)初值为\(0\),他们轮流进行以下操作:从黑板上选择......
  • [ARC155D] Avoid Coprime Game
    考虑a的范围其实很小,只有2e5,也就代表着G最大只有2e5,不难发现对于G的质因数分解,一个质因子的幂次对G没有影响,而G最多只有6个本质不同质因子,也就是G最多只有\(2^6\)种考虑建出博弈论转移的DAG,首先对于G不变的操作(也就是选的数拥有G的所有类型的质因子),只有两种本质不同的状态:1.先......
  • codeforces 1575M Managing Telephone Poles
    假设固定了\((x,y)\),考虑其和\((x',y')\)的距离\((x-x')^2+(y-y')^2=x^2-2xx'+x'^2+y^2-2yy'+y'^2=(x^2+y^2)+(-2xx'+x'^2)+(-2yy'+y'^2)\)。第一个括号内的式子是个定值,不用管;第二三个式子都是一次函数的形式......
  • Java SM2 工具类,依赖bcprov-jdk15on
    老版本bcprov-jdk15on和新版本的有点不一样,新版本的签名后需要DER格式和r|s格式转换,可以和老版本一样<dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15on</artifactId><version>1.70</version></dependency>import......
  • Java SM4 工具类,依赖bcprov-jdk15on
    Java实现SM4国密加解密,依赖bcprov-jdk15on.jar<dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15on</artifactId><version>1.70</version></dependency>/***@authorEvanY*@since......
  • MDS500-16-ASEMI工业电机专用MDST150-16
    编辑:llMDS500-16-ASEMI工业电机专用MDST150-16型号:MDS500-16品牌:ASEMI正向电流(Id):500A反向耐压(VRRM):1600V正向浪涌电流:600A正向电压(VF):1.38V引脚数量:5芯片个数:6芯片尺寸:MIL功率(Pd):大功率设备封装:M34工作温度:-40°C~125°C类型:整流模块、整流桥MDS500-16描述:ASEMI品......
  • 关卡设计师15问
    问题1:为什么(它)是有趣的?问题2:玩家是否可以明白这是有趣的?问题3:这个游戏的特点是什么?只在这款游戏中才能做到的事情问题4:什么样的【空间】最适合这个游戏?问题5:这个关卡是否太大或太小了?问题6:关卡是否过于平淡?从垂直方向处理游戏空间将会更加好问题7:我这么做只是因为这......
  • 「CF1575L」 Longest Array Deconstruction
    双倍经验如果本文出锅,请评论或私信提醒这个蒟蒻修改!题意题目给的很清楚了,不多说。分析看到题目,因为在dp题单里,所以一眼是个dp,我们先想朴素算法,可以发现,如果设\(f_{i,j}\)表示前\(i\)个数中删掉\(j\)个所能得到的最大结果,若\(a_i=i\),则\(f_{i,j}=f_{i-1,j}+1\);否则,可......
  • 「ABC215G」 Colorful Candies 2
    题意概括有\(n\)个糖果,每种都有一个颜色\(c_i\),求对于所有\(k\in[1,n]\),求出\(C_n^k\)种方案中糖果种类的期望数,对\(998244353\)取模。分析通过期望的定义,设\(vis_i\)表示每种颜色有没有被选,颜色总数为\(m\),则期望为\(E(\sum\limits_{j=1}^{m}vis_j)\),由线性期望......
  • [ARC157C] YY Square
    首先考虑权值不算平方这么算,这个很简单,直接dp,设\(f_{i,j}\)是为到点\((i,j)\)结束的路径权值和,那么转移就很简单了加上左边的上边的在加上两个Y所加上的新权。那么平方怎么做,注意到\((a+1)^2=a^2+2a+1\),直接类似的转移,在加上两倍一次权值即可。constintN=2e3+5;......