- 2024-01-17推荐算法之-召回中的随机负采样
//二分查找deffetchBinarySearch(trainItems:Array[(String,Double)],target:Double):String={//valtrainItems=Array(("1",0),("2",1),("3",3),("4",4),("5",6))//valtarget=6.00000000
- 2023-08-20使用PySpark计算AUC,KS与PSI
当特征数量或者模型数量很多的时候,使用PySpark去计算相关指标会节省很多的时间。网上关于使用PySpark计算相关指标的资料较少,这里抛砖引玉,写了三个风控常用的指标AUC,KS和PSI相关的计算方法,供参考。AUCAUC的相关概念网上已经有很多的很好的文章,这里不在赘述,AUC使用的到的计算公式
- 2023-02-01微软外服札记④——Spark中的那些坑...
Spark中的那些坑Spark中的那些坑前言读取配置文件时区陷阱怪异的DayOfWeeksubstring陷阱IP地址解析枚举的数值posexplode函数为什么我的程序运行那么慢?慎用Co
- 2023-01-29scala+spark把某列string类型转换dataFrame的日期,array<double>,array<string>格式
result=resdf.withColumn("Date",to_date(col("Date"),"yyyy-MM-dd")).\withColumn("arrayDouble",regexp_replace(col("arrayDouble"),"\\]","")).\withCo
- 2022-12-14把字符串数组"[0.1,0.2]"转换array<double>,把字符串数组“['2021-01-01','2021-01-02
importorg.apache.spark.sql.functions.{col,regexp_replace,to_date,udf}----把字符串数组"[0.1,0.2]"转换array<double>:frame=frame.withColumn("ArrayDoubleValu