首页 > 其他分享 >spark core案例二:清洗过滤

spark core案例二:清洗过滤

时间:2022-08-26 23:11:07浏览次数:51  
标签:core String val RDD 过滤 IP地址 sc spark

  • 题目描述
/**
 * 用户的行为日志数据清洗过滤
 *    网站的独立访客数:一个唯一的IP地址就是一个独立访客
 *    1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD
 *    2、RDD中重复的IP去重
 *    3、RDD中的累加值
 */
  • 案例
object A2DataAnaly {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf().setAppName("demo02").setMaster("local[3]")
    val sc:SparkContext = new SparkContext(sparkConf)

    val value: RDD[String] = sc.textFile("hdfs://node1:9000/dc")
    val ip = value.map((line: String) => {
      val str = line.split(" ")
      (str(0), 1)
    })
    val ipAll: RDD[(String, Int)] = ip.distinct()
    println(ipAll.count())
    sc.stop()
  }
}

标签:core,String,val,RDD,过滤,IP地址,sc,spark
From: https://www.cnblogs.com/jsqup/p/16629519.html

相关文章

  • 乘风破浪,遇见最佳跨平台跨终端框架.Net Core/.Net生态 - 超前预编译AOT和即时编译JIT
    什么是即时编译JIT在计算机领域,即时编译(JustInTime,JIT)(也是动态编译或运行时编译)是一种执行计算机代码的方式,它涉及在程序执行期间(运行时)而不是在执行之前进行编......
  • EFCore先DBFirst,再CodeFirst(针对老项目迁移)
    参照文章:CodeFirst命令介绍:Scaffold-DbContext命令使用-跟着阿笨一起玩.NET-博客园(cnblogs.com)整体流程介绍:NetCore中EFcore的DbFirst和CodeFirst混合使用注......
  • sparksql概念补充
    Spark-sql概念补充基本概念        SparkSQL是基于RDD的,可以通过Schema信息来访问其中某个字段        RDD处理的不是结构化数据,所以不能进行类似HIve......
  • 中英文敏感词过滤API推荐
    敏感词库,包含中英文,当你输入的文本中含有敏感词,将会用特殊符号代替。现在基本上所有的网站都需要设置敏感词过滤,似乎已经成了一个网站的标配,如果你的网站没有,或者你没有做......
  • Spark-core概念补充
    Spark-core概念补充Spark相对于hadoop的优势        1.减少IO(如非必要不落盘)        2.并行度(多线程)        3.中间结果持久化(多次使用)......
  • SparkCore系列(四)函数大全
    有了上面三篇的函数,平时开发应该问题不大了。这篇的主要目的是把所有的函数都过一遍,深入RDD的函数RDD函数大全数据准备        val sparkconf = new Spa......
  • .net core 压缩数据、用户响应压缩
    https://docs.microsoft.com/zh-cn/aspnet/core/performance/response-compression?view=aspnetcore-6.0 varbuilder=WebApplication.CreateBuilder(args);builder.......
  • 关于我在.net core6时JWT 出现错误:IDX10653
      IDX10653:Theencryptionalgorithm'System.String'requiresakeysizeofatleast'System.Int32'bits.Key'Microsoft.IdentityModel.Tokens.Symmetr......
  • pySpark RDD基本用法
    pySparkRDD基本用法RDD的全称是:ResilientDistributedDataset(弹性分布式数据集),它有几个关键的特性:RDD是只读的,表示它的不可变性。可以并行的操作分区集合上的所有元......
  • 使用Azure DevOps 进行 docker .net core 自动部署
    下载代理代理服务器池的作用用于CI也可以用于CD主要用于编译打包部署的话使用部署池当前下载到本地了https://vstsagentpackage.azureedge.net/agent/2.188.4/vsts-......