[Spark streaming举例]-- 统计一段时间内的热搜词

时间：2022-11-03 14:32:38浏览次数：44

标签：val RDD -- -------------- streaming window println Spark ssc

如下

package com.my.scala

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Durations, StreamingContext}

/**
  *
  * 使用开窗函数实现spark streaming，版本统计一段时间内前三的热搜词汇
  *
  * 测试结果：测试成功
  * 步骤：    先开启hadoop集群，start-all.sh
  *           再在h15上启动端口：nc -lk 8888
  *           再输入数据：如---》"ds sdf sdfa wfasd sdf",一定要以空格分开
  *           启动本程序
  *           查看控制台是否正常
  *           
  */
object WindowBasedTopWord {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WindowBasedTopWord").setMaster("local[2]")
    val ssc = new StreamingContext(conf,Durations.seconds(5)) //这里的5秒是指切分RDD的间隔
    ssc.checkpoint("hdfs://h15:8020/wordcount_checkpoint") //设置docheckpoint目录,没有会自动创建


    val words = ssc.socketTextStream("h15",8888)           //可以从kafka集群中获取信息
    val pairs = words.flatMap(_.split(" ")).map(x => (x,1))
    pairs.foreachRDD(rdd => {
      println("--------------split RDD begin--------------")
      rdd.foreach(println)
      println("--------------split RDD end--------------")
    })
    /*
    reduceByKeyAndWindow(reduceFunc,invReduceFunc,windowDuration,slideDuration)
    reduceFunc：用于计算window框住的RDDS
    invReduceFunc：用于优化的函数，减少window滑动中去计算重复的数据，通过“_-_”即可优化
    windowDuration：表示window框住的时间长度，如本例5秒切分一次RDD，框20秒，就会保留最近4次切分的RDD
    slideDuration：表示window滑动的时间长度，即每隔多久执行本计算


    本例5秒切分一次RDD，每次滑动10秒，window框住20秒的RDDS，即：每10秒计算最近20秒切分的RDDS，中间有10秒重复，
    通过invReduceFunc参数进行去重优化
     */
    val pairsWindow = pairs.reduceByKeyAndWindow(_+_,_-_,Durations.seconds(20),Durations.seconds(10))
    val sortDstream = pairsWindow.transform(rdd => {
      val sortRdd = rdd.map(t => (t._2,t._1)).sortByKey(false).map(t => (t._2,t._1))  //降序排序
      val more = sortRdd.take(3)  //取前3个输出
      println("--------------print top 3 begin--------------")
      more.foreach(println)
      println("--------------print top 3 end--------------")
      sortRdd
    })
    sortDstream.print()


    ssc.start()
    ssc.awaitTermination()
  }
}

标签：val,RDD,--,--------------,streaming,window,println,Spark,ssc
From： https://blog.51cto.com/u_13966077/5819859

[Java基础]-- servlet调用Url传输文件或者字符串
实例：A和B两台服务器之间传输log文件或者其他文件，如果成功就返回字符串"1";如果失败则返回"0"1、发送log文件和字符串参数的servletmportjava.io.Buffere......
[Java web]-- jquery设置元素成为disabled
对元素应用disabled和readonly属性的方法，如下： 1.readonly属性举例 $('input').attr("readonly","readonly"); //将input元素设置为readonly ......
[Spark streaming举例]-- 实时统计并且存储到mysql数据库中
举例packagecom.scala.myimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.Durationsimportorg.apache.spark.streaming.StreamingContext/****@......
[scala基础]--拆分List操作
运行环境：Jdk1.7、scala-2.10.4packagestudy/***Document:本类作用---->拆分List*User:yangjf*Date:2016/8/148:57*/objectTestArrays{defmain(args:A......
[ElasticSearch基础]-- elasticsearch安装
基本架构#h15 kibala +marvel+elasticsearch#h16 elasticsearch+marvel#h17 elasticsearch+marvel 1. 准备文件：elasticsearch-2.2.0.tar.gz、kibana-4.4.1-linu......
app直播源代码，Extjs Grid自动换行
app直播源代码，ExtjsGrid自动换行定义列的时候加个renderer，例 Js代码 { header:'序号', dataIndex:'ind', ......
496 下一个更大的元素 |
题目496下一个更大的元素|nums1中数字x的下一个更大元素是指x在nums2中对应位置右侧的第一个比x大的元素。给你两个没有重复元素的数组nums1和nu......
并发编程之ThreadLocal
并发编程之ThreadLocal前言当多线程访问共享可变数据时，涉及到线程间同步的问题，并不是所有时候，都要用到共享数据，所以就需要线程封闭出场了。数据都被封闭在各自的线程之......
452.minimum-number-of-arrows-to-burst-balloons 用最少数量的箭引爆气球
问题描述452.用最少数量的箭引爆气球解题思路首先，按照$x_start$从小到大的顺序排序，然后开始分析需要的弓箭数。if(points[i][0]>points[i-1])，说明两个气球不存......
Segmentation 2 -- usage
ThesegmentationmechanismsupportedbytheIA-32architecturecanbeusedtoimplementawidevarietyof systemdesigns.Thesedesignsrangefromflatmodel......

[Spark streaming举例]-- 统计一段时间内的热搜词

相关文章

赞助商

阅读排行