首页 > 其他分享 >【热词分析】

【热词分析】

时间:2024-06-21 09:33:05浏览次数:19  
标签:分析 10 01 val 热词 搜索词 2019 date

文章目录


前言

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。
要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。

`

一、项目要求

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。
要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。

二、数据集

2019-10-01,tom,小吃街
2019-10-01,jack,谷歌浏览器
2019-10-01,jack,小吃街
2019-10-01,look,小吃街
2019-10-01,steven,烤肉
2019-10-01,lojas,烤肉
2019-10-01,look,小吃街
2019-10-02,marry,安全卫士
2019-10-02,tom,名胜古迹
2019-10-02,marry,安全卫士
2019-10-02,leo,名胜古迹
2019-10-03,tom,名胜古迹
2019-10-03,leo,小吃街

三、代码

hadoop集群启动: sbin/start-all.sh
spark启动:   sbin/start-all.sh
val d1 = spark.read.textFile("hdfs://192.168.10.3:9000/input/keywords.txt")

d1.show() 

case class kw(date:String,name:String,address:String)

val kwDataset = d1.map(line=>{
          val fields = line.split(",")
          val date = fields(0)
          val name = fields(1)
          val address = fields(2)
           kw(date,name,address)
          })

kwDataset.show() 

val pdf = kwDataset.toDF()

pdf.createTempView("v_shuju")

val result = spark.sql("select date,address,COUNT(*) AS count from (SELECT DISTINCT date ,name,address FROM v_shuju) GROUP BY date,address")

result.show()

result.createTempView("v_shuju2")

val result1 = spark.sql("select * from v_shuju1 order by date)

result1.show()

标签:分析,10,01,val,热词,搜索词,2019,date
From: https://blog.csdn.net/m0_66301161/article/details/139796369

相关文章

  • 深度分析:React Native、Flutter、UniApp、Taro、Vue的差异
    深度分析:ReactNative、Flutter、UniApp、Taro、VueReactNative优势:跨平台代码共享:使用JavaScript和React,可以为iOS和Android开发应用,代码复用率高。活跃社区和生态系统:React和ReactNative有庞大的社区,提供了大量的第三方库和插件。热重载:开发效率高,修改代码后几乎......
  • 一封伪造电子发票的邮件攻击事件分析
    一、事件简述4月6日,收到一份邮件,来自名为:云发票<info@kiidger.cn>的邮件,主题为:***账户支取发票,邮件内容称寄来开具的充值电子发票,具体内容如下:尊敬的用户***你好您于2023年4月6日开具的充值电子发票,票据信息如下:開票日期:2023年4月6日發票金额:150.00¥发票代碼:1440......
  • 如何使用GPT_Vuln-analyzer并利用ChatGPT来进行网络安全分析
    关于GPT_Vuln-analyzerGPT_Vuln-analyzer是一款基于人工智能技术实现的网络安全工具,该工具能够演示如何使用人工智能技术为漏洞分析生成准确的结果。该工具使用了当前炙手可热的ChatGPT API,以及Python Nmap和DNS Recon模块,并使用了GPT3模型基于Nmap扫描数据和DNS扫描信息......
  • 通过盗版系统镜像资源传播的剪贴板劫持器分析
    概览近期,安天CERT监测到通过镜像下载站传播的攻击活动。攻击者将Torrent资源投放至Windows操作系统镜像下载站中,诱导用户安装使用看似纯净的系统。实际上,攻击者事先将恶意文件隐藏于指定路径中,通过计划任务实现自启动,并利用EFI系统分区规避安全产品的检测,最终执行剪贴板劫持器......
  • 经典病毒上线流量分析-Lokibot
    一、概述Lokibot于2015年面世,持续活跃至今,是一种高度危险且隐匿的恶意软件,旨在窃取受害主机的敏感信息,包括存储的密码、浏览器登录凭据以及加密货币钱包等,并将这些信息上送到远程C2服务器上。本文将重点针对Lokibot家族的上线包进行分析,让读者可以更深入了解经典病毒Lokibot的......
  • RapidLayout:中英文版面分析推理库
    引言继上一篇文章之后,我这里想着将360发布的版面分析模型整合到现有的rapid_layout仓库中,便于大家快速使用。不曾想到,我这整理工作越做越多了,好在整体都是往更好方向走。起初,rapid_layout项目是在RapidStructure仓库下的。RapidStructure仓库包含三大块:文档方向分类、版面分析......
  • cesium中如何高性能渲染3D模型(附水淹分析模拟)
    大家好,我是日拱一卒的攻城师不浪,专注可视化、数字孪生、前端、nodejs、AI学习、GIS等学习沉淀,这是2024年输出的第18/100篇文章;前言之前在参加城市应急数字孪生项目开发过程中,遇到一个场景,就是模拟水淹分析。也就是说,甲方需要根据你这个平台,在下暴雨的时候,精准监测到城......
  • 【决战欧洲之巅】丹麦 vs 英格兰战术分析和球员状态以及走地数据分析
    丹麦vs英格兰战术分析和球员状态阵型与战术丹麦:阵型:丹麦通常采用4-3-3阵型,以因防守为基础,同时通过快速反击等找机会。”战术:防守:丹麦在防守时以紧密的四后卫体彩为核心,辅以中场球员的积极回防,形成稳因的防线。·进攻:依赖边路突破和快速传递,利用前锋尤素福波尔......
  • 深入分析Edge浏览器的插件兼容性:拥抱开放网络生态
    微软Edge浏览器自推出以来,一直在积极扩展其插件生态系统,以提高用户的浏览体验。插件兼容性是Edge浏览器用户体验的关键因素之一,它决定了用户能够无缝使用多少现有的Chrome扩展。本文将深入探讨Edge浏览器的插件兼容性,分析其优势、挑战以及未来的发展方向。1.插件兼容性的......
  • java的CC1链分析与利用
    CC1链子分析CommonsCollections简介ApacheCommonsCollections是一个扩展了Java标准库里的Collection结构的第三方基础库,它提供了很多强有力的数据结构类型并实现了各种集合工具类。作为Apache开源项目的重要组件,被广泛运用于各种Java应用的开发。环境配置jdk版本:jdk8......