首页 > 其他分享 >1.27学习进度

1.27学习进度

时间:2024-01-27 18:12:20浏览次数:35  
标签:jieba 指定 学习 内存 executor 分布式 1.27 进度

1.jieba库可以对中文进行分词

2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑

3.如何尽量提高任务计算的资源

计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定executor的核心

通过—num-executors指定executor数量

第五章

1.广播变量解决了什么问题

分布式集合rdd和本地集合进行关联使用的时候,降低内存占用以及减少网络IO传输,提高性能

2.累加器解决了什么问题

分布式代码执行中,执行全局累

标签:jieba,指定,学习,内存,executor,分布式,1.27,进度
From: https://www.cnblogs.com/zhangmingmkzj/p/17991749

相关文章

  • MAC地址的格式与分类(学习笔记)
    Mac地址一.明晰概念MAC地址是以太网的MAC子层所使用的地址,是设备在以太网中的物理标识,在以太网中是用来实现多媒体接入控制(MediaAccessControl也是命名的由来),如同学生的学号,校园内可以通过学号(类似于MAC地址)来找到某个唯一确定的学生。学习时的收获:在学习时尽管查阅了许多......
  • CSAPP学习笔记——Chapter10,11 系统级I/O与网络编程
    CSAPP学习笔记——Chapter10,11系统级I/O与网络编程Chapter10系统级I/O系统级I/O这一章的内容,主要可以通过这张图概括:UnixI/O模型是在操作系统内核中实现的。应用程序可以通过诸如open、close、lseek、read、write和stat这样的函数来访UnixI/O。较高级别的RIO和标......
  • 最小表示法&Manacher学习笔记+杂题
    字符串系列前言:孩子从小就自卑。四、最小表示法&Manacher学习笔记+杂题相关题单:戳我1.最小表示法最小表示法是用于解决字符串最小表示问题的方法。(1)字符串的最小表示:字符串\(s\)的最小表示为与\(s\)循环同构的所有字符串中字典序最小的字符串。循环同构指的是当字符......
  • 最小表示法&Manacher学习笔记+杂题
    字符串系列前言:孩子从小就自卑。四、最小表示法&Manacher学习笔记+杂题相关题单:戳我1.最小表示法最小表示法是用于解决字符串最小表示问题的方法。(1)字符串的最小表示:字符串\(s\)的最小表示为与\(s\)循环同构的所有字符串中字典序最小的字符串。循环同构指的是当字符......
  • (坚持每天写算法)算法复习与学习part1基础算法part1-12——双指针算法
    双指针是一种思路,很多题都可能用得到,这里我就只选取Acwing网站的三道题(事实上我最近就是在这里刷题,leetcode反而不怎么去了,刷完这个网站的我就会去leetcode刷了)双指针一般来讲会在数组有序的情况下应用,但是如果是无序的也是有可能的,两个指针会遍历整个数组(如果条件允许的......
  • 李宏毅《机器学习》总结 - Self-attention
    解决的问题:输入\(n\)个向量,输出相同个数的向量。(如,输入一个句子,输出句子中每个词的词性。每个单词转化成向量可以用one-hotvector、wordembedding方法等)一个比较初级的想法:将每个向量都连上去一个FC(fullyconnectednetwork),但是这样有个问题是,如果遇到一个句子中有两个相......
  • 1/27 学习进度笔记
    今日学习了DataFrame的代码构建--读取外部数据读取数据源包括text,csv,json,parquet四种数据源schema=StructType().add("data",StringType(),nullable=True)df=spark.read.format("text").\schema(schema=schema).\load("../data/sql/people.txt")df=......
  • 2024.1.27日报
    3.4SparkSQL应用3.4.1创建DataFrame/DataSet方式一:读取本地文件①在本地创建一个文件,有id、name、age三列,用空格分隔,然后上传到hdfs上。vim/root/person.txt12内容如下:1zhangsan202lisi293wangwu254zhaoliu305tianqi356kobe4012345......
  • (数据科学学习手札157)pandas新增case_when方法
    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,pandas在前不久更新的2.2版本中,针对Series对象新增了case_when()方法,用于实现类似SQL中经典的CASEWHEN语句功能,今天的文章中,我们就来get其具体使用方法~2......
  • springboot学习:建立springboot项目及相关注意事项
    一、建立maven项目后引入依赖:以下没有版本号的依赖表示在springboot父依赖中已锁定相应的版本号必需依赖:1.springboot父依赖<parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.5</versio......