首页 > 其他分享 >【豆瓣9.1】《大数据处理框架Apache Spark设计与实现(全彩)》PDF

【豆瓣9.1】《大数据处理框架Apache Spark设计与实现(全彩)》PDF

时间:2024-01-25 22:31:48浏览次数:28  
标签:框架 数据处理 华为 全彩 应用 Apache PDF Spark

【豆瓣9.1】《大数据处理框架Apache Spark设计与实现(全彩)》PDF_系统软件

内容简介

近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。

第一部分 大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。

第二部分 Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。

第三部分 典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分 大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。

作者简介

许利杰

现任中国科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作,已在国际权威会议如VLDB、ICDCS、IPDPS、ICAC等发表论文10余篇,主持多项国家自然科学基金,以及华为、京东、联想等企业的合作研发项目。

曾为Apache Spark和Hadoop修复多个内核代码严重错误,编写的SparkInternals技术文档被社区广泛关注,获得四千多颗星。

博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任中国计算机学会系统软件专委会委员、中国科学院青年创新促进会会员。

方亚芬

现任中国科学院软件研究所工程师,于南开大学获得学士学位、中科院软件所获得硕士学位。

当前主要从事大数据系统、操作系统方面的研发工作,参与多项国家自然科学基金、国家重点研发计划,以及华为、腾讯、中国邮政等企业的合作研发项目。

曾在阿里巴巴等担任客座研究学生,目前是华为openEuler社区树莓派项目负责人。

【豆瓣9.1】《大数据处理框架Apache Spark设计与实现(全彩)》PDF_大数据处理_02


标签:框架,数据处理,华为,全彩,应用,Apache,PDF,Spark
From: https://blog.51cto.com/u_16507590/9421173

相关文章

  • Pdfium.Net.Free 一个免费的Pdfium的 .net包装器--PDF预览器框选
    项目地址:Pdfium.Net:https://github.com/1000374/Pdfium.NetPdfiumViewer:https://github.com/1000374/PdfiumViewer框选PDF坐标及区域内文字:关键代码://选中区域的坐标转成相对于pdf的坐标varpoint1=this.PointToPdf(newPoint(_currRect.X,_currRect.Y));varpoint2=......
  • Pdfium.Net.Free 一个免费的Pdfium的 .net包装器--打开大文件处理
    项目地址:Pdfium.Net:https://github.com/1000374/Pdfium.NetPdfiumViewer:https://github.com/1000374/PdfiumViewerPDFium支持打开文件支持传入文件流加载PDF到内存流(此种方式不占用文件):varstream=newMemoryStream(File.ReadAllBytes(fileName));vardoc=PdfDocumentGdi.......
  • Pdfium.Net.Free 一个免费的Pdfium的 .net包装器--快速入门
    Pdfium.Net.Free支持.NETFramework4.0.NETFramework4.5.NETStandard2.0可以和PdfiumViewer.Free共同使用预览pdf,也可以直接引用Pdfium.Net.Free操作pdf,解决部分.NetCore调用的问题,Pdfium.Net.Free封装了现有Pdfium的函数,实现了部分操作pdf的功能,部分功能等待后......
  • 17 位社区大咖寄语,Seata 进入 Apache 孵化器
    北京时间2023年10月29日,分布式事务开源项目Seata正式通过Apache基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!根据Apache基金会邮件列表显示,在包含13个约束性投票(bindingvotes)和6个无约束性投票(non-bindingvotes)的投票全部持赞同意见......
  • 基于Apache PDFBox的PDF数字签名
    在Java语言环境中完成数字签名主要基于itext-pdf、PDFBox两种工具,itext-pdf受商业限制,应用于商业服务中需要购买授权。PDFBox是apache基金会开源项目,基于apache2.0开源协议,不受商业限制,开发者可放心使用。以下是基于PDFBox的数字签名源码,使用该源码可使用PDFBox对PDF格式的文件进行......
  • 基于Apache PDFBox的PDF数字签名
    在Java语言环境中完成数字签名主要基于itext-pdf、PDFBox两种工具,itext-pdf受商业限制,应用于商业服务中需要购买授权。PDFBox是apache基金会开源项目,基于apache2.0开源协议,不受商业限制,开发者可放心使用。以下是基于PDFBox的数字签名源码,使用该源码可使用PDFBox对PDF格式的文件进......
  • 数据结构与算法 pdf下载
    《数据结构与算法》涉及计算机中数据的组织、重组、移动、使用和提取等操作方法,及相关的数学分析。《数据结构与算法》所选的主题基于以下几个朴素的原则。第一,本书只讲解实用的技术,而忽略一些理论上非常虽然出色、但不太实用的算法。第二,本书既包含经典的方法,也包括最近发现的......
  • 除了Adobe之外,还有什么方法可以将Excel转为PDF?
    前言Java是一种广泛使用的编程语言,它在企业级应用开发中发挥着重要作用。而在实际的开发过程中,我们常常需要处理各种数据格式转换的需求。今天小编为大家介绍下如何使用葡萄城公司的的JavaAPI组件GrapeCityDocumentsforExcel(以下简称为GcExcel)将ExcelXLSX文件转换为PDF。......
  • 【专题】2023年中国工业机器人行业研究报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=34144原文出处:拓端数据部落公众号仿生机器人作为一类结合了仿生学原理的机器人,具备自主决策和规划行动的能力,正逐渐进入大众视野。它们的核心技术要素包括感知与认知技术、运动与控制技术、人机交互技术和自主决策技术。阅读原文,获取专题报告合集......
  • 《设计模式:可复用面向对象软件的基础》PDF
    内容简介本书结合设计实例从面向对象的设计中精选出23个设计模式,总结了面向对象设计中*有价值的经验,并且用简洁可复用的形式表达出来。本书分类描述了一组设计良好、表达清楚的软件设计模式,这些模式在实用环境下特别有用。本书适合大学计算机专业的学生、研究生及相关人......