首页 > 其他分享 >前置已了解知识梳理

前置已了解知识梳理

时间:2023-02-15 01:11:25浏览次数:58  
标签:知识 读取 前置 梳理 服务器 速度 数据 每秒 硬盘

由于在写这篇博客之前,已经接触一些Hadoop的基础知识,我先把之前所学的一些基本概念和理解分享到这里,导图如下。

 

 

 遵从着学习新知识的三大入手点(Why What How)出发。首先认识大数据先要理解 什么是 大的数据,为什么会有这项技术的诞生,有那些基本的思想,哪些具体的实现技术以及如何去部署实现的呢。

今天先从Why开始:

  • 单机处理大数据能力有限

处于一个海量数据的时代,IT工作接触最多的事就是去提取有效数据进行分析,然后为人们所用,我这边先引入一个小案例: 

有一个非常大的文本文件,里面有n行,但是只有两行完全一样,出现在了未知的位置,请问你如何去找到它们。

一般人碰到这种问题,这还不简单,写一个for循环依次针对每一行去比较,最终总会比较出结果的。

然而,当你真正接触这个问题时,远没你想的那么简单。

首先,你得理解什么是非常大的文件,可能连你那电脑1T的磁盘都不够存的,这边比如说是4个T的数据,你说我用一台服务器存,好吧,存是够了,你还要去计算呢,你还要写函数去筛选出重复行呢。现在好点的服务器有256G的内存也算是高配置了,咱们就以这个配置为例。

先要把这4T的数据存进服务器吧,先不考虑机器带宽的限制,10G网卡吧,传输理论上可以达到1.25GB/s ,普通服务器都是机械硬盘,

注:

    1. 宽带速率的计量单位通常以bps或者bit/s(比特/秒)来表示,即每秒可传输的位数,8bit(比特)=1B(字节),而存储单位通常是以 B字节 来进行表示,1024B=1KB,1024KB=1MB,1024MB=1GB,所以理论上10Gbps的带宽最大传输速率是10000Mbps/8=1250MB/s;
    2. 固态硬盘机械硬盘最大的体验差距在于4k小文件随机读取和寻道时间(可以理解为响应延时),固态硬盘读取速度一般为500MB/s,机械硬盘读写速度大概是100-200MB/s。这里的读取速度是指连续读取速度,固态硬盘在传输速度上有很大的优势,最高可达500M/秒,其中读取速度达到400-600M每秒,写入速度同样可以高达200M每秒。对于1G的文件只需几秒就可搞定,而传统的IDE硬盘读取速度极限是无法超越200M每秒,写入速度也很难突破100M每秒。
      1. 硬盘接口标准
      2. 各个磁盘阵列的性能

 

  • 结合 分而治之 思想
  • 分布式处理应运而生

 

 

标签:知识,读取,前置,梳理,服务器,速度,数据,每秒,硬盘
From: https://www.cnblogs.com/livebetter/p/12516896.html

相关文章

  • 常见音频格式的基础知识
    PCM脉冲编码调制(PulseCodeModulation),是未经压缩的音频数据裸流,它由模拟信号经过采样、量化、编码转换成的数字音频数据。PCM的文件/流中只有数据,需要参数来描述。描述P......
  • 13- 项目梳理-用户中心页面--users
    1.创建视图函数#需要处于登陆的视图,多继承:LoginRequiredMixin,ViewclassUserinfoView(LoginRequiredMixin,View):defget(self,request):#登陆-->......
  • 12- 项目梳理-登录页面--users
    1.创建视图函数,get返回页面#登陆视图classLoginView(View):#打开登录页面defget(self,request):returnrender(request,'users/login.html')......
  • 计算机基础知识
    冯.诺依曼体系结构cpu里面主要有运算器和控制器,控制器可以控制输入设备、存储器、输出设备,运算器从存储器中提取数据进行运算然后返回给存储器。计算机软件系统软件:;DOS......
  • java基础知识点(while循环、do....while循环以及while和for循环之间
    一:循环1.格式:初始化语句;      while(条件判断语句){       循环体语句;  .​     条件控制语句;}​2.eg:intx=1;//定义变量初始......
  • Redis的一些基本知识
    Redis是一种非关系型数据库,里面采取的是键值对(key-value)形式存储的。首先先下载Redis,可以去官网,也可以自己找资料。然后下好之后,要启动的话,需要在哪个安装Redis的文件夹......
  • 105、需要给产品和测试,科普的2个小知识点
    小知识1、“demo14626)--” 这种,都是 给用户展示的文案。程序之间的交互,  都是用 数字id,cas名等 唯一的编号。  展示文案和风格,是 灵活多变的 2、xx列表漏掉了1个......
  • 月薪20k以上的软件测试工程师的必备知识点?全部拿走吧!
    我们都知道作为一个软件测试工程师,入门相对比较简单,但是要达到技术精通,甚至薪资能达到20k以上的话,那绝对需要对测试开发有一个系统的了解,以及对这些系统的知识能够熟练掌握......
  • 生草——网络流知识点等梳理
    服了,看来只写题解不系统总结的博客并不能十分有效地提高对知识点的理解程度。还是得回归到以前既总结知识本身,又写题解的形态。否则就会落到今天这个下场——知识点大量遗......
  • Linux知识点
    Linux虚拟化所需工具:https://pan.baidu.com/s/1643-kYcx9oPGnGEZM1pLOw?pwd=g0v5提取码:g0v5基础包#解决在7的版本中没有ifconfig命令,加上-y不用手动确认yuminstall......