首页 > 其他分享 >大数据基础-测试方法

大数据基础-测试方法

时间:2023-03-06 13:12:36浏览次数:41  
标签:验证 系统 基础 文件系统 测试 数据 节点 测试方法

一、功能性测试

大数据功能主要涉及系统实现面向大数据分析应用的POSIXAPI,包括文件读取与访问控制,元数据操作,锁操作等功能;大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点;功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。 在多个节点上处理大数据的过程中,存在由于‘无用数据’和数据质量问题带来的各种问题。大数据功能测试主要用以识别由于编码错误或节点配置错误带来的数据问题。 其包括以下几个阶段: a、数据导入/预处理验证阶段 根据具体的应用背景和业务需求,各种数据源如网络日志,物联网,社会网络及互联网文本和文件等被按需加载到HDFS中待处理。在这个过程可能会由于不正确或不复制,存储而导致的错误数据,对于这种情况,可采用以下方式进行测试:
  1. 输入文件与源文件进行比对,保证数据的一致性;
  2. 根据数据需求来保证获取数据的准确性;
  3. 验证文件被正确的加载进HDFS,且被分割,复制到不同的数据节点中。
b、MapReduce数据输出验证阶段 当数据加载进行HDFS后,mapreduce开始对来自不同数据源的数据进行处理。在这个过程中可能会出现mapreduce处理过程中的编码问题,如在单一节点上运行正确,在多个节点上运行不正确的问题,包括不正确的聚合,节点配置,输出格式等。针对于这个阶段的问题,可采用以下验证手段:
  1. 验证梳理数据处理正常完成,输出文件正常得到;
  2. 在单个节点上验证大数据的业务逻辑,进而在多节点上进行相同验证;
  3. 验证mapreduce处理过程的key/value对是否正确生产;
  4. 在reduce过程结束后验证数据的聚集合并是否正确;
  5. 通过源文件验证输出数据来保证数据处理正确完成;
  6. 按照大数据业务所需,验证输出数据文件格式是否符合要求。
c、验证大数据ETL到数据仓库 当mapreduce过程结束后,产生的数据输出文件讲被按需移至数据仓库或其它的事务型系统.在此过程中,可能会由于不正确地应用转换规则,从HDFS中提取的数据不完全而带来问题。针对于这个阶段的问题可采用以下方法:
  1. 验证转换规则是否正确应用;
  2. 通过比较目标表数据和HDFS文件数据来验证是否有数据损坏;
  3. 验证目标系统数据加载是否成功;
  4. 验证目标系统的数据完整性。
d、验证分析报告 从数据仓库或者hive中得到的数据,可通过报表工具得到分析报告;这个过程可能会产生报表定义不能达到要求的报表数据问题;在这个过程中可通过查询来验证报表是否满足业务要求。

二、非功能性测试

由于大数据面向具体行业的应用,除了功能性测试,在整个大数据处理框架下需要进行非功能性测试,以下几种; a、性能测试 性能是评估一个大数据分析系统的最为关键的维度,大数据系统性能主要包括吞吐量,任务完工时间,内存利用率等多个指标,可反应大数据分析平台的处理能力,资源利用能力等性能。可通过hadoop性能监控器来监测运行状态性能指标和瓶颈问题,性能测试采用自动化化方式进行,测试系统在不同负载情况下的性能。 b、容错性测试 可从部分失效中自动恢复,而且不会验证的影响整体性能,特别地,当故障发生时,大数据分析系统应该在进行恢复的同时继续以可接受的方式进行操作,在发生错误时某种程度上可以继续操作,需根据应用场景来设计解决方案和具体部署,然后手动测试。 c、可用性测试 高可用性已是大数据分析不可或缺的特性之一,从而保证数据应用业务的连续性.大数据高可用性对很多应用非常关键,需要严格进行测试和验证,以手动测试为主。 d、扩展性测试 弹性扩展能力对于大数据时代的文件系统尤其重要,文件系统扩展性测试主要包括测试系统弹性扩展能力(扩展/回缩)及扩展系统带来的性能影响,验证是否具有线性扩展能力,以手动测试为主。 e、稳定性测试 大数据分析系统通常是不间断长期运行,稳定性的重要性不言而喻,稳定测试主要验证系统在长时间(7/30/180/365*24)允许下,系统是否仍然能够正常运行,功能是否正常.稳定性测试通常采用自动化方式进行,LTP,10ZONE,POSTMARK,FIO等工具对测试系统产生负载,同时需要验证功能。 f、部署方式测试 大数据具备scale-out的特点,能够构建大规模,高性能的文件系统集群。针对不同应用和解决方案,文件系统部署方式会有显著不同;部署方式测试需要测试不同场景下的系统部署方式,包括自动安装配置,集群规模,硬件配置(服务器,存储,网络),自动负载均衡等,这部分测试不大可能进行自动化测试,需要根据应用场景来设计解决方案和具体部署,再进行手动测试。 g、数据一致性测试 这里的数据一致性是指文件系统中的数据与从外部写入前的数据保持一致,即写入数据与读出数据始终是一致的.数据一致性能够表明文件系统可保证数据的完整性,不会导致数据丢失或数据错误,这是文件系统最基本的功能,测试可用diff,md5sum编写脚本自动化测试,LTP也提供了数据一致性的测试工具。 h、压力测试 大数据分析系统的负载能力是存在上限的,系统过载时,系统就可能存在性能下降,功能异常,拒绝访问等问题。压力测试是验证系统造大压力下,包括数据多客户端,高OPS压力,高IOPS/吞吐量压力,系统是否仍然能够正常运行,功能是否正常,系统资源消耗情况,从而为大数据运营提供依据。

标签:验证,系统,基础,文件系统,测试,数据,节点,测试方法
From: https://www.cnblogs.com/sgzslg/p/17183313.html

相关文章

  • axios如何在往后端发送数据后,立即更新列表
    在使用axios往后端发送数据后,如果需要立即更新列表,可以使用以下方法:1.在发送数据成功后手动更新列表在发送数据成功后,手动触发列表的更新。例如,在Vue组件中,可以在发......
  • 【前端】一个更底层库-React基础知识
    (目录)这一篇学习React知识点。分别从属性状态和相关API了解一下。属性状态属性状态要知道这几个PROPS,PROPVALIDATION,STATE。PROPS通过this.props可以获取传递给该......
  • 大数据基础-测试过程
    一、大数据: 大数据是一个大的数据集合,通过传统的计算技术无法处理。这些数据集的测试需要用各种工具、技术、框架进行处理。大数据涉及数据创建,存储、检索、分析,而且......
  • Uoj228 基础数据结构练习题
    Uoj228最开始好像是在那个区间加区间\(\text{popcount}\)的题里看到有人提到这个题,就来写下。离联合省选还有26天,发了一上午呆。题意区间加区间开根区间和\(n,......
  • 嵌入式开发常用数据类型
    typedefsignedcharint8_t;//8位有符号整数typedefunsignedcharuint8_t,flag;//8位无符号整数、布尔标志typedefsignedshortint16_t;/......
  • 《数据万象带你玩转视图场景》第一期:avif图片压缩详解
    前言随着硬件的发展,不管是手机还是专业摄像设备拍出的图片随便可能就有几M,甚至几十M,并且现在我们处于随处可及的信息海洋里,海量的图片带来了存储问题、带宽问题、加载时延......
  • 设计数据库
    1、规范数据库设计1.1、为什么需要要设计数据库当数据库比较复杂的时候,我们就需要设计了糟糕的数据库设计:数据冗余,浪费空间数据插入和删除都会麻烦、异常【屏蔽使用......
  • MySql 清理两张表的死数据
    1、mysql如何两个表取差集_mysql查询两张表的差集SELECT*FROMym_message_internalwheretreatment_idin(SELECTa.treatment_idFROMym_message_internalal......
  • 第一章 C语言:数据存储
    一、大小端存储大端存储:数据的低位字节存储在高地址小端存储:数据的低位字节存储在低地址不同编译器有不同的存储方式inta=10;char*p=(char*)&a;printf(......
  • DockQuery x 达梦 国产数据库生态“加速跑”
    「数字化」是当今社会最先进和最具穿透力的生产力,近十年里开展着气势磅礴的发展。而信创产业则是保障中国经济数字化转型平稳健康发展的基础。随着信创产业规模不断扩大,国......