首页 > 其他分享 >第2章-数据的表示和运算

第2章-数据的表示和运算

时间:2023-05-07 21:23:16浏览次数:37  
标签:表示 阶码 真值 运算 尾数 浮点数 移码 数据 规格化

2.3 浮点数的表示和运算

1.浮点数尾数的表示

1.阶码(E):

反映数值大小;

反映浮点数的表示范围及小数点的实际位置;

常用补码或移码表示的定点整数;

2.尾数(M):

反映精度;常用原码或补码表示的定点小数

浮点数的真值:N=R^E×M,阶码的底(称为基数)R通常为2

例:若阶码和尾数均用补码表示,求a,b的真值

a=0,01;1.1001 (分号前的是阶码,分号后的是尾数,逗号前面的是符号位)

b=0,10;0.01001

a: 阶码:+1,尾数=-0.0111(二进制)

b: 阶码:+2,尾数=+0.01001(二进制)

a的真值为-0.0111×2=-0.111

b的真值为+0.01001×2^2=+1.001

×2的几次就相当于小数点向右移几位

2.浮点数尾数的规格化

上述例子中b的尾数为+0.01001,在存储时可以存储为0 01001,第一个0是符号位,若只能存储5位,最后一位就会丢失;可以考虑规格化让它的精度更高

此时符号位后第一位是无效位,可以让尾数算术左移一位,阶码减一,此时最高位就是有效位,这就叫作左规

1.规格化浮点数尾数要求:

规定尾数的最高数值位必须是一个有效值

2.左规:

当浮点数运算的结果为非规格化时要进行规格化处理,将尾数算术左移一位,阶码减1

3.右规:

当浮点数运算的结果,尾数出现溢出(双符号位为01或者10)时,将尾数算术右移1位,阶码加1

例:a=010;00.1100, b=010;00.1000,求a+b

a=22×00.1100,b=22×00.1000

a+b=2^2×(00.1100+00.1000)

​ =2^2×01.0100 (此时需要右规)

​ =2^3×00.1010

注:采用“双符号位”,当溢出发生时,可以挽救。更高的符号位是正确的符号位

3.规格化浮点数的特点

1.用原码表示的尾数进行规格化:

正数为0.1XX…X的形式,其最大值表示为0.11…1;最小值表示为0.10…0

尾数的表示范围为1/2≤M≤(1-2^(-n))

负数为1.1XX…X的形式,其最大值表示为1.10...0;最小值表示为1.11...1。 这个前面的1是符号位

尾数的表示范围为-(1-2^(-n))≤M≤-1/2

2.用补码表示的尾数进行规格化:

正数为0.1XX…X的形式,其最大值表示为0.11…1;最小值表示为0.10…0

尾数的表示范围为1/2≤M≤(1-2^(-n))

负数为1.0XX…X的形式,其最大值表示为1.01...1;最小值表示为1.00...0。 这个前面的1是符号位

尾数的表示范围为-1≤M≤-(1/2+2^(-n))

例:某浮点数的阶码、尾数用补码表示,共4+8位:

0.110;1.1110100如何规格化?(注:补码算术左移,低位补0;补码算术右移,高位补符号位)

解:因为给出的尾数是负数,只能对其进行算术左移,因为如果右移,补的是1,无法满足补码规格化的要求;

于是就进行左移三位,变成1.0100000;左移三位相当于扩大三位,所以阶码要减3,原来是0.110是6,减3就为0.011

3.浮点数的表示范围

负上溢|可表示的负数| 负下溢 |||||| 正下溢 |可表示的正数|正上溢

若阶码为3位,那么阶码最小为-4,若尾数为0.1那么最小的正数就为0.00001,如果要表示的数比这个还小,就出现了正下溢

如果出现正下溢和负下溢的情况,一般会把这种情况当作机器数的0进行处理

如果出现正上溢或负上溢的情况,会抛出一个异常或者中断,和后面的中断知识会有所联系

4.IEEE754标准

1.移码

移码:在补码的基础上将符号位取反。注:移码只能用于表示整数

移码的定义:移码=真值+偏置值;偏置值一般取2(n-1),也可以取其他值,例如2(n-1)-1

例:若有8位数来表示一个值,此时的偏置值为2^7=128=1000 0000B

真值=-127=-111 1111B 移码=1000 0000+(-111 1111)=0000 0001

真值=-3=-11B 移码=1000 0000 +(-11B)=0111 1101

不同的偏置值会对应不同的移码

image-20230429123422766

真值-128=-1000 0000B

移码=-1000 0000+0111 1111=1111 1111 ;会向更高位借一位(?)

2.IEEE 754标准

格式:ms(数符) || E(阶码,用移码表示)||M(尾数部分,用原码表示)

Ms(数符) E(阶码,用移码表示) M(尾数部分,用原码表示)

浮点数格式

短浮点数(单精度浮点数);长浮点数(双精度浮点数)

类型 数符(位数) 阶码(位数) 尾数数值(位数) 总位数 偏置值(HEX) 偏置值(DEC)
短浮点数(float) 1 8 23 32 7FH 127
长浮点数(double) 1 11 52 64 3FFH 1023
临时浮点数(long double) 1 15 64 80 3FFFH 16383

偏置值为2^(n-1)-1,阶码真值=移码-偏移量;计算真值时,可以将移码当作无符号数直接减去偏置值

尾数部分隐藏表示最高位的1,表示尾数为1.M

8位阶码的正常范围为-126-127,阶码全1和全0其他用处

规格化的短浮点数的真值:(-1)s×1.M×2(E-127)

规格化的长浮点数的真值:(-1)s×1.M×2(E-1023)

例1:将十进制数-0.75转换为IEEE 754的单精度浮点数格式表示。

解:(-0.75)D=(-0.11)B=(-1.1)B×2^(-1)

数符=1

尾数部分=.100000.....(隐含最高位为1

阶码真值=-1,偏置值为127

移码=-1+127=126=0111 1110B

故-0.75为 1 01111110 1000...(共32位,尾数23位)

例2:IEEE 754的单精度浮点数C0 A0 00 00 H的值是多少

C0 A0 00 00 H -->> 1100 0000 1010 0000 0000 0000 0000 0000

数符:1 阶码:10000001 尾数:010 0000 0000 0000 0000 0000

数符为1表示是一个负数;尾数部分是.0100......(隐含最高位为1)说明真值=(1.01)B

移码为10000001,看作无符号数是129D

阶码真值=移码-偏置值=129-127=2D

故浮点数的真值=(-1.01)B×2^2=-1.25×4=-5.0

3.IEEE 754标准的表示范围

单精度浮点型能够表示的最小绝对值和最大绝对值

最小绝对值:尾数全为0,阶码最小值为-126,对应移码机器数为0000 0001,此时整体的真值为(1.0)B×2^(-126)

最大绝对值:尾数全为1,阶码最大值为127,对应移码机器数为1111 1110,此时整体的真值为(1.11...11)B×2^(127)

格式 规格化的最小绝对值 规格化的最大绝对值
单精度 E=1,M=0: 1.0×2(1-127)=2(-126) E=254,M=.11...1: 1.11...1×2(254-127)=2127×(2-2^(-23))
双精度 E=1,M=0: 1.0×2(1-1023)=2(-1022) E=2026,M=.11...1: 1.11...1×2(2026-1023)=21023×(2-2^(-52))

上面表格中的这个阶码,是把它当作无符号数时的值,下面也是把E当作无符号数时候的值

阶码全为0的特殊情况:

(1)阶码E全为0,尾数M不全为0,表示非规格化的小数±(0.XX...XX)×2^(-126)

(2)阶码E全为0,尾数M全为0,表示真值±0(根据数符位决定是正0还是负0)

在(1)中和规划化小数不同的就是隐含最高位为0,并且阶码真值固定为-126

只有1≤E≤254时,真值=(-1)s×1.M×2(E-127)

阶码全为1的特殊情况:

(1)阶码E全为1,尾数M全为0,表示无穷大±∞, ----当运算结果出现正上溢负上溢的时候,机器通常会把结果记为正无穷或者负无穷

(2)阶码E全为1,尾数M不全为0,表示非数值“NaN”(Not a Number) ----如:0/0,∞-∞等非法运算的结果就是NaN

4.总结

由浮点数确定真值(阶码不全为0也不全为1):

  1. 根据“这个浮点数”确定数符,阶码,尾数的分布
  2. 确定尾数1.M(注意补充最高位隐含的1)
  3. 确定阶码的真值=移码-偏置值(可将移码看作无符号数,用无符号数的值-偏置值)
  4. (-1)s×1.M×2(E-偏置值)

5.浮点数的加减运算

1.浮点数加减运算步骤

(1)对阶(小阶对大阶)

为什么是小阶对大阶?如果是大阶对小阶的话,小数点前面可能不止一位,用计算机去表示这样的一个数会比较麻烦

(2)尾数加减

(3)规格化

(4)舍入

为什么需要舍入:因为在计算机中浮点数存储位数是有限制的,所以尾数的位数也是有限制的,当尾数加减后的结果超出尾数位数的限制时,就要进行舍入

不同的舍入规则:

  • 可以将多余的位数直接舍去
  • 若舍去部分不为0,则末位+1(入1)
  • 四舍五入原则

(5)判溢出

假设给阶码规定就只有2位来进行表示,那么如果运算后阶码超出范围,则溢出

如:9.99999×1099+9.99999×1099=19.99998×1099=1.99999×10100(这里是保留了6位尾数),此时阶码超过2位,发生溢出(注:尾数溢出未必是真的溢出,也许可以通过(3)规格化(4)舍入这两步来进行调整)

例1:求1.23456×1012+2.34567×1010(这个例子是十进制的)

(1)对阶:1.23456×1012+0.0234567×1012

(2)尾数加减:1.2580167×10^12

(3)规格化,这里的例子不需要进行规格化,但是如果尾数加减后出现0.001234×1012这种情况时,需要“左规”;或者出现12.34567×1012这种情况时,需要进行“右规”

(4)这里若只能保留6位有效尾数,可以根据舍入规则来进行舍入,譬如直接舍入(多余位直接舍去)成1.25801×10^12

(5)判断溢出的话,这里是没有溢出的

例2:已知十进制数X=-5/256、Y=+59/1024,按机器补码浮点运算规则计算X-Y,结果用二进制表示,浮点数格式如下:阶符取2位,阶码取3位,数符取2位,尾数取9位

X=-5D×(1/256)=-101B×2(-8)=-0.101B×2(-5)=-0.101B×2^(-101B)

Y=+59D×(1/1024)=+111011B×2(-10)=+0.111011B×2(-4)=+0.111011B×2^(-100)

再转化成补码:X=11011,11.011000000;Y=11100,00.111011000

再根据上面的浮点数加减运算步骤进行加减:

(1)对阶 使两个数的阶码相等,小阶对大阶,尾数右移一位,阶码加1

  1. 求阶差:[△E]=11011+[-Y补]=11011+00100=11111=-1,故X的阶码比Y的阶码小1;
  2. 对阶,X=11011,11.011000000->11100,11.101100000

(2)尾数加减 -Y=11100,11.000101000

X-Y=11.101100000+11.000101000=11100,10.110001000

(3)规格化

两位符号位不同,表明尾数溢出,所以要进行算术右移,右移1位,阶码加一

X-Y=11101,11.011000100

(4)舍入

无舍入

(5)判溢出

阶码无溢出 ,最终结果为2^(-3)×(-1001111B) ----记得要将规格化之后的补码再转回原码

2.浮点数的加减运算-舍入

“0”舍“1”入法:在尾数右移时,被移去的最高数值位为0,则舍去;被移去的最高数值位为1,则在尾数的末位加1.但是这样加1后可能会使尾数再次溢出,此时需再做一次右规。

恒置“1”法:尾数右移时,不论丢掉的最高数值位是“1”还是“0”,都使右移后的尾数末位恒置“1”。这种方法会有使尾数变大和变小的两种可能。

如:若加减结果为11100,10.110001011

0舍1入:11100,10.11000101 1->11101,11.011000110

恒置1:11100,10.11000101 1->11101,11.011000101

在规格化步骤中,右规就会遇到舍入的问题

6.强制类型转换

类型 16位机器 32位机器 64位机器
char 8 8 8
short 16 16 16
int 16 32 32
long 32 32 64
long long 64 64 64
float 16 32 32
double 64 64 64

char->int->long->double

float->double

范围、精度从小到大,转换过程没有损失(这里默认是32位机器)

32位

int:表示整数,范围-231~231-1,有效数字31位

float:表示整数及小数,范围±[2(-126)~2127×(2-2^(-23))],有效数字23+1=24位

int->float:可能损失精度

float->int:可能溢出以及损失精度

  • 浮点数是小数,转int小数部分丢失
  • 浮点数太大,超出int表示范围

7.做题总结

1.8421码是十进制数的编码

2.正数的原码,反码,补码都一样

3.程序中的数字中带有E(e),表示乘10的多少次方

例:1.5678e3就表示1.5678×103;1.5e100=1.5×10100

4.对阶时,尾数的右移要带着隐含位的1一起右移

标签:表示,阶码,真值,运算,尾数,浮点数,移码,数据,规格化
From: https://www.cnblogs.com/Jinx8823/p/17380181.html

相关文章

  • 正则表达式?表示匹配前一个字符0次或者1次
     001、[root@PC1test]#lsa.txt[root@PC1test]#cata.txt33ackkddadebckkadabcuyddgg88[root@PC1test]#grep-E"ab?c"a.txt##"ab?c"等价与ac+abc33ackkadabcuy[root@PC1test]#grep"ab?c"a.txt##在g......
  • 【大数据】Hive Join 的原理与机制
    目录一、概述二、环境准备三、HiveJOIN类型四、Map,Shuffle,Reduce三阶段1)Map阶段2)Shuffle阶段3)Reduce阶段五、CommonJoin(Reduce阶段)六、MapJoin(Map阶段)一、概述Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中......
  • 存储双活同步导致数据库异常恢复---惜分飞
    联系:手机/微信(+8617813235971)QQ(107644445)标题:存储双活同步导致数据库异常恢复作者:惜分飞©版权所有[未经本人同意,不得以任何形式转载,否则有进一步追究法律责任的权利.]客户双活存储异常之后,单个存储运行,故障存储修复之后,双活同步,出现多套系统异常,上一篇:Controlf......
  • (七) 关系运算符,逻辑运算符,赋值运算符,三元运算符
    目录关系运算符一览逻辑运算符一览逻辑运算规则逻辑与和短路与区别逻辑或和短路或的区别关系运算符一览关系运算符的结果都是boolean类型,要么为true,要么为false关系运算符组成的表达式称为关系表达式,如a>=b逻辑运算符一览用于连接多个条件(多个关系表达式),最终......
  • 数据类型及常用方法
    引入我们学习变量是为了让计算机能够像人一样去记忆事物的某种状态,而变量的值就是用来存储事物状态的,很明显事物的状态分成不同种类的(比如人的年龄,身高,职位,工资等等),所以变量值也应该有不同的类型,例如salary=3.1#用浮点型去记录薪资age=18#用整型去记录年龄name='lil......
  • 用户交互与运算符
    程序与用户交互什么是与用户交互用户交互就是人往计算机中input/输入数据,计算机print/输出结果为什么要与用户交互为了让计算机能够像人一样与用户沟通交流比如,过去我们去银行取钱,用户需要把帐号密码告诉柜员,而现在,柜员被ATM机取代,ATM机就是一台计算机,所以用户同样需要将帐号......
  • (六) Java API查询与算数运算符练习
    目录API在线文档算数练习题API在线文档各种API集合不过有了chatgpt这些都是弟弟了算数练习题i=i++publicclassInt{ publicstaticvoidmain(String[]args){ inti=1; i=i++; System.out.println(i); }}这里的输出应该是1,因为i=i++这句规则......
  • 数据库查询速度优化之解决技巧
    1、对查询进行优化,应尽可能避免全表扫描首先应考虑在where及orderby涉及的列上建立索引。 下面我们来以一个表中177条数据比较一下,全表扫描与建立索引之后性能的一个比较.1.1全表查询1.2建立索引查询1.3结论从这两种方式查询数据库结果看,建立索引之后查询速度提高了些......
  • (数据科学学习手札152)geopandas 0.13版本更新内容一览
    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,昨天晚上geopandas正式发布了其0.13.0版本,距离其上一个版本更新已经过去了5个多月,在这一次更新中除了日常的bug修复以外,还为我们带来了多项新功能,今天的文章......
  • pytest fixture:向fixture传递数据
    1利用request向fixture传递数据conftest.pytest_fixture.py执行request是pytest自带的一个fixture,利用它可以得到test函数的上下文文信息request.modulemodule是其属性,属性还有nodefunctionclsclasssession具体看官网https://docs.pytest.org/en/7.3.x/referen......