首页 > 其他分享 >A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT1

A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT1

时间:2024-08-21 14:37:36浏览次数:13  
标签:INT12 BL 18 TOPS mm2 MAC SRAM Bit MSB

1、强调存储密度(Storage Density)Mb/mm2,存算一体的主要目的是减少数据搬运的开销,如果一味的堆计算单元而损失存储密度,那么虽然整体的计算吞吐率(TOPS)可以做到很大,相应的对计算密度也会有提升,但是由于需要频繁给CIM Macro刷新数据,从系统能效的角度上来说反而是下降的。这次的SRAM Array的行数做到了远超之前工作的宽度,之前的工作的row都做的非常小,也就个位数的水平,这次直接做到了18,并且有18个segments,也就是18*18=324,直接拉开了两个数量级的差距。
2、Interface+CTRL+DFT模块,除了一般CIM都有的存储器接口以及控制电路,还增加了DFT功能,根据论文描述是一个BIST电路,学术界论文一般不会重视这个,但是对于工业应用,BIST电路是必要的。
3、SRAM使用了BL分离的设计,每两个18 Rows的Array分成了BL_BOT/BLB_BOT和BL_TOP/BLB_TOP两套BL线,这个也是SRAM设计里比较Practical的做法,因为BL线太长了会导致Delay增大以及IR Drop产生Read Fail的问题。另外两个Bank的WL也是分离的,分成了WL_TOP和WL_BOT。对于具体的一个存算block的设计上,采用了两个18 Rows Array配两个LIO(分别给BL_BOT/BLB_BOT以及BL_TOP/BLB_TOP)以及一个LUT MAC,LIO即Local IO,还是采用了比较标准的Latch based SRAM读电路设计模式。写入时使用MUX4,读的时候用MUX1。存储单元和LIO用的VDDM域,高Vt器件,MAC电路用的是VDD域,低Vt器件。

4、对Bit serial和Bit parallel两种模式做了一个比较,在多个数据集上测试的结果是,对于input来说,MSB的翻转率是远低LSB的,Bit parallel可以利用到MSB低翻转率的特性(论文原文说是data correlation)数据相关性。对于Bit parallel来说,下一个Activaion跟上一个Activation从LSB到MSB都是对齐的,所以MSB很可能一起都不翻转。而对于Bit serial来说,下一个Activation是用MSB去跟上一个Activation的LSB,而MSB和LSB之间很大概率会存在数据翻转,所以Bit parallel会有比Bit serial更低的翻转率。他这里也给了在4个CNN Model上的对比,整体上来看Parallel MAC的翻转率是低于Serial MAC的,这也是给他们改用Bit parallel找了一个角度。所以bit parallel不仅增大带宽,还能降低功耗。

标签:INT12,BL,18,TOPS,mm2,MAC,SRAM,Bit,MSB
From: https://www.cnblogs.com/sunflowermi/p/18371563

相关文章

  • A 12nm 121-TOPS/W 41.6-TOPS/mm2 All Digital Full Precision SRAM-based Compute-in
    1b*4b的操作是通过4b或非门乘法器完成,然后再通过4b加法器两两相加。但是从真值表上来看,2个4b或非门乘法器加1个4b加法器完成的工作实际上可以通过一个由加法器和两比特IN控制的四选一Mux(或者说LUT)来完成。这样做的话可以直接节省掉21%的功耗。提出的这个并行多位输入结构下(即并......
  • A 4nm 6163-TOPS/W/b 4790-TOPS/mm2/b SRAM Based Digital-Computing-in-Memory Macro
    SRAMarray和Localadder耦合在一起形成一个块,两个块share一个semi-global-adder,四个块再去shareGlobaladder和移位累加器。这样的floorplan使得整体结构上不存在一大块独立的巨型多级加法树,使得布局变得更加的规整。这里讨论了mix-Vt设计的问题,即混用高Vt管子和低Vt管子,高Vt......
  • An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Me
    权重是4bit的CIM结构图:激活值是4bit的做法是:以MSB-first的方式串性送入,然后通过移位加计算不同数位的和累加器就是一个移位累加结构,其中具有对符号位的处理机制,这里是补码机制。如果符号位是0,直接原码做符号位拓展加进去,如果符号位是1,取反加1原码转成补码之后加进去。减少......
  • __int128的使用
    dzk在做蛋糕上的草莓是蛋糕的灵魂这道题的时候写的\(longlong\)爆了,补题的时候经lwq指点,学习了__int128的用法int最大值\(2^{32-1}-1\)longlong最大值\(2^{64-1}-1\)__int128最大值\(2^{64-1}-1\)关于__int128:只能进行四则运算,不能用cin和cout来输出,不能用位运算来......
  • 001topsolid软件操作工具漏孔漏槽解决方案
            使用topsolid软件拆单经常会遇到漏孔漏槽问题,在设备加工试装后被试装师傅数落不知多少次!老话说吃一堑长一智,明明已点操作工具,但还是防不胜防,甚是头疼。总结如下原因:1、调入标准件时,最后一步未点击操作工具;2、在修改模型过程中,操作工具偶尔失效,软件自身bug;......
  • 【学习笔记】Matlab和python双语言的学习(TOPSIS法)
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、TOPSIS法1.模型原理2.基本步骤(1)原始矩阵正向化(2)正向矩阵标准化(3)计算得分并归一化二、代码实现----Matlab1.主程序2.正向化处理函数3.极小型正向化函数4.中间型正向化函数5.区间型正向化......
  • 15999元起 ROG 幻16 Air锐龙AI版上市:锐龙AI 9、算力达402TOPS
    ROG幻16Air锐龙AI版目前已经上市开售,首发15999元。外观上,新款笔记本基本延续了酷睿Ultra版的外观设计,提供铂月白和日蚀灰两种配色,采用航空铝一体机身设计,A面有7段式LED光线矩阵,精致轻薄。屏幕为一块16英寸的OLED星云屏,屏幕比例16:10,具备2560x1600的分辨率,刷新率达到240Hz,响......
  • Autopsy Forensic Browser 是一个开源的数字取证工具,主要用于分析电脑文件系统和存储
    AutopsyForensicBrowser是一个开源的数字取证工具,主要用于分析电脑文件系统和存储设备,帮助调查人员识别和恢复可能的证据。它设计用于在调查和法医实验室中使用,支持各种操作系统,包括Windows、Linux和macOS。该工具的主要特点和功能包括:文件系统分析:可以深入分析和检查存储......
  • __int128
    目录简介支持运算输入输出例题简介\(\_\_int128\)并不是标准c/c++中的数据类型,而是一些特定编译器如gcc/g++提供的扩展数据类型。支持运算\(\_\_int128\)的是有符号128位整数变量,最多表示39位整数。支持基本的加减乘除运算,以及按位与&、按位或|、按位异或^、左移<<、右移>......
  • 数学建模——Topsis法(Python代码)
    Topsis法    Topsis法是一种常用的综合评价方法,能充分利用原始数据的信息,其结果能精确反映各评价方案之间的差距。该方法对数据分布及样本含量没有严格限制,数据计算简单易行。    基本过程为先将原始数据矩阵统一指标类型(一般正向化处理)得到正向化的矩阵,再对......