A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT1

时间：2024-08-21 14:37:36浏览次数：13

标签：INT12 BL 18 TOPS mm2 MAC SRAM Bit MSB

1、强调存储密度（Storage Density）Mb/mm2，存算一体的主要目的是减少数据搬运的开销，如果一味的堆计算单元而损失存储密度，那么虽然整体的计算吞吐率（TOPS）可以做到很大，相应的对计算密度也会有提升，但是由于需要频繁给CIM Macro刷新数据，从系统能效的角度上来说反而是下降的。这次的SRAM Array的行数做到了远超之前工作的宽度，之前的工作的row都做的非常小，也就个位数的水平，这次直接做到了18，并且有18个segments，也就是18*18=324，直接拉开了两个数量级的差距。
2、Interface+CTRL+DFT模块，除了一般CIM都有的存储器接口以及控制电路，还增加了DFT功能，根据论文描述是一个BIST电路，学术界论文一般不会重视这个，但是对于工业应用，BIST电路是必要的。
3、SRAM使用了BL分离的设计，每两个18 Rows的Array分成了BL_BOT/BLB_BOT和BL_TOP/BLB_TOP两套BL线，这个也是SRAM设计里比较Practical的做法，因为BL线太长了会导致Delay增大以及IR Drop产生Read Fail的问题。另外两个Bank的WL也是分离的，分成了WL_TOP和WL_BOT。对于具体的一个存算block的设计上，采用了两个18 Rows Array配两个LIO（分别给BL_BOT/BLB_BOT以及BL_TOP/BLB_TOP）以及一个LUT MAC，LIO即Local IO，还是采用了比较标准的Latch based SRAM读电路设计模式。写入时使用MUX4，读的时候用MUX1。存储单元和LIO用的VDDM域，高Vt器件，MAC电路用的是VDD域，低Vt器件。

4、对Bit serial和Bit parallel两种模式做了一个比较，在多个数据集上测试的结果是，对于input来说，MSB的翻转率是远低LSB的，Bit parallel可以利用到MSB低翻转率的特性（论文原文说是data correlation）数据相关性。对于Bit parallel来说，下一个Activaion跟上一个Activation从LSB到MSB都是对齐的，所以MSB很可能一起都不翻转。而对于Bit serial来说，下一个Activation是用MSB去跟上一个Activation的LSB，而MSB和LSB之间很大概率会存在数据翻转，所以Bit parallel会有比Bit serial更低的翻转率。他这里也给了在4个CNN Model上的对比，整体上来看Parallel MAC的翻转率是低于Serial MAC的，这也是给他们改用Bit parallel找了一个角度。所以bit parallel不仅增大带宽，还能降低功耗。

标签：INT12,BL,18,TOPS,mm2,MAC,SRAM,Bit,MSB
From： https://www.cnblogs.com/sunflowermi/p/18371563

A 12nm 121-TOPS/W 41.6-TOPS/mm2 All Digital Full Precision SRAM-based Compute-in
1b*4b的操作是通过4b或非门乘法器完成，然后再通过4b加法器两两相加。但是从真值表上来看，2个4b或非门乘法器加1个4b加法器完成的工作实际上可以通过一个由加法器和两比特IN控制的四选一Mux（或者说LUT）来完成。这样做的话可以直接节省掉21%的功耗。提出的这个并行多位输入结构下（即并......
A 4nm 6163-TOPS/W/b 4790-TOPS/mm2/b SRAM Based Digital-Computing-in-Memory Macro
SRAMarray和Localadder耦合在一起形成一个块，两个块share一个semi-global-adder，四个块再去shareGlobaladder和移位累加器。这样的floorplan使得整体结构上不存在一大块独立的巨型多级加法树，使得布局变得更加的规整。这里讨论了mix-Vt设计的问题，即混用高Vt管子和低Vt管子，高Vt......
An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Me
权重是4bit的CIM结构图：激活值是4bit的做法是：以MSB-first的方式串性送入，然后通过移位加计算不同数位的和累加器就是一个移位累加结构，其中具有对符号位的处理机制，这里是补码机制。如果符号位是0，直接原码做符号位拓展加进去，如果符号位是1，取反加1原码转成补码之后加进去。减少......
__int128的使用
dzk在做蛋糕上的草莓是蛋糕的灵魂这道题的时候写的\(longlong\)爆了，补题的时候经lwq指点，学习了__int128的用法int最大值\(2^{32-1}-1\)longlong最大值\(2^{64-1}-1\)__int128最大值\(2^{64-1}-1\)关于__int128：只能进行四则运算，不能用cin和cout来输出，不能用位运算来......
001topsolid软件操作工具漏孔漏槽解决方案
使用topsolid软件拆单经常会遇到漏孔漏槽问题，在设备加工试装后被试装师傅数落不知多少次！老话说吃一堑长一智，明明已点操作工具，但还是防不胜防，甚是头疼。总结如下原因：1、调入标准件时，最后一步未点击操作工具;2、在修改模型过程中，操作工具偶尔失效，软件自身bug;......
【学习笔记】Matlab和python双语言的学习(TOPSIS法）
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、TOPSIS法1.模型原理2.基本步骤（1）原始矩阵正向化（2）正向矩阵标准化（3）计算得分并归一化二、代码实现----Matlab1.主程序2.正向化处理函数3.极小型正向化函数4.中间型正向化函数5.区间型正向化......
15999元起 ROG 幻16 Air锐龙AI版上市：锐龙AI 9、算力达402TOPS
ROG幻16Air锐龙AI版目前已经上市开售，首发15999元。外观上，新款笔记本基本延续了酷睿Ultra版的外观设计，提供铂月白和日蚀灰两种配色，采用航空铝一体机身设计，A面有7段式LED光线矩阵，精致轻薄。屏幕为一块16英寸的OLED星云屏，屏幕比例16:10，具备2560x1600的分辨率，刷新率达到240Hz，响......
Autopsy Forensic Browser 是一个开源的数字取证工具，主要用于分析电脑文件系统和存储
AutopsyForensicBrowser是一个开源的数字取证工具，主要用于分析电脑文件系统和存储设备，帮助调查人员识别和恢复可能的证据。它设计用于在调查和法医实验室中使用，支持各种操作系统，包括Windows、Linux和macOS。该工具的主要特点和功能包括：文件系统分析：可以深入分析和检查存储......
__int128
目录简介支持运算输入输出例题简介\(\_\_int128\)并不是标准c/c++中的数据类型，而是一些特定编译器如gcc/g++提供的扩展数据类型。支持运算\(\_\_int128\)的是有符号128位整数变量，最多表示39位整数。支持基本的加减乘除运算，以及按位与&、按位或|、按位异或^、左移<<、右移>......
数学建模——Topsis法(Python代码)
Topsis法 Topsis法是一种常用的综合评价方法，能充分利用原始数据的信息，其结果能精确反映各评价方案之间的差距。该方法对数据分布及样本含量没有严格限制，数据计算简单易行。基本过程为先将原始数据矩阵统一指标类型（一般正向化处理）得到正向化的矩阵，再对......

A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT1

相关文章

赞助商

阅读排行