Abstract
作者研究了低延迟自然神经网络在生物进化中对于短期生存的必要性,以及这一现象在计算机设计与架构中发展低延迟高性能中央处理单元(CPU)的平行过程。为了准确高质量地显示动态图像,出现了专门的处理单元 —— 图形处理单元(GPU),正如动物的特殊视觉皮层区域如何产生这种低延迟的计算能力一样。人类大脑,特别是被视为一种经过基因组瓶颈进化、规模放大的灵长类大脑,可以通过社会的训练和修剪,进而发明了语言、书写和时间空间上分离的故事存储。作者得出结论,这种现代数字发明 —— 社交媒体和档案式集体公共语料库,已从基于简单 CPU 的低延迟快速检索发展至使用 GPU 进行数据的高吞吐量并行处理,以训练基于注意力的深度学习神经网络,生成具有毒性、偏见、记忆、幻觉等特性的生成式人工智能(Generative AI),这些特性与人类社会及其社会现象有着引人入胜的相似之处。作者展示了这一切如何为消除人类社会中这些缺陷的建设性方法铺平了道路,同时也为其代理和集体大规模镜像 —— 大型语言模型(LLM)的生成式人工智能指明了方向。
Introduction
在早期的一项研究 [1] 中,作者展示了写作的集体社会演变、手稿和书籍的印刷及图书馆的发展,这些都是对人类记忆限制的回应。作者还展示了在社会媒体如维基百科、报纸、杂志等下面书籍和手稿的数字化,如何使得创建人类社会完整语料库成为可能,从而其在大型语言神经网络模型中的人工智能出现中体现了其本质。在这项研究中,作者以更定量的细节考虑了这些方面,并引入了其他方面,如基因组瓶颈吸引了这种神经网络扩展架构。
在第一部分,作者考虑了昆虫、鸟类、爬行动物和哺乳动物的低延迟反应的重要方面,与计算机硬件架构的演变相比较,尤其是中央处理器(CPU)及其支持服务,如随机存取存储器(RAM)、缓存等。
在第二部分,作者考虑了基因组瓶颈,以及类似于大脑的神经元集群如何通过扩展反应来应对这一瓶颈。接下来,作者考虑动物大脑的限制,并在第四部分考虑在人类案例中,大脑如何通过社会互动进行训练和修剪,发展到一个最大数量的神经元和突触连接。作者进一步考虑了人类大脑的限制,以及如何通过发现语言、写作、存储、复现时间和空间上分离的叙述来扩展人类大脑的社会功能,最终作者能够通过大型学习模型实现生成性人工智能。
Low latency as a response to the survival of the fittest
在本文中,作者探讨了昆虫、鸟类、爬行动物和哺乳动物如何演化出一种低延迟的自然神经网络,以实现短期生存。先天结构与出生后学习之间存在相互作用。许多昆虫在出生时是作为虫卵,它们自有生存方式,后来通过蛹的中间阶段变形成飞行的昆虫。所有这些都被构建在昆虫的先天遗传结构中,在出生后几乎没有社会抚养或学习,但即便在这种情况下,作者也必须谨慎地说明,环境与先天结构之间可能存在某种相互作用,这允许个体在一定程度上进行学习,尽管这种学习可能是有限的。此外,已经证实一些社会性昆虫,如蜜蜂,能够学习指示食物源方向的舞蹈技能 [2]。当然,学习能力是一种在出生时就已经发展的先天技能。对于生命周期短促的昆虫来说,在出生后进行学习或社会修饰的投资是不可持续的代价。也可能它们的生存策略主要是通过极高的繁殖率,这与基于基因组的达尔文演化紧密相关。但与此同时,像蚊子或苍蝇这样的昆虫必须躲避捕食性鸟类和蝙蝠,因此它们也发展出了具有复杂飞行策略的低延迟神经网络,以及迅速有效的反应能力。
Insect brain and it’s neural network.
昆虫神经系统的一个有趣方面是,一些昆虫即使在 Head 被切断后,仍可以正常生活数天。这使得一些人得出结论,昆虫没有大脑。但正如查尔斯・达尔文 [3] 所说:
“毫无疑问,即使神经组织的绝对质量非常小,也可能存在异常活跃的情况;例如,蚂蚁的多样化本能、智力和情感是众所周知的,但它们的大脑神经节并不比一个小别针头的四分之一大。从这个角度看,蚂蚁的大脑是世界上最神奇的物质原子之一,也许比人类的大脑还要神奇。”
昆虫的自然神经网络不仅仅是像大型语言模型(LLM)那样的信息提取器,它们还有行动节点的终点,更像 LLM 中的智能体,提供可操作决策点。因此,它们相当复杂。在一些昆虫的例子中,大脑似乎并不是事件协调中的关键组成部分,而其余的神经系统似乎完全能够在大脑缺失的情况下协调昆虫的活动。看起来,外围系统拥有自己的完全功能性的备用神经能力。在表 1 中,作者列出了一些昆虫及其神经和基因组能力。
Computer CPU and the microprocessor
中央处理单元(CPUs)通过使用指令集来实现取指、解码和执行单元,将这些任务划分为控制单元、算术逻辑单元、地址生成单元和内存管理单元。尽管 CPU 最初是作为独立的系统被创建的,但现代 CPU 已经是集成微处理器电路的一部分,其中多核 CPU 被嵌入在单个电路板上。它们能够处理的数据量从几兆浮点运算(mega flops)发展到现在能达到几吉浮点运算(Giga flops)。另一种衡量 CPU 速度的传统方式是通过 CPU 的时钟周期频率,这通常从几兆赫兹(MegaHertz)到几吉赫兹(GigaHertz)不等。如果拥有多个 CPU 核心,那么就可以实现并行处理,从而提高吞吐量。
Insect neural systems and the modern CPU
直接将复杂的自然神经网络与计算机 CPU 进行比较并非易事。CPU 基于取指、解码和执行的序列,其中像 Flops(浮点运算)或时钟周期这样的定量评估指标可能是有意义的。即使在 CPU 的情况下,也有其他方面,如算术逻辑单元(ALU)、输入 / 输出(IO),在某些使用场景中可能会占主导地位,而 L1/L2/L3 缓存大小可能很重要。并行化是另一个可能取决于特定使用场景的方面,这些场景需要大的吞吐量,可以通过并行协调来实现。然而,在这里,作者将尝试进行这样的粗略简化作为起点。昆虫通常拥有大约 20,000 个神经元,假设每个神经元的突触连接大约为 1000 个,作者大约有 2 亿个突触连接或 Flops。这大致相当于英特尔的 Pentium Pro 或 Pentium II 350nm Klamath 核心(233 和 266 MHz),它们能够执行每秒 2 亿到 2.5 亿次指令,甚至更好的是 250nm 的 Tonga 和 Dixon。
基因瓶颈和大脑作为集中处理单元
首先在这里解释什么是 “基因瓶颈”[4] 以及它在外部信息存储系统(如大脑)的形成中扮演的关键角色。DNA 编码的信息内容为从一代传到下一代的信息量提供了一个大致的上限。一个简单的如秀丽线虫(C. elegans)拥有大约个碱基对,因此它可以传输位信息。另一方面,如果_C. elegans_的大脑有一个密集的连接矩阵,那将是有位的存储空间,即使考虑到与突触权重所需的位数相关的小因子,这也足以明确编码 302 个神经元之间的高度刻板的连通性。在昆虫的情况下,碱基对的数目约为位 [5]。但在昆虫的情况下,它们拥有 20,000 个神经元,因此假设每个神经元有 1000 个突触连接,这大约是,乘以连接突触权重所需的位数,这与昆虫的基因容量大致相当。因此,这解释了昆虫的惊人多样性和它们占据的生态位。快速的高繁殖率是它们为生存而采用的达尔文策略,从而加强了基因容量,尤其是考虑到它们短暂的生命周期,这需要短期策略。
作者也观察到,尽管昆虫拥有一个与 Pentium II Level 微处理器相当的非常复杂的神经网络系统,但它们对大脑的依赖是有限的,这是由以下事实所确立的:在某些昆虫中,即使切断大脑,昆虫也能几乎完全正常地存活数天。这表明,在昆虫的情况下,大脑尚未发展成为像鱼类、爬行动物、鸟类和哺乳动物等生物中那样关键的集中控制单元。
然而,由于信息的基因瓶颈 [4],自然网络进化产生了一个集中式记忆存储,这种存储被扩展以产生越来越大的人类大脑。
尽管从脑化指数来看,昆虫甚至鸟类的脑在性能和活动协调范围上远胜于人类的大脑,但拥有如此小的大脑。在较大的动物中,规模似乎很重要,尤其是在叙述在不同时间和空间发生的事件以及产生复杂的社交互动方面。作者已经看到,在蜜蜂和蚂蚁的情况下,这种复杂的社交行为也可以实现,但能力有限。在像乌鸦(corvidae)这样的鸟类中,作者已经看到它们即使拥有小尺寸的大脑,也具有复杂的行为 [6]。然而,与昆虫的情况不同,它们的大脑是一个至关重要的集中处理单元,一旦大脑( Head )被切断,生物体就会完全失去功能,因为它具有协调生物体的关键元素。因此,似乎随着生物体的生长和复杂性的增加,作为集中控制单元的大脑的必要性变得至关重要(当然可能存在例外,但这些小例外或多或少提供了对主要论点的统计证明)。在这种情况下,动物较长的生命周期和较低的繁殖率减少了达尔文式的基因压力,从而扩展了具有初步能力的可训练、可剪枝的神经组件。
Limitations of the animal brain and the evolution of scaled-up human brain.
较大的产卵动物必须通过孵化卵(如鸟类)和将卵埋在地下(如爬行动物)来照顾它们的后代。爬行动物确实会照顾后代,但最终从卵中孵化出来的幼崽一出生就得在充满敌意的环境中生存,这使得天生的基因组能力变得重要。另一方面,哺乳动物(包括袋鼠)发展出了在子宫内保护后代的能力。这使得它们可以在卵壳内保护性的环境中培养后代,在从子宫中出来之前,它们的神经系统可以在有限的、基本的受控(体外)输入条件下进行训练和修剪。这有利于在出生前对神经网络进行微调和硬化,使其能够维持基本的生命维持功能(如调节心跳、免疫反应和细胞级功能),然后在出生后扩展对外部刺激的反应。较长的妊娠期使得这些基本的生命维持功能得到进一步的硬化,特别是在寿命较长的较大动物中非常有用。出生后,对外部条件的学习和修剪也开始变得广泛。在鹿和有蹄类动物的情况下,由于它们一出生就面临捕食者和食腐动物的生存压力,因此学习期较短。从伪装的床面上,一旦断奶,它们在约两个月内就能觅食和躲避捕食者。尽管鹿和像老虎或猫(家猫体型较小,寿命约为 15 年,与一些小型鹿如白尾鹿相似)的寿命大致相同,但捕食者如老虎和猫成熟并独立的时间要长得多,这是它们捕食者地位所赋予的特权。此外,捕猎技能需要父母早期通过让它们用尾巴作为猎物的替代品进行一定程度的训练。彼此玩耍,其中一个充当猎物的替代品,也是一种用来捕捉像鹿和有蹄类动物这样的猎物的训练方式。这些复杂的手部技能需要天生的能力来快速训练和修剪生长迅速的神经元及其神经网络。
猫大约有 76 亿个神经元,其神经网络连接密集,大约有个突触连接,以及大约个 DNA 碱基对。谦逊的老鼠(一种与人类密切相关的杂食动物)也有 7100 万个神经元和大约个连接,但拥有大约个 DNA 碱基对,仅比人类基因组少 15%。在这些情况下,基因组信息能力大约是神经元信息能力的 1000 倍以下。在人类的情况下,大约有个神经元和大约个突触连接,其基因组大小大约是神经元信息能力的 1000 倍以下。这导致了猫在捕猎、挖掘洞穴寻找啮齿动物以及树鼩和灵长类动物爬树时手部的灵巧性的发展。对于人类而言,这种灵巧性进一步发展,到了两岁时就能双腿直立行走,用手握住物体以使用工具,甚至制造工具。当然,对手部灵巧性发展的回应是喉部的协同发展,进而发展出口语,伴随着石器社会的产生,可能像非洲一些古老语言中丰富的音素一样,是通过石器产生的点击声。如同托尔金的《精灵宝钻》中阿伊努尔的原始音乐一样,集体综合性的融合产生了音乐和艺术,成为索绪尔符号文化及其编排 —— 即语言 —— 的肥沃先驱。
Limitations of human brain
人类拥有 860 亿个神经元和 1.5 万亿个突触连接,以及与之相应复杂的社会及其互动,被认为可能是具有自我意识的生物,无疑是宇宙中令人惊叹的奇迹之一。当然,在浩瀚荒凉的无生命宇宙中,生命本身就像一个奇迹,而作为具有自我意识的人类,则是在奇迹中的奇迹。尽管达尔文进化论取得了所有这些辉煌的成就,但生物进化的局限性依然存在。与昆虫和鸟类不同,人类无法飞翔,但他已经设法发明了一种飞行机器来克服这种无能。同样,他在记忆方面也存在局限性,无法保留在时间和空间上错位的漫长叙述。他为不断进行智力发展而构建的复杂社会网络需要这样一条历史叙述的线索。为了记忆和方便回忆,人们发明了许多装置,比如语言中的音乐和音调,以及韵律和理性。诗歌是一种古老的保留方式。讲故事是另一种刺激性的装置,用于提高回忆和分析的能力。古代吟游诗人提供了这样的装置,比如 J.R.R. 托尔金的抽象故事,以及其他由人类学家列夫・斯特劳斯精湛分析的古老神话故事。一旦写作发展成为最初的图形 / 音素,后来成为字母,就出现了如粘土板、石板、棕榈叶、皮革羊皮纸等装置,社会也因此走上了发展图书馆的道路,记录下在时空上错位的叙述,如亚历山大图书馆和东方的纳兰达大学。所有这些用于记忆的奇妙装置,如诗歌和韵律,都被简单朴素的散文所取代,如马可・波罗、瓦斯科・达・伽马等欧洲旅行者的游记,以及像宇文愠这样的中国学者的作品,刺激了亚洲古老封闭社会采用散文和西方的现代科学成就。
古登堡印刷机和随后如雨后春笋般涌现的印刷出版社突然向广大读者敞开了发明和叙述的历史连续性。科学期刊和社团帮助产生了现代社会的重要发明,以及众多实验室、工程师和技术行人的工作。
Social extension of human brain - Internet, Wikipedia and the Large Language Models
由于人脑的限制,尤其是存储在记忆中的信息存在丢失性,书写被发现,并随之产生了将知识存储为书籍和手稿的方法,收藏在大型图书馆中。随着可搜索的互联网和社交媒体平台,如维基百科的出现,这一形式变得更大、更有效。
为低延迟设计的 CPU 辅以高吞吐量的 GPU,催生了基于深度学习注意力的巨型语言转换模型,特别是生成式人工智能。这扩展并改进了人脑的可训练、可扩展和可剪枝的自然神经网络。
就像旧石器时代的原始石器工具演变成了新石器时代的精细工具一样,起初的大型简单电子二极管和三极管管让位于基于硅的半导体晶体管,CPU 的处理速度开始按照摩尔定律增长。摩尔定律指出,集成电路上晶体管的数量每两年翻一番,大约 20 年后,其增长将超过百亿倍。现在,7 纳米宽的晶体管已经让位于更小的 5 纳米宽的晶体管,这些晶体管仅宽 10 个原子,因此原子级的量子退相干效应开始限制进一步的微缩。
因此,专为高吞吐量优化而非低延迟优化的 GPU 发展,产生了更高的整体处理速率,达到 1000 GB/s 甚至更高。摩尔定律已经让位于黄氏定律,即专为高吞吐量设计的 GPU(图 2)。表 3 展示了 CPU/GPU 发展的各个阶段,而表 4 则说明了 NVIDIA GPU 核心的快速演变,以应对巨大的数据并行处理需求。
Limitations of LLM, human society, and attempts to fix it
已经很好地证实,大型语言模型(LLMs)倾向于复制社会带有偏见的语料库中的种族、性别、宗教和地理偏见。这些偏见也倾向于进一步放大,反映了拥有和未拥有数字访问权限之间的差距,特别是在北方和南方之间。已经做出了认真的努力来解决这个问题,特别是 Facebook 在 “宪法 AI” 方面的尝试。结合人类 / AI 反馈的强化学习在抑制某些偏见方面取得了成效。这是在抑制偏见与以 “我不能回复那个” 的非信息性回复之间的权衡。LLM 倾向于无数次地从语料库中复制文本,GPU、CUDA 核心、内存接口宽度、内存带宽的演变
表 4:每年 GPU 模型,CUDA 核心,内存接口和带宽
年份 | 型号 | CUDA 核心 | 内存接口宽度 (位) | 内存带宽 (GB/s) |
---|---|---|---|---|
2024 | RTX-4090 | 16384 | 384 | 1008 |
2023 | RTX-3080 Ti | 10240 | 384 | 912 |
2022 | RTX-3090 | 10496 | 384 | 936 |
2021 | RTX-3090 Ti | 10572 | 384 | 936 |
2020 | RTX-3080 | 8704 | 320 | 760 |
2019 | RTX-2080 Ti | 4352 | 352 | 616 |
2018 | RTX-2080 | 2944 | 256 | 448 |
2017 | GTX 1080 Ti | 3584 | 352 | 484 |
2016 | GTX 1080 | 2560 | 256 | 320 |
2015 | GTX 980 Ti | 2816 | 384 | 336.5 |
2014 | GTX 980 | 2048 | 256 | 224 |
2013 | GTX 780 Ti | 2880 | 384 | 336 |
2012 | GTX 690 | 3072 | 512 (每个 GPU 256) | 384 |
2011 | GTX 580 | 512 | 384 | 192 |
2010 | GTX 480 | 480 | 384 | 177.4 |
2009 | GTX 295 | 480 | 896 | 223.8 |
2008 | GTX 280 | 240 | 512 | 141.7 |
表 3:CPU/GPU 演变的阶段,被称为 “记忆”,也是导致 “版权” 法律违规的严重问题。这可以通过随机删除节点来避免数据过度拟合来解决。幻觉是另一个问题,通过创建 RAG 实现来处理,这些实现促使 LLM 遵循事实文档。
2007 GTX 260 192 448 111.9 人类天生带有偏见和成见,教育者也在校园内训练他们抑制甚至完全禁止这些偏见。当然,修改产生这些偏见和成见的基本条件比在人类中产生后再去修正它们更为重要。反映这些偏见和成见的语料库文本是社会根本问题的高阶效应。
Table 3:Stages of CPU/GPU evolution
Year | Milestones |
---|---|
1970s | First Micro Processor Introduction (Intel 4004, 8008) |
1980s | Intel 8088 CPU launched by IBM PC |
1990s | Intel Pentium series CPUs Introduction |
3D Graphics cards like NVIDIA RIVA came into existence | |
2000s | Intel Core series, multi-core CPUs Introduction |
GPUs evolution for programmable architectures | |
GPGPU computing Introduction | |
2010s | Demand for GPU acceleration because of Deep learning |
CUDA and OpenCL came into existence for GPU programming | |
Specialized AI accelerators like TPUs development | |
Present | Rigorous development of multi-core CPUs |
To handle AI workloads GPUs with dedicated Tensor cores development | |
Future | Developments in heterogeneous computing designs |
Conclusion
动物生物基因组的瓶颈通过哺乳动物特别是人类大脑皮层区域的专门化发展得到了克服,这一区域拥有数万亿的突触连接,这是由智人(homo sapiens)的独特进化所带来的,智人的大脑是灵长类大脑的扩大版。现代时期的许多使能技术已经克服了许多限制,包括人类自然神经网络的记忆和处理能力的限制,尤其是现代基于深度学习注意力的千亿级大规模语言模型的发展,这些模型的突触连接数量正逐渐接近人类估计的 200 万亿连接。通过高吞吐量的图形处理单元(GPU),作者已经克服了低延迟中央处理单元(CPU)的限制,GPU 通过并行架构在晶体管 Level 上绕过了 5 纳米以下尺寸进一步缩小的限制,特别是在似乎主导大型语言模型训练的矩阵计算狭窄领域。
人类神经架构和社会原则的许多方面尚未被映射到人工神经网络架构和设计中。然而,大规模语言模型(LLM)已经识别出了许多缺点,如毒性、偏见、记忆和幻觉等,这些与人类社会及其集体社会智能中的毒性和偏见形成了有趣的对比。
参考
[1].Genetic Bottleneck and the Emergence of High Intelligence by Scaling-out and High Throughput +.
via:
-
从进化到创新:揭示生物大脑与现代 AI 的惊人平行之旅 原创 未来科技潮 未来科技潮 2024 年 07 月 20 日 16:01 上海