TPU
  • 2025-01-01人工智能芯片与硬件加速:提升AI性能的关键技术
    随着人工智能(AI)技术的迅速发展,AI模型的计算需求呈现爆炸式增长。尤其是在深度学习等复杂任务中,传统的通用处理器(CPU)已经无法满足高效计算的需求。因此,硬件加速成为了提高AI性能和处理速度的关键技术之一。不同类型的AI加速硬件,包括GPU(图形处理单元)、TPU(TensorProcessingUnit
  • 2024-12-31甲子光年智库发布《中国 AI 算力行业发展报告》
    12月30日,备受业界关注的《中国AI算力行业发展报告》(以下简称「报告」)由甲子光年智库正式发布。该报告为行业内外提供了权威、全面、深入的发展洞察。其中,作为我国AI算力行业的领先企业,中昊芯英受邀参与了该报告的编写工作,并为报告的编写贡献了专业的见解和实践经验。AI算
  • 2024-12-22一文搞懂 Google不同型号TPU显存
    起因:      最近在做具身智能相关的工作,看的多是google的文章,里面频繁出现类似WetrainourpoliciesonaTPUv38x8pod(64TPUv3chips),网上没有找到很清晰地关于不同型号TPU显存大小的说明,于是自己参考前辈的文章和官方文档总结了一份,有错误希望大家及时指出。
  • 2024-12-22快速入门指南:玩转硬件加速器(GPU, TPU, FPGA)
    这是一篇以HTML语言呈现的文章。在网页上实现复杂排版和交互通常需要用到更多的技术,如CSS与JavaScript。为了简化的解释,我们将通过一个基本的HTML结构来概述“快速入门指南:玩转硬件加速器(GPU、TPU、FPGA)”。###快速入门指南:玩转硬件加速器(GPU,TPU,FPGA)快速入门指南:掌握GPU
  • 2024-12-13转载:【AI系统】谷歌 TPU 历史发展
    在本文中,我们将深入探讨谷歌的TensorProcessingUnit(TPU)的发展历程及其在深度学习和AI领域的应用。TPU是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),自首次推出以来,TPU经历了多次迭代升级,包括TPUv1、v2、v3和v4,以及EdgeTPU和谷歌Tensor等产品。这些TPU芯片
  • 2024-12-13转载:【AI系统】谷歌 TPUv2 训练芯片
    在2017年,谷歌更新了他们的TPU序列。谷歌将这一代TPU称之为“用于训练神经网络的特定领域超级计算机”,那么显而易见,相比于专注于推理场景的TPUv1,TPUv2将自己的设计倾向放到了训练相关的场景。如果回顾历史,在2017年前后,深度学习跨时代的工作如雨后春笋般涌现,也就是那年
  • 2024-12-13转载:【AI系统】谷歌 TPU v1-脉动阵列
    本文深入探讨了谷歌TPUv1的架构和设计原理。我们将解析TPUv1芯片的关键元素,包括DDR3DRAM、矩阵乘法单元(MXU)、累加器和控制指令单元。重点介绍脉动阵列(SystolicArray)的工作原理,它是TPU的核心,通过数据的流水线式处理实现高效的矩阵乘法计算。此外,我们还将对比TPUv1与
  • 2024-12-13转载:【AI系统】谷歌 TPUv3 POD 形态
    TPUv3vs.TPUv2TPUv3实际上就是TPUv2的增强版。TPUv3相比TPUv2有约1.35倍的时钟频率、ICI贷款和内存带宽,两杯MXU数量,峰值性能提高2.7倍。在同样使用除了显眼的蓝色外,相比于TPUv2,TPUv3在只增大10%体积的情况下增加了MXU的数量,从2个翻倍到了4
  • 2024-12-11转载:【AI系统】谷歌 TPUv3 POD 形态
    TPUv3vs.TPUv2TPUv3实际上就是TPUv2的增强版。TPUv3相比TPUv2有约1.35倍的时钟频率、ICI贷款和内存带宽,两杯MXU数量,峰值性能提高2.7倍。在同样使用除了显眼的蓝色外,相比于TPUv2,TPUv3在只增大10%体积的情况下增加了MXU的数量,从2个翻倍到了4
  • 2024-12-11转载:【AI系统】谷歌 TPU v1-脉动阵列
    本文深入探讨了谷歌TPUv1的架构和设计原理。我们将解析TPUv1芯片的关键元素,包括DDR3DRAM、矩阵乘法单元(MXU)、累加器和控制指令单元。重点介绍脉动阵列(SystolicArray)的工作原理,它是TPU的核心,通过数据的流水线式处理实现高效的矩阵乘法计算。此外,我们还将对比TPUv1与
  • 2024-12-11转载:【AI系统】谷歌 TPU 历史发展
    在本文中,我们将深入探讨谷歌的TensorProcessingUnit(TPU)的发展历程及其在深度学习和AI领域的应用。TPU是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),自首次推出以来,TPU经历了多次迭代升级,包括TPUv1、v2、v3和v4,以及EdgeTPU和谷歌Tensor等产品。这些TPU芯片
  • 2024-12-11转载:【AI系统】谷歌 TPUv3 POD 形态
    TPUv3vs.TPUv2TPUv3实际上就是TPUv2的增强版。TPUv3相比TPUv2有约1.35倍的时钟频率、ICI贷款和内存带宽,两杯MXU数量,峰值性能提高2.7倍。在同样使用除了显眼的蓝色外,相比于TPUv2,TPUv3在只增大10%体积的情况下增加了MXU的数量,从2个翻倍到了4
  • 2024-12-11转载:【AI系统】谷歌 TPUv2 训练芯片
    在2017年,谷歌更新了他们的TPU序列。谷歌将这一代TPU称之为“用于训练神经网络的特定领域超级计算机”,那么显而易见,相比于专注于推理场景的TPUv1,TPUv2将自己的设计倾向放到了训练相关的场景。如果回顾历史,在2017年前后,深度学习跨时代的工作如雨后春笋般涌现,也就是那年
  • 2024-06-21JAX-中文文档-六-
    JAX中文文档(六)原文:jax.readthedocs.io/en/latest/高级教程原文:jax.readthedocs.io/en/latest/advanced_guide.html本节包含更高级主题的示例和教程,如多核计算、自定义操作及更深入的应用示例使用tensorflow/datasets进行简单神经网络训练使用PyTorch数据加载
  • 2024-01-18Google的Jax框架的JAX-Triton目前只能成功运行在TPU设备上(使用Pallas为jax编写kernel扩展)—— GPU上目前无法正常运行,目前正处于 experimental 阶段
    使用Pallas为jax编写kernel扩展,需要使用JAX-Triton扩展包。由于Google的深度学习框架Jax主要是面向自己的TPU进行开发的,虽然也同时支持NVIDIA的GPU,但是支持力度有限,目前JAX-Triton只能在TPU设备上正常运行,无法保证在GPU上正常运行。该结果使用kaggle上的TPU和GPU进行测试获得。
  • 2024-01-18kaggle上的jax框架的环境配置(TPU版本)
    导出时间:2024-01-1821:00:37星期四python版本:Python3.10.13absl-py==1.4.0accelerate==0.25.0aiofiles==22.1.0aiosqlite==0.19.0anyio==4.2.0argon2-cffi==23.1.0argon2-cffi-bindings==21.2.0array-record==0.5.0arrow==1.3.0astroid==3.0.2asttokens==2.4
  • 2023-12-27人工智能大模型原理与应用实战:模型的测试和评估方法
    1.背景介绍人工智能(ArtificialIntelligence,AI)是一门研究如何让机器具有智能行为的学科。在过去的几年里,人工智能技术的发展取得了显著的进展,尤其是在深度学习(DeepLearning)领域。深度学习是一种通过神经网络模拟人类大脑的学习过程来自动学习表示和预测的机器学习方法。随着深度
  • 2023-12-07阿里巴巴宣布分红 25 亿美元;苹果故意降低 iPhone 性能被判赔偿丨 RTE 开发者日报 Vol.101
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表
  • 2023-06-14谷歌 I/O 2021 在音视频领域中有哪些技术值得被关注?
    时隔两年GoogleI/O大会再次与大家见面。虽然去年的大会因新冠疫情被迫取消,但技术的迭代发展却未被打断,反而因疫情的影响促使了技术的创新变得愈加以人们的需求为首要考量,从而变得更具人性化也更具智能化。整理/ LiveVideoStack“在重要的时刻提供帮助”——是此次谷歌I/O2021
  • 2023-05-15BERT 模型(1)
     BERT的创新在于TransformerDecoder(包含MaskedMulti-HeadAttention)作为提取器,并使用与之配套的掩码训练方法。虽然使用了双编码使得BERT不具有文本生成能力,但BERT在对输入文本的编码过程中,利用了每个词的所有上下文信息,与只能使用前序信息提取语义的单向编码器相比,BERT的语义
  • 2023-05-08DSA
    GPUWarp:所有能够向量化执行的线程。 GPUISAGPU微结构和指令集经常变动。 保证适用性编译为伪汇编程序,作为中间语言。 系统级别指令指令语义调度:核不是抢占式的,但是可以被外部中断。内存管理:不倾向于用虚存,只通过简单映射拿到存储地址。   领域专用架构(DSA
  • 2023-04-04提供免费 TPU 的 ControlNet 微调活动来啦
    相信大家已经感受到AI绘画的魅力,多多少少也可以自称半个「prompt小专家」了,而在AI绘画的时候StableDiffusion也会出现一些小瑕疵,比如AI不是灵魂画「手」,还有一些特别的肢体动作也不是普通人可以用语言描述清楚的。这个时候,就轮到ControlNet出场啦!通过ControlNet技
  • 2023-02-25在Google的TPU上训练Fashion MNIST图像识别模型
    作者|张强今天我们要训练的模型是基于Keras框架,来训练FashionMNIST图像识别模型,该模型和MNIST是一样的分类数量。​​MNIST​​​的分类是0到9的十个数字​​​FashionMN
  • 2022-12-04提高CV模型训练性能的 9 个技巧
    导读本文主要想分享一些可能有助于提高计算机视觉任务模型训练速度和准确性的一般技巧或建议,这些建议是通过课程、阅读顶级文章或论文学习所得来的。1.分辨率从较小