Faster sorting algorithms discovered using deep reinforcement learning

时间：2023-06-26 09:25:17浏览次数：47

标签：汇编 sorting Faster AlphaDev deep 算法指令长度排序

摘要：

AlphaDev模型优化排序算法，将排序算法提速70％。通过强化学习，AlphaDev发现了更加有效的算法，直接超越了科学家和工程师们几十年来的精心打磨。现在，新的算法已经成为两个标准C++编码库的一部分，每天都会被全球的程序员使用数万亿次。

介绍

优化目标为排序算法的CPU延迟时间
两类排序问题：
- 固定长度排序：sort 3排序模型只能处理序列长度为3的排序问题
- 可变长度排序：sort 5排序模型可以处理序列长度为1-5的排序问题
作者将排序问题建立为一个名为AssemblyGame的single-player game。在这个游戏中，玩家(agent)需要选择一系列的汇编指令，组合成为一种新的排序算法
这个问题有两个难点：
- 搜索空间很大
- reward function很难设计
  AssemblyGame中的一条错误指令可能会使整个算法失效，这使得在这个游戏空间中的探索极具挑战性
设计了一种名为AlphaDev的模型，由两个核心部分构成：
- a learning algorithm，与AlphaZero深度强化学习算法结构十分相似
- a representation function，基于Transformers
效果：使用AlphaDev发现了长度分别为3，4，5的三种固定排序算法已经集成进入LLVM标准C++库中

如何将算法表示为低级的CPU汇编指令

编译原理背景知识
- 编译过程：高级语言(C++)→汇编指令→机器码→CPU执行
- 变量转移：内存→寄存器→不同寄存器数据运算→内存→输出
- 汇编指令集取决于处理器架构，如x86与x32，amd与arm
案例：图a为最大长度为2的可变长度排序C++代码，图b为对应的汇编指令，其中%eax, %ecx, %edx, %edi分别为4个寄存器地址，(%rsi), 4(%rsi)表示两个内存地址

如何使用DRL发现更快的排序算法

状态被定义为\(S_{t} = <P_{t}, Z_{t}>\)，其中\(P_{t}\)表示当前时刻生成的汇编指令集合，\(Z_{t}>\)表示寄存器的状态。\(t\)时刻，接收当前状态\(S_{t}\)，采取动作\(a_{t}\)，将一条汇编指令添加到汇编指令集合中，
reward设计：
- 正确性奖励：给予一组测试输入，比较测试输出与真值
- 时间成本奖励：增加序列长度，判断算法是否受到长度影响很大；测量实际算法耗时
输掉游戏：汇编指令不正确/汇编指令耗时很长
使用类似AlphaZero的深度强化学习网络结构，输入为动作\(S_{t}\)，输出为策略与价值预测
AlphaDev需要具备一种表征复杂算法的能力，从而可以加速探索。因此设计了一种表征网络，如下图a，使用Transformer Encoder用于表示当前算法的结构，使用CPU state encoder用于预测当前内存与寄存器的状态
Transformer encoder：首先使用one-hot编码表示汇编指令集与地址，随后通过TF encoder生成embedding，如下图b所示
如何预测代码的执行效果？
- two value function heads：one predicting algorithm correctness and the second predicting algorithm latency

Method

Background

AlphaZero，由两部分组成，(1)表征网络\(f^{rep}\)用于当前状态\(S_{t}\)的潜在表征\(h_{t}\)，(2)预测网络\(f^{pred}\)用于预测期望回报\(\hat{v}_{t}\)与策略\(\hat{\pi}_{t}\)。在达到新状态时，AlphaZero首先通过表示网络将状态编码为潜在表示

\[\mathrm{h}_{t}=f^{r e p}\left(\mathbf{S}_{t}\right) \]

\[\hat{v}_{t}, \hat{\pi}_{t}=f^{p r e d}\left(\mathrm{~h}_{t}\right) \]

Sorting networks，不需要依赖数据的排序方法，所有比较操作都与数据无关，并且排序网络可以实现并行，大大降低算法复杂度

标签：汇编,sorting,Faster,AlphaDev,deep,算法,指令,长度,排序
From： https://www.cnblogs.com/lhcstation/p/17481235.html

deepspeed ZeRO-Inference 可在1-GPU上推理～100B的大模型
原理：......
亚马逊云科技中国峰会：Amazon DeepRacer-梦想加速度
零：前言你是否憧憬在赛车赛道上开车，享受疾驰而过的感觉，感受无与伦比的驾驶乐趣？AmazonDeepRacer可以满足你的梦想，虚竹哥带你了解AmazonDeepRacer。它为用户提供了一个虚拟仿真环境和一个真实赛车模型，使您能够通过编写代码和训练模型来控制赛车的行驶，从而学习和应用深度学习、强化......
爆爆爆！！Deep Mind与Google Brain合并，成立 Google DeepMind 新部门
图｜2010-2023，从DeepMind到GoogleDeepMind，再到DeepMind，再到GoogleDeepMind或许是深深感受到了来自OpenAI与微软一起给到的巨大压力，以及加速实现通用人工智能（AGI）的目标，今日，GoogleCEOSundarPichai宣布，将DeepMind、GoogleBrain合并，成立GoogleDeepMind。DemisHassabis......
deepface：让你的代码轻松地实现人脸识别功能
楔子在GitHub上面发现了一个非常有趣的库，叫deepface，简直是人间宝藏。这个库主要是做人脸识别和面部属性分析的，它集合了目前全球最顶尖的开源人脸识别算法，使用卷积神经网络（CNN）对图像进行特征提取，以实现高精度的人脸识别。实验表明，人类在面部识别任务上的准确率为97.53%，而这些......
小技巧 ---- 白嫖deep文档翻译
问题虽然deep提供免费的文档翻译，但是有字数和大小的翻译限制。超过必须收费。问题是暂时不支持中国订阅。思路只要消减到符合要求即可步骤假设我有一个pdf超过了字数限制，那么我们可以分割pdf1.用百毒pdf分割后转word，https://box.baidu.com/ndtool/home#/。分割，将文件用二分法测试分......
神奇的翻译网站deepl
我无意间听说有个新翻译网站上线，使用机器学习技术。我立即测试了一下，效果确实好于谷歌翻译，但有没有非常完美，至少完全可以理解句子要表达的意思。谷歌翻译有时就会有种语序错乱和词不达意的感觉。www.deepl.com......
选修-4-Optimization for Deep Learning
1.SomeNitations 在本小节开始之前,需要知道的符号含义.2.WhatisOptimizationabout? 找到一组参数使得\(L\)尽可能地小.......
Deepin Linux如何安装Terminus终端
Terminus是一款基于web技术的终端，支持windows、Linux、MacOS系统。可以为终端定制主题和各种配色方案。环境Deepin15.11安装TerminusTerminus的github仓库：https://github.com/Eugeny/terminus/releases官网提供了下载地址（https://www.termius.com/），它的下载速度比github快很多但是......
如何优化深度克隆 deepclone
普通克隆的方式 1.大部分会使用序列化和反序列化的方式,缺点：这种方式不会对对象中的函数或者Map对象进行深度克隆。constresult=JSON.parse(JSON.stringify(value)) 2.手写一个deepclone函数 //创建可回收map集合来处理环形引用的情况例如:obj.c=objconstc......
DeepSurvk部署教程
DeepSurvk部署教程作者:千树、Totorogithub项目地址https://github.com/arturomoncadatorres/deepsurvkPypi项目地址https://pypi.org/project/deepsurvk/一、DeepSurvk简介项目作者原话(翻译)DeepSurv是一种Cox比例风险深度神经网络，用于模拟患者协变量与治......

Faster sorting algorithms discovered using deep reinforcement learning

摘要：

介绍

如何将算法表示为低级的CPU汇编指令

如何使用DRL发现更快的排序算法

Method

Background

相关文章

赞助商

阅读排行