很全面的国内外著名强化学习研究小组总结

时间：2024-12-22 19:41:24浏览次数：8

标签：总结国内外 http 154 老师小组 neurondance deeprl com

原文地址：

http://deeprl.neurondance.com/d/154

美国

Stanford：Benjamin Van Roy （摘自 http://deeprl.neurondance.com/d/154）

伯克利：Sergey Levine(论文高产作者)、Pieter Abbel（和Levine并列）

（摘自 http://deeprl.neurondance.com/d/154）

非美国外

UCL：David Sliver(目前好像不指导学生了)、汪军老师等

（摘自 http://deeprl.neurondance.com/d/154）

Alberta：Richard Sutton老爷子、好几个理论的@蓝青峰大佬

（摘自 http://deeprl.neurondance.com/d/154）

莫斯科国立大学：NIPS比赛很强

巴黎Flowers Team：Intrinsic motivation方向

加拿大麦吉尔大学推理与学习实验室

（Doina Precup和Joelle Pineau分别在DeepMind和FAIR Montreal工作）

加拿大U Alberta的增强学习和人工智能（Rich Sutton，Michael Bowling，Patrick Pilarski在DeepMind Edmonton任职；CsabaSzepesvári在DeepMind London任职）

强化学习和在线学习小组，英国伦敦帝国学院（马克·迪森罗思在Prowler.IO）

英国牛津大学白森研究实验室

法国里尔的Inria SequeL（Mohammad Ghavamzadeh，RémiMunos，Bilal Piot在DeepMind，Alessandro Lazaric在FAIR Paris，Olivier Pietquin在Google Brain）

Juergen Schmidhuber的小组，瑞士IDSIA（现为NNAISENSE）

谢恩·曼诺（Shie Mannor）在以色列Technion的小组

Gergely Neu在UPF西班牙巴塞罗那举行

印度IIT-Madras的Balaraman Ravindran小组

加拿大多伦多大学/媒介研究所的Jimmy Ba的小组

加拿大媒介学会的阿米尔·马苏德·法拉赫曼德（Amir-Massoud Farahmand）的Alireza Makhzani

中国

上海交大张伟楠组

南京大学俞扬组

国防科大徐昕

哈工大深圳：
李衍杰老师 http://faculty.hitsz.edu.cn/liyanjie
李老师数学背景，做半马氏决策过程的，学生主要做RL在机器人上的应用（导航决策、调度规划等）
http://deeprl.neurondance.com/d/154/4
香港中文大学（深圳）：
Jim Dai https://scholar.google.com/citations?user=HnO4jIMAAAAJ https://people.orie.cornell.edu/jdai/
Hongyuan Zha https://scholar.google.com/citations?hl=en&user=tqEWl8gAAAAJ
Baoxiang Wang https://bxiangwang.github.io/
http://deeprl.neurondance.com/d/154/3

香港中文大学：周博磊老师

清华大学：张崇洁老师、李升波老师等

北京大学：卢宗青老师等

南京大学：俞扬老师、高阳老师等

上海交通大学：张伟楠老师、俞凯老师（Reinforcement Learning: An Introduction书翻译作者）等

中国科学院：赵冬斌老师、张海峰老师等

天津大学：郝建业老师等

中科大：李厚强老师、周文罡老师、王杰老师、庄连生老师等

国防科技大学：徐昕老师

（摘自 http://deeprl.neurondance.com/d/154）

公司

国外

DeepMind(David Sliver, Marc G. Bellemare)

OpenAI(John Schulman)

FAIR（全方向）：知名的有田渊栋和Noam Brown等，大佬巨多

Google Brain（全方向）：大佬巨多

Salesforce Research

国内

（摘自https://zhuanlan.zhihu.com/p/140528407）

腾讯AI Lab：游戏等；

网易伏羲实验室：游戏；

字节跳动AI Lab：游戏、推荐；

滴滴：运筹优化；

阿里：推荐、运筹优化；

微软亚研院：Research，信息检索和搜索引擎；

华为诺亚方舟实验室：Research；

华为消费者BG智能汽车解决方案BU：RL+自动驾驶

平安保险：强化学习+NLP；

快手AI Lab：游戏、检索；

超参数科技：游戏；

Momenta：RL+自动驾驶

百度PARL团队：自研框架+RL比赛

地平线AI：RL+机器人、自动驾驶

启元世界

南栖仙策

标签：总结,国内外,http,154,老师,小组,neurondance,deeprl,com
From： https://www.cnblogs.com/xyz/p/18622437

# 学期（如2024-2025-1）学号（如：20241402）《计算机基础与程序设计》第13周学习总结
学期（如2024-2025-1）学号（如：20241402）《计算机基础与程序设计》第13周学习总结作业信息这个作业属于哪个课程<班级的链接>（如2024-2025-1-计算机基础与程序设计）这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标<写上......
2024-2025-1 20241416 《计算机基础与程序设计》第十三周学习总结
这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里2024-2025-1计算机基础与程序设计第十三周作业这个作业的目标复习巩固前面所学的内容作业正文https://www.cnblogs.com/rockytyh/p/18622400教材学习内容总结一、结构体结构体的定义结构体允许......
sql注入总结
sql注入一.什么是注入所谓SQL注入，就是通过把SQL命令插入到WEB表单提交或输入域名或页面请求的查询字符串，最终到达欺骗服务器执行恶意的SQL命令，从而进一步得到相应的数据信息。通过构造一条精巧的语句，来查询到想要得到的信息。二.常规注入步骤1.判断注入点类型提交and1=1和a......
阅读《认知觉醒》第一章的第三节感悟和总结
作者提到，人类的天性是追求即时满足，缺乏耐心。我们容易被原始大脑和情绪大脑控制，习惯待在舒适区。因此，若我们希望掌握认知规律，就需要理解“耐心的倍增器”这一概念。复利曲线是一个理性的工具——它揭示了成长的本质：初期的增长缓慢，但当达到某个拐点后，增长会加速飞跃。这一规律强调......
服务器杂谈 -- 有关国内外服务器的购买,以及特点与对比
在我们将java等应用程序打包进行发布的时候,如果想让这个项目在外网可见,那么就需要买一台云服务器,将服务部署在云服务器上,方便进行外网访问。国内服务器的购买:那么,既然讲到云服务器的选购,大部分人都会想到阿里云。没错,笔者的第一个使用的服务器正是阿里云上的服务......
第七届传智杯初赛+重现赛总结
重现赛题目网站：(2条未读私信)牛客竞赛_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ1.吃糖果(B组、C组)#include<bits/stdc++.h>#defineintlonglongusingnamespacestd;intn,k,count1=0,sum1=0;inta[200010];signedmain(){ cin>>n>>k; for(inti=......
24浮动案例练习-布局方案总结
一、浮动案例三float的兼容性是大于flex布局的，然后flex大于grid布局一般的公司都不实用浮动了，大公司一般会使用浮动<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-......
20241313 刘鸣宇《计算机基础与程序设计》第13周学习总结
作业信息这个作业属于哪个课程<班级的链接>（如2024-2025-1-计算机基础与程序设计）这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标<写上具体方面>作业正文...本博客链接教材学习内容总结《C语言程序设计......
2024-2025-1 20241300《计算机基础与程序设计》第十三周学习总结
作业信息这个作业属于哪个课程<班级的链接>（如2024-2025-1-计算机基础与程序设计）这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第十三周作业)这个作业的目标无作业正文...本博客链接教材学习内容总结结构体（Struct）概念结构体......
游戏测试·工作中性能测试总结
目录一、前言二、测试基础三.卡顿问题定位四.性能问题定位流程五.常用优化方法六.兼容性问题和预想结果七.内存详细数据类型八.3D美术优化渲染技术汇总：https://blog.csdn.net/poem_qianmo/article/details/78309500一、前言性能优化是游戏开发......

很全面的国内外著名强化学习研究小组总结

相关文章

赞助商

阅读排行