首页 > 编程语言 >基于文本环境下的强化学习算法:文本游戏环境下的强化学习的一些思考?文本比图像的抽象度更高,或许基于文本的强化学习算法更加强大

基于文本环境下的强化学习算法:文本游戏环境下的强化学习的一些思考?文本比图像的抽象度更高,或许基于文本的强化学习算法更加强大

时间:2024-01-31 17:12:16浏览次数:42  
标签:能力 学习 算法 抽象 强化 文本

这里说一个个人的思考,那就是:

文本比图像的抽象度更高,或许基于文本的强化学习算法更加强大。



基于文本环境的强化学习算法一直被认为是比较小众的一个场景,一般认为文本的AI处理能力是不如图片的,尤其文本对事物描述的能力是十分有限的,但是随着ChatGPT-3.5的大火,或许这个状况得到了改写。

现在的资料显示,文本的描述和处理、总结能力已经得到了质的飞跃,使用文本的AI系统对场景进行描述已经具备了基础的技术条件,同时由于文本对事物的描述能力和抽象能力天然的在本质上要优于图像的,使用文本往往具有更强的抽象能力,因此尝试使用文本环境下的强化学习算法的研发或许是一个有前途的研究途径。

之前已经有了很多文本游戏环境的强化学习算法,虽然并不系统化,有些像Demo,但是毕竟也是有这方面的尝试,但是现在由于ChatGPT的能力,使用文本和图像结合,或者使用文本作为指令输入或人机接口来进行强化学习的训练可能是为更多人采用的途径。

但是,不管如何使用文本环境来训练强化学习算法,其目的都是利用文本AI的强大能力,而且个人也是比较看好这个赛道的,毕竟从本质上来讲文本是比图像具有更强的总结能力和抽象能力的,而且文本系统在强化学习系统重一直是处于缺失的地位的,如今ChatGPT的发展是足以带动这个方向的发展的。



标签:能力,学习,算法,抽象,强化,文本
From: https://www.cnblogs.com/devilmaycry812839668/p/17999681

相关文章

  • [word] 如何在word中输入文本内容(包括文字、数字、符号、日期)
    一、首先我们打字前必须要先认识Word中两个的内容1、第一个要知道的是光标。什么是光标呢?通常打开Word软件后,我们可以看到软件中有一个一闪一闪的竖杠。这个我们叫做光标。  ......
  • 【算法】斯坦纳树
    参考资料OI-Wiki:斯坦纳树T_a_r_j_a_n:[图论]-------斯坦纳树编程客:集合枚举子集-学习笔记概念斯坦纳树原本是在一个几何图中提出来的问题。在一个平面内给出\(n\)个点\(p_i\),可以加入一些新的点(称为斯坦纳点),要求在使得这些点连通并且边的总长度最小。在OI中,斯坦......
  • 算法模板 v1.6.1.20240131
    算法模板v1.1.1.20240115:之前的历史版本已经不可寻,创建了第一份算法模板。v1.2.1.20240116:删除“编译”-“手动开栈”与“编译”-“手动开O优化”;将“编译”-“CF模板”中的第20行代码cin>>T;注释;删除“读写”及其目录下的内容;删除“图论”-“欧拉图”-“混合图”;删除“图论”-......
  • MD5算法:高效安全的数据完整性保障
    摘要:在数字世界中,确保数据完整性和安全性至关重要。消息摘要算法就是一种用于实现这一目标的常用技术。其中,MessageDigestAlgorithm5(MD5)算法因其高效性和安全性而受到广泛关注。本文将详细介绍MD5算法的优缺点,以及它如何解决数据完整性问题和安全性问题。此外,我们还将提供......
  • python识别图片中的文本保存到word中
    python可以使用第三方库pytesseract实现图像的文本识别,并将识别的结果保存到word中,代码本生不复杂pytesseract环境有点麻烦这里整理总结一下一、简介Tesseract是一个由HP实验室开发由Google维护的开源的光学字符识别(OCR)引擎,可以在Apache2.0许可下获得。它可以直接使用,或者(......
  • 深入浅出堆排序: 高效算法背后的原理与性能
    ......
  • 快速排序:高效分割与递归,排序领域的王者算法
    ......
  • 读论文-基于自注意力机制和迁移学习的跨领域推荐算法
    前言今日要读的文章为一篇2022年4月2日发表于《计算机科学》的期刊文章;文章发现了传统的单领域推荐算法的问题:传统的单领域推荐算法受限于用户和项目的稀疏关系,存在用户/项目冷启动的问题,并且,其仅以用户对项目评分进行建模,忽略了评论文本中所蕴含的信息。基于此,文章提出了一种基......
  • LLM面面观之RLHF平替算法DPO
    1.背景最近本qiang~老看到一些关于大语言模型的DPO、RLHF算法,但都有些云里雾里,因此静下心来收集资料、研读论文,并执行了下开源代码,以便加深印象。此文是本qiang~针对大语言模型的DPO算法的整理,包括原理、流程及部分源码。2.DPOvsRLHF  上图左边是RLHF算法,右边为DPO算......
  • KMP算法
    目录感悟kmp已经整了很多次了,从一开始的不懂到之前一次的似懂非懂,这次再刷字符串算法,一定搞懂寄,又有点糊里糊涂的感悟有点晕,next数组和整体的顺序上已经理解了存在的问题用next数组查找的时候要用while循环去查找,因为如果用if来查找,匹配到本次不一样,回退后仍然可能不一样......