AI | 强化学习 | qlearning

之前跟着莫烦python用numpy和pandas来做强化学习的qtable，感觉pandas太反人类了，这次把他课上的例子用python原生的字典来做qtable重新写了一份，便于理解。

代码如下：

import time
import random

N_STATES = 10       # 世界的最大长度
MAX_EPISODES = 15
FRESH_TIME = 0.01       # 刷新时间

class QLearning():
	def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
		self.actions = actions
		self.lr = learning_rate
		self.gamma = reward_decay
		self.epsilon = e_greedy
		# 用字典来做q表
		'''
		{
			'state1': {'action1': $reward1, 'action2': $reward2}
			...
		}
		
		'''
		self.q_table = {}
	
	def check_state_exist(self, state):
		if state not in self.q_table:
			self.q_table[state] = {}
			for action in self.actions:
				self.q_table[state][action] = 0.0
	
	def choose_action(self, observation):
		# 查看情况是否存在
		self.check_state_exist(observation)
		# 90%的概率选择最优解
		if random.random() < self.epsilon:
			state_action = self.q_table[observation]   # 取出q表行，找最大值
			_max = max(state_action.values())
			_actions = []
			for key,value in state_action.items():
				if value == _max:
					_actions.append(key)
			action = random.choice(_actions)
		else:
			action = random.choice(self.actions)
		return action
		
	def learn(self, s, a, r, s_):
		self.check_state_exist(s_)
		q_predict = self.q_table[s][a]
		if s_ != 'win':
			q_target = r + self.gamma * max(self.q_table[s_].values())
		else:
			q_target = r   # terminal
		
		self.q_table[s][a] += self.lr * (q_target - q_predict)  # update


# 环境反馈
def get_env_feedback(S, A):
	if A == 'right':
		if S == N_STATES - 2:   # 游戏结束
			S_ = 'win'
			R = 1
		else:
			S_ = S+1
			R = 0
	else:
		R = 0
		if S == 0:
			S_ = S
		else:
			S_ = S - 1
	return S_, R

# 环境更新
def update_env(S, episode, step_counter):
	env_list = ['-']*(N_STATES -1) + ['T']   # 一维移动环境
	if S == 'win':
		interaction = 'Episode %s: total_step = %s' % (episode+1,step_counter)
		print('\r{}'.format(interaction), end='')
		time.sleep(2)
		print('\r                               ', end='')
	else:
		env_list[S] = 'o'
		interaction = ''.join(env_list)
		print('\r{}'.format(interaction), end='')
		time.sleep(FRESH_TIME)

def run():
	rl = QLearning(actions=['left', 'right'])
	for episode in range(MAX_EPISODES):
		print(rl.q_table)
		step_counter = 0
		S = 0
		is_terminated = False
		update_env(S, episode, step_counter)
		while not is_terminated:
			A = rl.choose_action(S)
			S_, R = get_env_feedback(S, A)    # 决策+获取下一个状态
			rl.learn(S, A, R, S_)
			if S_ == 'win':
				is_terminated = True   # 结束这一回合
			S = S_   # 移动
			update_env(S, episode, step_counter+1)
			step_counter += 1
	return rl


RL = run()
print(RL.q_table)

标签：AI,qlearning,actions,state,env,action,table,强化,self
From： https://www.cnblogs.com/Mz1-rc/p/17018209.html

zabbix: failed to accept an incoming connection
在日常维护监控zabbix的时候发现agent监控日志出现了问题： failedtoacceptanincomingconnection:connection from "89.248.165.41" rejected,allowedhosts: ......
Failed to load the native TensorFlow runtime.DLL load failed解决办法
错误原因：tensorflow版本安装有问题解决办法：卸载原来的版本：pipuninstalltensorflowpipuninstalltensorflow-gpu找到对应python和cuda版本对应的tensorflow,重新......
HZNU Winter Trainning 8 补题
CodeForces-1353DConstructingtheArray题目传送门：https://vjudge.net/contest/536385#problem/D题意：给你一个全是0的数组，用1-n的数将这个数组填满，规则是从左至右筛......
IDEA设置System.out.println()和main方法快捷键
大家好，我是冰河~~IDEA简直就是开发Java程序的神器，之前很多使用eclipse开发的小伙伴也纷纷投入到使用IDEA的大军中。那么，用惯了eclipse的小伙伴常常会对IDEA的快捷键不太习惯......
TensorFlow数据读取机制：文件队列 tf.train.slice_input_producer和 tf.data.Dataset机
TensorFlow数据读取机制：文件队列tf.train.slice_input_producer和tf.data.Dataset机制之前写了一篇博客，关于《Tensorflow生成自己的图片数据集TFrecord》，项......
《MySQL高级篇》七、性能分析工具的使用（慢查询日志 | EXPLAIN | SHOW PROFILING | 视
......
containerd容器存储探究
ContainerD容器目录结构探究启动容器作为开始，我们需要去启动一个容器。你可以通过命令行的方式来启动一个容器，例如：ctripulldocker.io/library/nginx:alpinectrc......
SpringBoot启动时报错 no main manifest attribute, in XXX1.0.0-SNAPSHOT.jar
SpringBoot启动时报错nomainmanifestattribute,inXXX1.0.0-SNAPSHOT.jar 问题原因在pom.xml的build中添加plugin 解决方案在pom.xml文件中，添加如下内容：......
真知灼见｜AI视觉的发展趋势与应用（上）
计算机视觉概述1963年，计算机视觉之父拉里·罗伯茨首次描述了用计算机从2D图像中理解和构造物体3D信息的过程，开创了计算机视觉领域。随后在20世纪的缓慢进展中，科学家逐渐将......
真知灼见｜AI视觉的发展趋势与应用（下）
计算机视觉在金融行业的应用近几年计算机视觉算法在金融领域应用越来越多，在支付、双录、ICR等场景都发挥着举足轻重的作用。该技术不断赋能金融领域，提升金融领域的服务效......

AI | 强化学习 | qlearning

AI | 强化学习 | qlearning

相关文章

赞助商

阅读排行