所有文章 - yejian's blog

2024

点、线、面之间的关系 05-12

RRT (Rapidly-Exploring Random Tree) 算法详解 05-09

强化学习 | 深度解读Soft Actor-Critic 算法 05-04

一文详解 ChatGPT RLHF 背后的 PPO 强化学习训练 05-04

LLM预训练之RLHF（一）：RLHF及其变种 05-04

大模型学习笔记 | GPT 系列 05-03

Index 04-26

强化学习笔记 [19] | AlphaGo Zero强化学习原理 02-25

强化学习笔记 [18] | 基于模拟的搜索与蒙特卡罗树搜索(MCTS) 02-25

强化学习笔记 [17] | 基于模型的强化学习与Dyna算法框架 02-25

强化学习笔记 [16] | 深度确定性策略梯度(DDPG) 02-25

强化学习笔记 [15] | A3C 02-25

强化学习笔记 [14] | Actor-Critic 02-25

强化学习笔记 [13] | 策略梯度(Policy Gradient) 02-25

强化学习笔记 [12] | Dueling DQN 02-25

强化学习笔记 [11] | Prioritized Replay DQN 02-25

强化学习笔记 [10] | Double DQN (DDQN) 02-23

强化学习笔记 [9] | Deep Q-Learning进阶之Nature DQN 02-23

强化学习笔记 [8] | 价值函数的近似表示与Deep Q-Learning 02-23

强化学习笔记 [7] | 时序差分离线控制算法Q-Learning 02-23