Jian YE

Jian's Note

It's better to burn out than fade away! |

Jian YE's Github chart

点、线、面之间的关系

1. 点到直线的距离 第一种:本文默认情况下,直线的方程为 l:Ax+By+C=0l:Ax+By+C=0AA, BB 均不为 0,斜率为 klk_l,点的坐标为 P (x0, y0),点 PPll 的距离为 dd 。 则距离为: d=Ax0+By0+CA2+B2d=\frac{|Ax_0+By_0+C|}{\sqrt{A^2+B^2}} 推导过程如下: https://zhuanlan.zhihu.com/p/26307123 第二种:直线的方程为 l:y=ax+bl: y = ax + baa, bb 均不为 0,斜率为 aa,点的坐标为 P (x0, y0),点 PP 到直

RRT (Rapidly-Exploring Random Tree) 算法详解

0. 基于采样的运动规划算法 - RRT (Rapidly-exploring Random Trees) RRT 是 Steven M. LaValle 和 James J. Kuffner Jr. 提出的一种通过随机构建 Space Filling Tree 实现对非凸高维空间快速搜索的算法。该算法可以很容易的处理包含障碍物和差分运动约束的场景,因而广泛的被应用在各种机器人的运动规划场

强化学习 | 深度解读 Soft Actor-Critic 算法

深度解读 Soft Actor-Critic 算法 1 前言 机器人学习 Robot Learning 正在快速的发展,其中深度强化学习 deep reinforcement learning(DRL),特别是面向连续控制 continous control 的 DRL 算法起着重要的作用。在这一领域中,目前可以说有三类行之有效的 model free DRL 算法: TRPO,PPO DDPG 及其拓展(D4

一文详解 ChatGPT RLHF 背后的 PPO 强化学习训练

0. 引言 BP Network 最近火出圈的🚀 ChatGPT 中 RLHF 主要采用了就是 PPO 进行强化学习训练 主要运用在微调阶段(微调整个 10B~100B+ 参数的成本其实也非常高 )使用策略梯度强化学习 (Policy Gradient RL) 算法、近端策略优化 (PPO) 微调初始 LM 的部分或全部参数。 BP Network 以下主要参考台大李宏毅的推导过程 01. Vanilla policy gradient 动作 / 环境 / 奖励之间的关系: BP Network 轨迹可表示为集合 pθ(τ)=p(s1)pθ(a1s1)p(s2s1,a1)pθ(a1s1)p(s3s2,a2)=p(s1)t=1Tpθ(atst)p(st+1st,at)\begin{aligned}p_{\theta}(\tau)&=p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_1|s_1)p(s_3|s_2,a_2)\ldots\\&=p(s_1)\prod_{t=1}^Tp_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)\end{aligned}

LLM 预训练之 RLHF(一):RLHF 及其变种

0. 引言 在 ChatGPT 引领的大型语言模型时代,国内外的大模型呈现爆发式发展,尤其是以年初的 LLaMA 模型为首的开源大模型和最近百川智能的 baichuan 模型,但无一例外,都使用了「基于人类反馈的强化学习」(RLHF)来提升语言模型的性能,并在模型重注入了人类的偏好,以提高模型的有用性和安全性。不过 R

大模型学习笔记 | GPT 系列

万字长文,CVer 转 LLM 学习笔记之大模型 GPT 系列 导读 本文是作者对 GPT 系列文章的学习笔记,从个人角度梳理了 GPT 系列的迭代逻辑,从技术的逻辑连续性和关联性都有很好的讲解,篇幅较长,建议大家点赞收藏。 这个系列的笔记主要面向像我一样已经具备一定的深度学习基础,但是新接触 NLP 和大模型领域的读者,目的是能提纲挈领地快

Index

1、⭐softmax 如何防止指数上溢 原 softmax 公式: 工程化实现,防止指数上溢: ,使 a 等于 x 中最大值。 2、⭐Transformer 中的 positional encoding 为什么需要 PE: 因为 transfomer 是同时处理所有输入的,失去了位置信息。 编码应该满足的条件:a、对于每个位置词语,编码是唯一的 b、词语

强化学习笔记 [19] | AlphaGo Zero 强化学习原理

0. 引言 在强化学习 (十八) 基于模拟的搜索与蒙特卡罗树搜索 (MCTS) 中,我们讨论了 MCTS 的原理和在棋类中的基本应用。这里我们在前一节 MCTS 的基础上,讨论下 DeepMind 的 AlphaGo Zero 强化学习原理。 本篇主要参考了 AlphaGo Zero 的论文,AlphaGo Zero 综述和 AlphaGo Zero Cheat Sheet。

强化学习笔记 [18] | 基于模拟的搜索与蒙特卡罗树搜索 (MCTS)

0. 引言 在强化学习 (十七) 基于模型的强化学习与 Dyna 算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架 Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索 (Simulation Based Search)。 本篇主要参考了 UCL

强化学习笔记 [17] | 基于模型的强化学习与 Dyna 算法框架

强化学习 (十七) 基于模型的强化学习与 Dyna 算法框架 在前面我们讨论了基于价值的强化学习 (Value Based RL) 和基于策略的强化学习模型 (Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习 (Model Based RL),以及基于模型的强化学习算法框架 Dyna。 本篇主要参考了 UCL 强化学习课程
0%