Jian's Note

It's better to burn out than fade away!

点、线、面之间的关系

发布于 2024-05-12 收录于 Math

1. 点到直线的距离第一种: 本文默认情况下，直线的方程为 $l:Ax+By+C=0$，$A$, $B$ 均不为0，斜率为 $k_l$，点的坐标为P(x0, y0)，点 $P$ 到 $l$ 的距离为 $d$ 。则距离为: $$d=\frac{|Ax_0+By_0+C|}{\sqrt{A^2+B^2}}$$ 推导过程如下: https://zhuanlan.zhihu.com/p/26307123 第二种: 直线的方程为 $l: y = ax + b$，$a$, $b$ 均不为0，斜率为 $a$，点的坐标为P(x0, y0)，点 $P$ 到直

RRT (Rapidly-Exploring Random Tree) 算法详解

发布于 2024-05-09 收录于 AV Robotics

0. 基于采样的运动规划算法-RRT(Rapidly-exploring Random Trees) RRT是Steven M. LaValle和James J. Kuffner Jr.提出的一种通过随机构建Space Filling Tree实现对非凸高维空间快速搜索的算法。该算法可以很容易的处理包含障碍物和差分运动约束的场景，因而广泛的被应用在各种机器人的运动规划场

强化学习 | 深度解读Soft Actor-Critic 算法

发布于 2024-05-04 收录于 RL

深度解读Soft Actor-Critic 算法 1 前言机器人学习Robot Learning正在快速的发展，其中深度强化学习deep reinforcement learning（DRL），特别是面向连续控制continous control的DRL算法起着重要的作用。在这一领域中，目前可以说有三类行之有效的model free DRL算法： TRPO,PPO DDPG及其拓展（D4

一文详解 ChatGPT RLHF 背后的 PPO 强化学习训练

发布于 2024-05-04 收录于 LLM

0. 引言 BP Network 最近火出圈的🚀 ChatGPT 中 RLHF 主要采用了就是 PPO 进行强化学习训练主要运用在微调阶段（微调整个 10B～100B+ 参数的成本其实也非常高）使用策略梯度强化学习 (Policy Gradient RL) 算法、近端策略优化 (PPO) 微调初始 LM 的部分或全部参数。 BP Network 以下主要参考台大李宏毅的推导过程 01. Vanilla policy gradient 动作/环境/奖励之间的关系： BP Network 轨迹可表示为集合 $$\begin{aligned}p_{\theta}(\tau)&=p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_1|s_1)p(s_3|s_2,a_2)\ldots\\&=p(s_1)\prod_{t=1}^Tp_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)\end{aligned}$$

LLM预训练之RLHF（一）：RLHF及其变种

发布于 2024-05-04 收录于 LLM

0. 引言在ChatGPT引领的大型语言模型时代，国内外的大模型呈现爆发式发展，尤其是以年初的LLaMA模型为首的开源大模型和最近百川智能的baichuan模型，但无一例外，都使用了「基于人类反馈的强化学习」（RLHF）来提升语言模型的性能，并在模型重注入了人类的偏好，以提高模型的有用性和安全性。不过R

大模型学习笔记 | GPT 系列

发布于 2024-05-03 收录于 LLM

万字长文，CVer 转 LLM 学习笔记之大模型GPT 系列导读本文是作者对 GPT 系列文章的学习笔记，从个人角度梳理了 GPT 系列的迭代逻辑，从技术的逻辑连续性和关联性都有很好的讲解，篇幅较长，建议大家点赞收藏。这个系列的笔记主要面向像我一样已经具备一定的深度学习基础，但是新接触 NLP 和大模型领域的读者，目的是能提纲挈领地快

Index

发布于 2024-04-26 收录于 DL

1、⭐softmax如何防止指数上溢原softmax公式：工程化实现，防止指数上溢：，使a等于x中最大值。 2、⭐Transformer中的positional encoding 为什么需要PE: 因为transfomer是同时处理所有输入的，失去了位置信息。编码应该满足的条件：a、对于每个位置词语，编码是唯一的 b、词语

强化学习笔记 [19] | AlphaGo Zero强化学习原理

发布于 2024-02-25 收录于 RL

0. 引言在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中，我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上，讨论下DeepMind的AlphaGo Zero强化学习原理。本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。

强化学习笔记 [18] | 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

发布于 2024-02-25 收录于 RL

0. 引言在强化学习(十七) 基于模型的强化学习与Dyna算法框架中，我们讨论基于模型的强化学习方法的基本思路，以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法：基于模拟的搜索(Simulation Based Search)。本篇主要参考了UCL

强化学习笔记 [17] | 基于模型的强化学习与Dyna算法框架

发布于 2024-02-25 收录于 RL

强化学习(十七) 基于模型的强化学习与Dyna算法框架在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。本篇主要参考了UCL强化学习课程