Jian's Note

It's better to burn out than fade away!

Transformer Introduction

reference: [1]. The Transformer Family [2]. Attention [3]. 细节考究 Transformer Family Notations Symbol Meaning $d$ The model size / hidden state dimension / positional encoding size. $h$ The number of heads in multi-head attention layer. $L$ The segment length of input sequence. $X \in \mathbb R ^ {L \times d}$ The input sequence where each element has been mapped into an embedding vector of shape , same as the model size. $W^k \in \mathbb R ^ {d \times d^k}$ The key weight matrix. $W^q \in \mathbb R ^ {d \times d^k}$ The query weight matrix. $W^v \in \mathbb R ^ {d \times d^k}$ The value weight matrix.Often we have $d_k = d_v = d$. $W^K_i, W^q_i \in \mathbb R ^ {d \times d^k / h}; W^v_i \in \mathbb R^{d x d_v / h}$ The weight matrices per head. $W^o \in \mathbb d_v \times d$ The output weight

Lattice Planner

[new ref 1] (https://zhuanlan.zhihu.com/p/619039492) [old ref 1] (https://zhuanlan.zhihu.com/p/399545248) 一、Lattice Planner简介 LatticePlanner算法属于一种局部轨迹规划器,输出轨迹将直接输入到控制器,由控制器完成对局部轨迹的跟踪控制。因此,Lattice Planner输出的轨迹是一条光滑无碰撞满足车辆运动学约束和速度约束的平稳安全的局部轨迹。Lattice Pla

EM Planner

ref: [1]. https://blog.csdn.net/qq_41667348/category_11789612.html [2]. https://zhuanlan.zhihu.com/p/492988036 [3]. https://www.zhihu.com/column/c_1020971709242818560 [4]. https://blog.csdn.net/qq_35503971/article/details/106337900 简介 EM Planner是Apollo面向L4的实时运动规划算法,该算法首先通过顶层多车道策略,选择出一条参考路径,再根据这条参考线,在Frenet坐标系下,进行车道级的路径和速度规划,规划主要通过Dynamic Programming和基于样条的Quadratic Programming

Decision and Planning [1]

决策规划(一)自动驾驶安全、舒适、高效的“守护神” 决策规划分层架构 决策规划的任务,就是在对感知到的周边物体的预测轨迹的基础上,结合自动驾驶车辆的和当前位置,对车辆做出最合理的决策和控制。 正如人的大脑又分为左脑和右脑、并负责不同的任务一样,模块化自动驾驶系统中决策规划层也可以继续细分为执行不同任务的子

Decision and Planning [4]

ref: [1]. https://mp.weixin.qq.com/s?__biz=MzI2NDY3OTExNw==&mid=2247487486&idx=1&sn=830e7989f285214903c377b35e4b26d1&chksm=eaa9b45cddde3d4a800aaf20fe318f491db75dda42e195cf14bf40084764c29464e7ccb4aad7&mpshare=1&scene=24&srcid=0304BpDN7zLg79RhCijHZ2vJ&sharer_sharetime=1677894823237&sharer_shareid=56cef55fe29db276ae71bc9f586487a1&key=2feb26e6a61e3d07649dfd6a51be6bb25154bc6376a7efb1822eb9800c6762bdec0839b31eac2d53e7f3a38b41696a04763e2640b202142a465d103b5d979e98f8f58c6e6605e2a76edf1c546c4d4d5f42dfe55935123958e7d001d2f802261f3473e6a62ac38fbb731fa7b486d65f38fe75c7121cb46fbab1e7b14f414379f9&ascene=14&uin=MjUyNzM0ODk1&devicetype=Windows+10+x64&version=6309001c&lang=zh_CN&countrycode=DE&exportkey=n_ChQIAhIQpLbne6sMPw4l4V2IEPhLPxLZAQIE97dBBAEAAAAAAD%2FvOcyN4xcAAAAOpnltbLcz9gKNyK89dVj0cCpL6X4%2F9D%2BOuEd517ZezCwL3LfXM5G32y6FBL094wgcVWCTvgW%2Bz4fcrxht5Et9%2FUDDn2cw7Ay9T9fyCNiz21sZHDrEOhZlmmdWpjj2WKQ1flB1hocdJwzrYu0PN7DoVSQ4LEsw3yErLBUhYBSwGAArxC5y%2FzMbMZ8hFAQhKnpd9GPPRQCQmIeWvMl2Zb6nmhgch5icU5Ro%2F%2BmZx%2BV7tbmT0VIVBN7amHSXzs8eAiXSq0I%3D&acctmode=0&pass_ticket=xjMi8aZX3Oq63c%2B7lWkTHtjTObwzDeknqt%2FUl2bVeVY8VC%2F1bfFzwKgz6ydTfuv150JdS2QIagqoczC%2FeNOvBg%3D%3D&wx_header=1&fontgear=2 决策规划(四)行为决策常用算法 满足两个要求: 安全性和舒适性 运动规划生成的轨迹是一种由二维空间和一维时间组成的三维空间中的曲线,是一种偏实时的路径规划。 PRM 概率路标法 (Probabilistic Road Maps, PRM),是一种经典的采样方法,由Lydia E.等人在1996年提出。PRM主要包含三个阶段,一是采样阶段,二是碰撞检测阶段,

A star (A*) 算法

ref: [1] https://mp.weixin.qq.com/s/hgT-a3Ug9578k1DmioRgUg [2] http://www.gamedev.net/reference/articles/article2003.asp A*算法详解 0. 概述 虽然掌握了 A* 算法的人认为它容易,但是对于初学者来说, A* 算法还是很复杂的。 1. 搜索区域(The Search Area) 我们假设某人要从 A 点移动到 B 点,但是这两点之间被一堵墙隔开。如图 1 ,绿色是 A ,红色是 B ,中间蓝色是墙。 图 1 你应该注意到了,我们把要搜寻的区域划分成了正方形的格子。这是寻路的第一步

TensorRT Introduction

TensorRT 介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎

DPG

quote note abstract info tip success question warning failure danger bug example quote https://zhuanlan.zhihu.com/p/337976595 DRL:DQN, PG, AC, DDPG, SAC概述

强化学习 | PPO 论文解读

1. 引言 ​ 首先在论文的引言部分给出了经典的强化学习算法的不足之处:许多的经典强化学习算法在大型的模型、数据采样效率、鲁棒性(无需手动超参调整)上都有很大的提升空间。Q-Learning算法(包括函数逼近类算法)在许多简单问题上应用存在局限性,例如要满足状态空间与动作空间的离散型要求,并且其理解起来也是

DQN

[DQN]paper link: https://arxiv.org/pdf/1312.5602v1.pdf DQN: Playing Atari with Deep Reinforcement Learning General Architecture Here is Network listed: play Atari games using RL and perform better than human CNN + Q Learning: CNN for frame-skiped images features extraction; and Q Learning for policy generation Network Channel Kernel Size Stride Activation Output Size Input NA NA NA NA $84\times84\times4$ First Conv 16 8x8 4 Relu $20 \times 20 \times 6$ Second Conv 32 4x4 2 Relu $9 \times 9 \times 32$ Hidden NA NA NA Relu 256 Output NA NA NA None 4 to 18 在当时,普遍的做法是为每一个action学习一个函数,而不是一个网络结构直接输出所有q的value. Key 1: Input Info Process 图像处
0%