78 words 1 mins.

# Continuous Batching Continuous Batching,连续批处理,也称动态批处理或基于迭代的批处理. # 静态批处理 # 连续批处理 # 参考文章
3.9k words 4 mins.

# AI 算法面试题 # 简单讲一下 Transformer 结构 Attention 的作用:获取上下文的关系, FFN 的作用:存储知识 使用的归一化方法是 LayerNorm 计算复杂度和空间复杂度都是N2N^{2}N2,其中NNN 指代的是 seq_len # BN 与 LN BN 和 LN 均是对数据做正则化,将输入数据归一至正态分布,加速收敛,提高训练的稳定 # 模型推理过程 # MHA、GQA、MQA MQA(Multi Query Attention) : 让所有的头共享同一份 Key 和 Value 矩阵 GQA(Grouped Query Attention)...
6.1k words 6 mins.

# Flash Attention[1] 传统 Transformer 模型在成处理长序列, Flash Attention 是一种在 IO 上优化的推理加速策略。通过算子融合将 Attention 操作合并,引用分块技术 Tiling 计算注意力矩阵和 Online Softmax , 可实现每次从 SRAM 去读取数据而避免频繁的 HBM 的 IO 延迟. # Motivation 当把 Transformer 模型的上下文拓展到更长时是非常困难的,主要是因为: self-attention...
444 words 1 mins.

# Normalization # ICS ICS: 内部协变量转移, Internal Covariate Shift . 在训练多层神经网络,每一层的神经网络在训练过程当中,它的参数是会发生变动的,前一层网络参数的变动会影响下一层的输入数据,如果数据分布发生重大变化,就会导致训练过程中收敛慢、不稳定的问题。固为了达到好的训练效果,需要采取一些小心翼翼的策略,比如减小学习率,精心初始化参数,有时还需要 Dropout 技巧. # Batch Normalization[1] 批归一化 BatchNorm , 一种加速深度神经网络训练速度的方法。同时可以减少 ICS...
795 words 1 mins.

# Llama # 创新点 Pre-Normalization :前置层归一化,可以让训练更加稳定,防止梯度消失的问题. RMSNorm :均方根归一化,相比于 Layer-Normalization RoPE :旋转位置编码,与传统的 Transform 模型的固定位置编码不同,其是一种动态的位置编码. RoPE 不直接嵌入词向量中,而是对 QKV 做了选择操作,从而引入对应词的位置信息. SwiGLU :激活函数。结合了 GLU 和 Switch 的优势. # RMS Normalization xi=xiRMS(X)giRMS(X)=1n∑i=1nxi2x_{i} =...
6.8k words 6 mins.

# 牛客小白月赛 93 # 生不逢七 # 题目描述 睡前游戏中最简单又最好玩的游戏就是这个啦! 该游戏规则为:多名玩家轮流报数,当要报的数字中含有 7 或者是 7 的倍数时(例如 37,49),不能将该数报出来,要换一种提前规定好的方式报数,当一个人报错或者报慢了这个人就输了。 我们认为玩家是围成一圈进行游戏的,第 n 个人报完数之后,会轮到第 1 个人报数。 现在告诉你玩家的总人数以及你上一个人报的数(用数字表示,即便这个数含有 7 或者是 7 的倍数),你需要预测接下来 k 轮你要报的数字,当你需要报的数字含有 7 或者是 7 的倍数时,你需要输出字符 p。 #...