# Llama

Post author: Value @ 繁華落盡 似水流年
Post link: <a href="http://example.com/value/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%8E%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/Llama" title="Llama">http://example.com/value/机器学习与深度学习/Llama
Copyright Notice: All articles in this blog are licensed under <span class="exturl" data-url="aHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLXNhLzQuMC9kZWVkLnpo"> (CC) BY-NC-SA unless stating additionally.

# 创新点

Pre-Normalization ：前置层归一化，可以让训练更加稳定，防止梯度消失的问题.
RMSNorm ：均方根归一化，相比于 Layer-Normalization
RoPE ：旋转位置编码，与传统的 Transform 模型的固定位置编码不同，其是一种动态的位置编码. RoPE 不直接嵌入词向量中，而是对 QKV 做了选择操作，从而引入对应词的位置信息.
SwiGLU ：激活函数。结合了 GLU 和 Switch 的优势.

$x_{i} = \frac{x_{i}}{RMS(X)}g_{i} \\ RMS(X) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}}$

	class LlamaRMSNorm(nn.Module):
	def __init__(self, hidden_size, eps=1e-6):
	super().__init__()
	self.weight = nn.Parameter(torch.ones(hidden_size))
	self.variance_epsion = eps

	def forward(self, hidden_states):
	input_dtype = hidden_states.dtype
	hidden_states = torch.to(torch.float32)
	variance = hidden_states.pow(2).mean(dim=-1, keepdims=True)
	hidden_states = hidden_states * torch.rsqrt(variance)
	return self.weight * hidden_states.to(input_dtype)