く設定しています。これは、GQA(Grouped Query Attention)[Ainslie et al. 2023]と呼ば
れる手法です。
GQAでは、クエリをグループ化し、同じグループに属するクエリに対して、同じキーとバ
リューを使用します。キーとバリューのパラメータを複数のクエリヘッドで共有することで、
計算量とメモリ使用量を削減できます。クエリに対してキーとバリューの数が少なくても推論
性能を維持できることが知られています。
線形層におけるバイアス項の削除
元のTransformerでは、線形層にバイアス項が含まれていました。通常の線形変換は以下の
ように計算されます。
Y
=
XW
+
B
ここで、
X
は入力行列、
W
は重み行列、
B
はバイアス項です。
Llama 3では、バイアス項を削除し、線形変換を次のように計算します。
Y
=
XW
バイアス項を削除することでパラメータ数が減少し、計算効率が向上します。特に大規模な
モデルでは、バイアス項の影響が相対的に小さく性能への影響は限定的と考えられます。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.