
言語モデルとは
1.1
大規模言語モデルは言語モデルの大規模なものを言います。何が大規模なのか、また大規模
でない言語モデルとの違いは何かを理解するために、まずは言語モデルについて説明します。
ここでは言語モデルという用語を言語とモデルに分解し、モデル、言語、言語モデルと順に見
ていきましょう。
1.1.1
モデル
モデルは、様々な意味で用いられる用語です。言語モデルの場合の「モデル」は、実世界の
現象を予測する数式やソフトウェアを指します。このようなモデルは、なんらかの入力を受け
取り、なんらかの予想を出力します。図1.1.1 に一般化したモデルを示します。モデルは四角
形で表され、左からの矢印は入力、モデルから右への矢印は出力を表します。ここでは入力と
出力をそれぞれ一つの矢印で表しましたが、入力と出力にはそれぞれ一つ以上の値があるもの
とします。例えば、気象モデルでは大気の現状や海の状態などの多くの変数を入力として受け
取り、未来の気温や降水量を予測します。
モデルの作成方法には多様なアプローチが存在します。機械学習はその一つです。機械学習
を用いて作られるモデルの構造は、数式によって定義されます。例えば、
y
=
b
+
ax
という数
式は、単純なモデルとみなすことができます。この式の場合、入力は
x
であり、出力は
y
の値
となります。
x
と
y
はそれぞれ、入力変数(統計学では説明変数)、出力変数(統計学では応答
変数)と呼ばれたりします。ここで係数
a
と切片
b
はモデルのパラメータ、すなわち機械学習
アルゴリズムによって決められる変数です。パラメータは、機械学習の分野では重みとも呼ば ...