4章多言語の固有表現認識
本書ではこれまで、英語の自然言語処理タスクを解決するためにTransformerを適用してきました。もし、処理するテキストがギリシャ語、スワヒリ語、クリンゴン語†1で書かれていたら、どうしたらよいでしょうか。1つのアプローチは、Hugging Face Hubで適切な事前学習済みの言語モデルを検索し、そのモデルを手もとのタスク用にファインチューニングすることです。しかし、これらの事前学習済みモデルは、ドイツ語、ロシア語、中国語などの「高リソース」言語にのみ存在する傾向があります。そして、そのような言語ではWeb上にある大量のテキストを利用して事前学習しています。また、コーパスが多言語である場合にも、同じ問題が起きます。複数の単言語モデルを保守することは、エンジニアリングチームにとって楽しいことではないでしょう。
[†1] 訳注:クリンゴン語はテレビドラマ『スタートレック』シリーズに登場する架空の宇宙人であるクリンゴン人が話す言語。
幸いなことに、多言語Transformerと呼ばれるタイプのモデルを利用できます。BERTと同様に、これらのモデルは事前学習タスクとしてマスク言語モデルを使用しますが、100以上の言語のテキストに対して同時に学習されます。多言語にわたる膨大なコーパスで事前学習をすることで、多言語Transformerはゼロショット異言語間転移を可能にします。つまり、ある言語でファインチューニングされたモデルを、それ以上学習することなくほかの言語に適用できるのです。このため、これらのモデルは「コードスイッチング」(1つの会話の中で、話者が2つ以上の言語や方言を交互に使い分けること)にも適しています。
本章では、XLM-RoBERTa(「3章 Transformerの詳細 ...
Get 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.