6章要約
研究論文や決算報告、メールのやり取りなど、一度は文書の要約をする必要に迫られたことがあるのではないでしょうか? 考えてみれば、要約には長い文章を理解し、内容を推論し、元の文書の主なトピックを盛り込んだ流暢な文章を作成するなど、さまざまな能力が要求されます。また、ニュース記事を正確に要約することと、契約書の要約は別物なので、ドメインに関する高い汎化能力を必要とします。このような理由から、要約はTransformerを含むニューラル言語モデルにとって難しいタスクです。しかし、要約を自動でできると、専門家によるワークフローの大幅な高速化を期待できます。企業であれば、社内知識の集約、契約書の要約、ソーシャルメディアリリース用コンテンツの自動生成などに活用できます。
本章では、要約に関する課題を理解するために、事前学習済みのTransformerを活用して文書を要約する方法について検討します。要約は入力テキストとターゲットテキストがある古典的な系列変換(Seq2seq)タスクです。「1章 入門 Transformers」で見たように、このタスクはエンコーダ・デコーダ系のTransformerが得意とします。
本章では、複数人の対話を要約するために、独自のエンコーダ・デコーダモデルを構築します。しかしその前に、要約のための標準的なデータセットの1つであるCNN/DailyMailコーパスを確認することから始めましょう。
6.1 CNN/DailyMailデータセット
CNN/DailyMailデータセットは、CNNとDailyMailによる30万件のニュース記事と、記事に対応する箇条書きからなる要約で構成されています。このデータセットの重要な点は、要約が抽象的であり抽出的ではないことです。つまり、単純な抜粋ではなく、新しい文章で構成されているのです。このデータセットはHub( ...
Get 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.