Skip to Content
Python によるテキスト分析の応用
book

Python によるテキスト分析の応用

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda
May 2025
Beginner to intermediate
332 pages
5h 22m
Japanese
O'Reilly Media, Inc.
Content preview from Python によるテキスト分析の応用

用語集

凝集性

凝集型クラスタリングは階層型クラスタリングの一種で、単一のインスタンスから始まるクラスタを生成し、すべてが1つのグループに属するまで、類似度によって反復的に集約される。

アプリケーションプログラミングインタフェース(API)

アプリケーションプログラミングインタフェースは、ソフトウェアコンポーネントがどのように通信するかを正式に定義する。データAPIは、ユーザがインターネットから情報を読み取ったり取得したりするための体系的な方法を提供する。Scikit-Learn APIは、クラス継承によって実装されたマシン学習アルゴリズムへの一般化されたアクセスを提供する。

バッグ・オブ・ワード(BOW)/連続バッグ・オブ・ワード(CBOW)

Bag-of-wordsはテキストをエンコーディングするメソッドで、コーパスのすべての文書を、コーパスの語彙に等しい長さのベクトルに変換する。Bag-of-words表現の主な洞察は、意味と類似性が語彙にエンコーディングされるということである。

げいしゅ

Baleenは、自然言語処理研究のためのコーパスを構築するための、オープンソースのブログ自動取り込みサービスである。

中心性

グラフG のノードN が与えられたとき、GN の結果としてどの程度接続されているかを示すのが間 中心度である。間中心度は、N を含むG の最短パスの、G の最短パスの合計数に対する比率として計算される。

バイアス

バイアスは教師あり学習問題における2つのエラーの1つで,推定量の予測値と真値の差として計算される.バイアスが高いということは、推定値の予測値が正解から大きく乖離していることを示す。

正準化

正準化は、エンティティ解決に関わる3つの主要なタスクの1つで、複数の表現が可能なデータを標準的な形式に変換することを伴う。

中心性

ネットワークグラフにおいて、中心性はノードの相対的な重要性を表す尺度である。重要なノードは、ほとんどのノードに直接または間接的に接続されているため、より高い中心性を持つ。

チャットボット

チャットボットとは、入力されたテキストや音声をインタプリタとして解釈し、適切で有用なレスポンスを出力することを目的とした、会話に参加するプログラムである。

分類

分類は教師ありマシン学習の一種であり、独立変数で構成されるインスタンス間のパターンと、与えられたカテゴリ目標変数との関係を学習しようとするものである。分類器は、訓練データにおける予測されたカテゴリと実際のカテゴリとの間のエラーを最小化するように訓練することができ、いったん適合すると、訓練中に検出されたパターンに基づいて新しいインスタンスにカテゴリ・ラベルを代入するようにデプロイすることができる。

分類レポート/分類ヒートマップ

分類レポートは、クラスごとの主な分類メトリック(精度、リコール、F1スコア)を示している。

親密度中心性

近接性中心性は、グラフのノードN G から他のすべてのノードまでの平均パス距離を計算し、グラフのサイズで正規化する。近接性中心性は、N で発信された情報が、G 全体でどれだけ速く拡散するかを記述する。

クラスタリング

教師なし学習やクラスタリングは、ラベル付けされていないデータから隠れた構造を発見する方法である。クラスタリング・アルゴリズムは、インスタンスを意味のある非類似グループに整理する特徴を用いて、ラベル付けされていないデータの潜在パターンを発見することを目的とする。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

入門 Python 3 第2版

入門 Python 3 第2版

Bill Lubanovic, 鈴木 駿, 長尾 高弘

Publisher Resources

ISBN: 9798341651418