Skip to Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
12.4 フィルタリングとサンプリング 369
で使
われるアプリケーション用に言語モデルを構築していて、その訓練のために Twitter のデータを使うこ
とにする。Twitter のすべてのツイートのうち、英語はわずか 1/3 ほどなので、英語以外の言語をすべてフィ
ルタリングして取り除けば、意味のある分析のために十分なツイートが残る。
フィルタリングは、特殊な形のクリーニングだと考えることができる。フィルタリングでデータを取り除
くのは、データが誤っているからではなく、取り組んでいる案件とは無関係で邪魔になるからである。無関
係なデータや解釈が難しいデータをフィルタリングするためには、アプリケーション固有の知識が必要にな
る。英語はアメリカで使われている主要言語なので、このような形でデータをフィルタリングすることには
間違いなく合理性がある。
しかし、フィルタリングによってバイアスが持ち込まれる。アメリカの人口の 10 % 以上はスペイン語を
話す。アミーゴ、言語モデルは彼らも代表すべきじゃないのかい? 求めている結果を達成するためには、適
切なフィルタリング基準を選択することが大切だ。おそらく、言語ではなく、ツイートした位置に基づいて
ツイートをフィルタリングした方がよいだろう。
これとは対照的に、サンプリング(標本抽出)は、対象領域固有の基準など使わず、適切なサイズの部分
集合を無作為に選ぶことである。よいデータを集めた部分標本を抽出すべき理由はいくつかある。
適切なサイズの訓練データ:単純で頑健なモデルは ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
Rではじめるデータサイエンス

Rではじめるデータサイエンス

Hadley Wickham, Garrett Grolemund, 黒川 利明, 大橋 真也
プログラミングC# 第8版

プログラミングC# 第8版

Ian Griffiths, 木下 哲也, 鈴木 幸敏

Publisher Resources

ISBN: 9784873118918Other