14章機械学習のためのデータプライバシー

本章では、機械学習パイプラインに適用されるデータプライバシーについて、いくつかの側面から紹介します。プライバシー保護機械学習は、TensorFlowや他のフレームワークに取り入れられ始めたばかりの非常に活発な研究分野です。本章では、執筆時点でもっとも有望視されている技術の背後にある原理をいくつか説明し、それらが機械学習パイプラインにどのように適合するかについて、いくつかの実践例を示します。

本章ではプライバシー保護機械学習の手法として「差分プライバシー」「Federated Learning」「暗号化された機械学習」の3つを取り上げます。

14.1 データプライバシーの問題

データのプライバシーとは、信頼に関わるあらゆることであり、人々が秘密にしておきたいデータの公開を制限することです。プライバシー保護機械学習にはさまざまな手法がありますが、その中から選択するためには、次の質問に対する回答を想定しておくべきです。

  • データを公開したくない相手は誰か
  • システムのどの部分を非公開にし、どの部分を世間に公開できるか
  • データの閲覧権限がある信頼できる関係者は誰か

これらの質問への回答は、本章で説明されている方法のうち、どの方法が皆さんのユースケースに最適か決定するのに役立ちます。

14.1.1 データプライバシーを気にする理由

機械学習プロジェクトでは、データのプライバシーが重要な要素になりつつあります。ユーザーのプライバシーを取り巻く法的要件は数多くあります。たとえば、2018年5月に施行されたEUの一般データ保護規則(GDPR)や、2020年1月に施行されたカリフォルニア州の消費者プライバシー法などが挙げられます。機械学習向けの個人データの使用には倫理規定が必要であり、機械学習を搭載した製品のユーザーは、自分のデータがどう使われているのかについて、深い懸念を抱き始めています。機械学習では伝統的にデータが不足しており、モデルが行う予測の大部分はユーザーから収集した個人データに基づいているため、機械学習はデータプライバシーをめぐる議論の最前線に置かれているのです。 ...

Get 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.