第17章 プライバシーと法的要件 プライバシーと法的要件
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データ・プライバシーはMLプロジェクトにおいて重要な役割を果たすようになってきている。倫理的なAIを目指す動きが強まっており、データプライバシーに関する法的要件も増えている。MLモデルが行う予測の多くは、ユーザから収集した個人データに基づいているため、MLパイプラインにおけるプライバシーを高める戦略について認識を持ち、この分野の法律や規制についてある程度の知識を持つことが重要だ。
MLパイプラインのビルドを始める前に、どのようなデータを収集するのかについてユーザに対して透明性を確保することが不可欠だ。ユーザからデータを使用することに同意を得ていることを確認する必要がある。また、データ収集はモデルのトレーニングに必要なものに限定すべきである。このような基本原則ができたら、この章で説明するプライバシーを保護するMLのオプションに目を向けて、ユーザにより大きなプライバシーを提供することができる。
この記事を書いている時点では、プライバシーには常にコストがかかる。ユーザのプライバシーを高めるには、モデルの精度、計算時間、あるいはその両方が犠牲になる。ある極端な例では、何のデータも収集しないことは、やりとりを完全にプライベートに保つが、MLには全く役に立たない。もう一方の極端な例では、ある人物についてすべての詳細を知ることは、その人物のプライバシーを危険にさらすかもしれないが、非常に正確なMLモデルを作ることができる。我々は、モデルの精度を大きくトレードオフすることなくプライバシーを向上させることができる、プライバシー保存型MLの開発を見始めている。
この章では、これが重要なトピックである理由をいくつか説明する。そして、仮名化と匿名化の違いについて説明する。また、MLモデルを構築する際にユーザのプライバシーを向上させるために使用できるメソッドの概要も説明する。これらには、差分プライバシー、連携学習、暗号化MLが含まれる。この章には、TensorFlow Privacy (TFP)ライブラリを使った差分プライバシMLのコード例も含まれている。
なぜデータプライバシーが重要なのか?
MLパイプラインにおけるデータプライバシーは、複雑なことのように思えるかもしれないが、非常に重要なトピックだ。トレーニングデータ、予測リクエスト、あるいはその両方に、人に関する非常にセンシティブな情報が含まれる可能性がある。予測リクエストの場合、それらの人々はユーザである。機密データのプライバシーは保護されるべきである。データのプライバシーは、法律や規制の要件だけでなく、社会規範や典型的な個人の期待も尊重する必要がある。各個人のプライバシーを確保するためのセーフガードを導入することを検討し、その中には、MLモデルが、彼らが接触したデータの側面を記憶したり、明らかにしたりする可能性があるものも含まれる。また、ユーザが自分のデータを適切に透明化し、管理できるようにするための措置も必要だろう。
プライバシーをめぐる法的要件と、データを非公開にするためのメソッドについて説明する前に、非公開にする必要があるデータの種類と、それが漏洩した場合に起こりうる結果について説明する。
非公開にすべきデータとは何か?
人々から、あるいは人々のために、あるいは人々に関するデータを収集する際には、データ・プライバシーを考慮する必要がある。このデータを分類するには、個人識別可能情報(PII)として分類する方法と、機微(センシティブ)データとして分類する方法がある。 ...