データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護

Book description

データがビジネスを駆動する現在、さらなるサービスの進化と利便性を推進するために、個人に関する情報は不可欠です。本書は、機微な個人情報を多く含むヘルスデータを題材に、プライバシー保護とデータ有用性という相反する命題をいかに満たすかについて、豊富な実例とともに紹介します。リスクベースの非特定化方法論、横断的データ、縦断的イベントデータ、データリダクション、地理空間の集約、マスキングなどデータの匿名化に必要な事柄を網羅的に解説。医療者はもちろん、個人のプライバシーを守りつつ、より洗練されたサービスを提供したいエンジニア、データ技術者必携の一冊です。

Table of contents

  1. 監訳者まえがき
  2. まえがき (1/3)
  3. まえがき (2/3)
  4. まえがき (3/3)
  5. 1章 イントロダクション
    1. 1.1 匿名化すべきか、せざるべきか
      1. 1.1.1 同意を得るか、匿名化するか
      2. 1.1.2 お金を節約する
      3. 1.1.3 人目に触れたくない
    2. 1.2 匿名化における2本の柱
      1. 1.2.1 マスキングの標準
      2. 1.2.2 非特定化の標準
    3. 1.3 実際の匿名化
      1. 1.3.1 組織の準備
      2. 1.3.2 実用的なものにする
      3. 1.3.3 ユースケース
    4. 1.4 差別を生む分析
    5. 1.5 他の分野における匿名化
    6. 1.6 本書について
  6. 2章 リスクベースの非特定化方法論
    1. 2.1 基本原則
    2. 2.2 非特定化方法論の手順
      1. 2.2.1 ステップ1:直接識別子(識別子)と間接識別子(準識別子)
      2. 2.2.2 ステップ2:閾値を設定する
      3. 2.2.3 ステップ3:起こりそうな攻撃について調べる
      4. 2.2.4 ステップ4:データを非特定化する
      5. 2.2.5 ステップ5:プロセスを文書化する
    3. 2.3 起こりそうな攻撃のリスク測定
      1. 2.3.1 T1:故意による再特定の試み
      2. 2.3.2 T2:故意でない再特定の試み
      3. 2.3.3 T3:データ侵害
      4. 2.3.4 T4:公開データ
    4. 2.4 再特定リスクの測定
      1. 2.4.1 確率メトリクス
      2. 2.4.2 情報損失メトリクス
    5. 2.5 リスク閾値
      1. 2.5.1 閾値を選ぶ
      2. 2.5.2 閾値を満たす
    6. 2.6 危険な仕事
  7. 3章 横断的データ:研究レジストリ
    1. 3.1 プロセスの概要
      1. 3.1.1 二次利用と開示
      2. 3.1.2 データの入手
      3. 3.1.3 研究プロトコルの策定
      4. 3.1.4 データアクセス委員会との交渉
    2. 3.2 オンタリオ州のBORN
      1. 3.2.1 BORNデータセット
    3. 3.3 リスクアセスメント
      1. 3.3.1 脅威モデリング
      2. 3.3.2 結果
      3. 3.3.3 年度毎に:リスク分析の再利用
    4. 3.4 最後に
  8. 4章 縦断的な退院時要約データ:州入院患者データベース
    1. 4.1 縦断的データ
      1. 4.1.1 横断的データのように扱ってはいけない
    2. 4.2 完全な知識のもとでの非特定化
      1. 4.2.1 おおよそ完全な知識
      2. 4.2.2 厳密に完全な知識
      3. 4.2.3 k-匿名性を満たす実装について
      4. 4.2.4 完全な知識のもとでの一般化
    3. 4.3 カリフォルニア州の州入院患者データベース
      1. 4.3.1 カリフォルニア州のSIDとオープンデータ
    4. 4.4 リスクアセスメント
      1. 4.4.1 脅威モデリング
      2. 4.4.2 結果
    5. 4.5 最後に
  9. 5章 日付、ロングテール、相関:診療報酬請求データ
    1. 5.1 入院患者の予測コンテスト
    2. 5.2 日付の一般化
      1. 5.2.1 日付を互いに無関係にランダム化する
      2. 5.2.2 そのままの間隔で日付をずらす
      3. 5.2.3 順序を保つように間隔を一般化する
      4. 5.2.4 日付から間隔、そして再び日付に
      5. 5.2.5 別のアンカー
      6. 5.2.6 その他の準識別子
      7. 5.2.7 関連のある日付
    3. 5.3 ロングテール
      1. 5.3.1 ロングテールによるリスク
      2. 5.3.2 脅威モデリング
      3. 5.3.3 打ち切るべき請求数
      4. 5.3.4 どの請求を打ち切るべきか
    4. 5.4 関連項目の相関
      1. 5.4.1 専門家の意見
      2. 5.4.2 予測モデル
      3. 5.4.3 データセットの非特定化による影響
    5. 5.5 最後に
  10. 6章 縦断的イベントデータ:災害レジストリ
    1. 6.1 攻撃力
      1. 6.1.1 攻撃力を抑える
      2. 6.1.2 実際の攻撃力
      3. 6.1.3 攻撃力のサンプリング
    2. 6.2 WTC災害レジストリ
      1. 6.2.1 イベントの収集
      2. 6.2.2 WTCデータセット
      3. 6.2.3 イベントの攻撃力
    3. 6.3 リスクアセスメント
      1. 6.3.1 脅威モデリング
      2. 6.3.2 結果
    4. 6.4 最後に
  11. 7章 データリダクション:研究レジストリ再び
    1. 7.1 サブサンプリング
      1. 7.1.1 どれだけ少なくできるのか
      2. 7.1.2 すべての種類のリスクに有効ではない
      3. 7.1.3 BORNデータへの適用
    2. 7.2 たくさんの準識別子
      1. 7.2.1 準識別子のサブセット
      2. 7.2.2 カバーリングデザイン
      3. 7.2.3 BORNデータをカバーする
      4. 7.2.4 最後に
  12. 8章 自由形式のテキスト:電子カルテ
    1. 8.1 正規化されていない文章
    2. 8.2 テキスト匿名化に対する一般的なアプローチ
    3. 8.3 匿名化渇みとしてテキストをマークする方法
    4. 8.4 評価が鍵になる
      1. 8.4.1 適切なメトリクス―厳密であるが適正なもの
      2. 8.4.2 検出率の基準とリスクベースのアプローチ
      3. 8.4.3 精度の基準
    5. 8.5 匿名化のルール
    6. 8.6 i2b2(生物医学コンピューティング研究センター)
      1. 8.6.1 i2b2のテキストデータセット
    7. 8.7 リスクアセスメント
      1. 8.7.1 脅威モデリング
      2. 8.7.2 ルールベースのシステム
      3. 8.7.3 結果
    8. 8.8 最後に
  13. 9章 地理空間の集約:カナダのDAコードと米国のZIPコード
    1. 9.1 『かいじゅうたちのいるところ』
    2. 9.2 適切な近傍領域の探索
      1. 9.2.1 近傍との距離
      2. 9.2.2 近傍のサークル
      3. 9.2.3 丸い地球
      4. 9.2.4 平らな地球
    3. 9.3 近傍のクラスタリング
      1. 9.3.1 すべてには(国/州/地方自治体の)境界線がある
      2. 9.3.2 最近傍の高速検出
    4. 9.4 家に近過ぎる
      1. 9.4.1 ジオプロキシ攻撃のレベル
      2. 9.4.2 ジオプロキシ攻撃のリスク測定
    5. 9.5 最後に
  14. 10章 医療分野におけるコード群:ハッカソン
    1. 10.1 実際のコード
    2. 10.2 一般化
      1. 10.2.1 疾病コード
      2. 10.2.2 処置コード
      3. 10.2.3 医薬品コード
    3. 10.3 秘匿
    4. 10.4 シャッフリング
    5. 10.5 最後に
  15. 11章 マスキング:腫瘍データベース
    1. 11.1 スキーマ
    2. 11.2 データを偽る
      1. 11.2.1 フィールド秘匿
      2. 11.2.2 ランダム化
      3. 11.2.3 仮名化
      4. 11.2.4 仮名の頻度
    3. 11.3 動的なマスキング
    4. 11.4 最後に
  16. 12章 セキュアな連結
    1. 12.1 さあ、連結しよう
    2. 12.2 セキュアな実施
      1. 12.2.1 これらは試さないでください
      2. 12.2.2 第三者問題
      3. 12.2.3 連結のための基本設訇
    3. 12.3 連結のための肝心なプロトコル
      1. 12.3.1 関係者にPaillier暗号を施す
      2. 12.3.2 未知のもののマッチング
    4. 12.4 スケールアップ
      1. 12.4.1 カッコウ・ハッシング
      2. 12.4.2 カッコウはどれくらい速いのか
    5. 12.5 最後に
  17. 13章 非特定化とデータ品質
    1. 13.1 有用な非特定化による有用なデータ
    2. 13.2 損失の度吇い
    3. 13.3 仕事に配慮した非特定化
      1. 13.3.1 データの有用性を改善するための質問
    4. 13.4 最後に
  18. 索引 (1/3)
  19. 索引 (2/3)
  20. 索引 (3/3)

Product information

  • Title: データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護
  • Author(s): Khaled El Emam, Luk Arbuckle, 木村 映善, 魔 狸, 笹井 崇司
  • Release date: May 2015
  • Publisher(s): O'Reilly Japan, Inc.
  • ISBN: 9784873117249

You might also like

book

動かして学ぶ量子コンピュータプログラミング ―シミュレータとサンプルコードで理解する基本アルゴリズム

by Eric R. Johnston, Nic Harrigan, Mercedes Gimeno-Segovia, 北野 章, 丸山 耕司

独自のシミュレータQCEngineを使ってJavaScriptで書かれたサンプルプログラムをブラウザ上で動かし、量子コンピュータでのプログラミングに必要な知識やスキルを学ぶことができます。量子コンピューティングの基礎とその可能性に関する直感的理解が容易になるよう、豊富な例と図を用いて説明します。前半では、単一キュビットに対する基本的な量子演算、多重キュビット演算、複合演算(量子プリミティブ)、基本的な量子アプリケーション、後半では、探索問題、画像処理、暗号問題、機械学習への応用について解説しており、本書だけで基礎から実践的な応用技術までを一気に習得できます。

book

ネットワーク自動化とプログラマビリティ ―次世代ネットワークエンジニアのためのスキルセット

by Jason Edelman, Scott S. Lowe, Matt Oswalt, 土屋 太二, 牧野 聡

本書はネットワーク自動化とプログラマビリティにフォーカスした解説書で、ネットワークエンジニアの業務を「より効率良く」「より生産的に」進化させるためのエッセンスが詰まったノウハウ集です。ネットワーク運用業務(ネットワーク装置のコンフィグレーションやトポロジー管理、サービス死活監視など)をどのように効率化・自動化させるかという観点から、次世代ネットワークエンジニアが知るべきすべての側面を網羅的に解説します。Pythonを用いたプログラミングの基本から、Linuxの操作、データモデル、Gitによる管理、実践的な自動化ツールの解説まで幅広く扱います。

book

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

by Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

新規事業を生み出し、顧客にすばやく価値を届けるには、それを支援する体制が必要です。本書は、あらゆるムダを省き、継続的に仮説検証を繰り返しながら、プロダクトやサービスを構築する「リーンスタートアップ」の手法を既存の企業に適用するための方法を説明します。市場環境や顧客ニーズの変化に対応し、イノベーションを加速させ、組織文化、ガバナンス、財務管理を最適化し続けるハイパフォーマンス組織になるための原則とパターンを、さまざまな成功企業のケーススタディとともに詳述します。

book

ユーザーストーリーマッピング

by Jeff Patton, 川口 恭伸, 長尾 高弘

本書はユーザーストーリーマッピングの作者、ジェフ・パットンが自ら開発した手法について書き下ろした書籍です。ストーリーマッピングの概要、優れたストーリーマッピングを作るためのコンセプトから、ユーザーストーリーを完全に理解する方法、ストーリーのライフサイクルの認識、イテレーションやライフサイクルごとにストーリーを使う方法まで、手法全体を包括的に解説します。製品開発、UXデザイン、業務要件定義の現場で、関係者が共通理解を持ち、使いやすく・実現可能なサービスや商品を作りたいと考えているすべての人、必携の一冊です。