book

Python Polars ―高速なデータ処理を実現する次世代ライブラリ

Name: Python Polars ―高速なデータ処理を実現する次世代ライブラリ
ISBN: 9784814401437

by Jeroen Janssens, Thijs Nieuwdorp, 中田秀基

December 2025

Intermediate to advanced

468 pages

7h 58m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

表紙
大扉
原書大扉
クレジット
『Python Polars: The Definitive Guide』への称賛
序
はじめに
第I部　始める
1章　Polarsとは
1.1　このPolarsというのは何なのか？1.1.1　主な特徴1.1.2　重要な概念1.1.3　優れた点1.2　Polarsを使う理由1.2.1　性能1.2.2　ユーザビリティ1.2.3　評判1.2.4　持続可能性1.3　Polarsと他のデータ処理パッケージとの比較1.4　Pythonに注目する理由1.5　本書の構成1.6　ETLのサンプルプロジェクト1.6.1　抽出1.6.2　ボーナス：地区とステーションを可視化する1.6.3　変換1.6.4　ボーナス：行政区ごとの1日の利用回数を可視化する1.6.5　ロード1.6.6　ボーナス：怠けた（lazy）ほうが速くなる1.7　本章で学んだこと
2章　Polarsを使い始める
2.1　環境のセットアップ2.1.1　プロジェクトのダウンロード2.1.2　uvのインストール2.1.3　プロジェクトのインストール2.1.4　仮想環境での作業2.1.5　インストールを確認する2.2　JupyterLabの速習コース2.2.1　キーボードショートカット2.3　他のプロジェクトへのPolarsのインストール2.3.1　オプション依存ライブラリ2.3.2　相互運用のためのオプション依存ライブラリ2.3.3　スプレッドシートのためのオプション依存ライブラリ2.3.4　データベースのためのオプション依存ライブラリ2.3.5　リモートファイルシステムのためのオプション依存ライブラリ2.3.6　他のI/Oフォーマットのためのオプション依存ライブラリ2.3.7　機能追加のためのオプション依存ライブラリ2.3.8　オプション依存ライブラリのインストール2.4　Polarsの設定2.4.1　コンテキストマネージャを用いた一時的な設定2.4.2　デコレータを用いたローカル設定2.5　Polarsをソースからコンパイルする2.5.1　エッジケース：超大規模データセット2.5.2　エッジケース：AVXをサポートしないプロセッサ2.6　本章で学んだこと

3章　pandasからPolarsへの移行
3.1　amimals.csv3.2　認識すべき類似点3.3　外見3.3.1　コードの違い3.3.2　表示の違い3.4　忘れるべき概念3.4.1　Index3.4.2　軸3.4.3　インデックス参照とスライス3.4.4　即時評価3.4.5　寛容さ3.5　忘れるべき構文3.5.1　共通操作の比較3.6　pandasとの変換3.7　本章で学んだこと
第II部　フォーム
4章　データ構造とデータ型
4.1　Series、DataFrame、LazyFrame4.2　データ型4.2.1　ネストデータ型4.2.2　欠損値浮動小数点数の表現4.3　データ型の変換4.4　本章で学んだこと
5章　即時APIと遅延API
5.1　即時API：DataFrame5.2　遅延API：LazyFrame5.3　性能の違い5.4　機能の違い5.4.1　属性5.4.2　集約メソッド5.4.3　計算メソッド5.4.4　記述メソッド5.4.5　GroupBy メソッド5.4.6　エクスポートメソッド5.4.7　操作メソッドと選択メソッド5.4.8　その他のメソッドアウトオブコア計算は安定化されていない5.5　ヒントとトリック5.5.1　LazyFrameからDataFrameへ、DataFrameからLazyFrameへ5.5.2　LazyFrameとDataFrameのジョイン5.5.3　途中結果のキャッシュ5.6　本章で学んだこと
6章　データの読み込みと書き出し
6.1　ファイル形式の概要6.2　CSVファイルの読み込み6.3　欠損値の正しいパース6.4　UTF-8以外でエンコーディングされたファイルの読み込み6.5　Excelスプレッドシートの読み込み6.6　複数ファイルの取り扱い6.7　Parquetファイルの読み込み6.8　JSONとNDJSONの読み込み6.8.1　JSON6.8.2　NDJSON6.9　その他のファイル形式6.10　データベースへのクエリ6.11　データの書き出し6.11.1　CSV形式6.11.2　Excel形式6.11.3　Parquet形式6.11.4　その他の考慮すべきこと6.12　本章で学んだこと
第III部　エクスプレッション
7章　エクスプレッションとは
7.1　メソッドと名前空間7.2　エクスプレッションの例7.2.1　エクスプレッションを用いた列の選択7.2.2　エクスプレッションを用いた新しい列の作成列の名前付け7.2.3　エクスプレッションを用いた行のフィルタリング7.2.4　エクスプレッションで集約7.2.5　エクスプレッションを用いた行のソート7.3　エクスプレッションの定義エクスプレッションの定義7.3.1　エクスプレッションの性質7.4　エクスプレッションの作成7.4.1　既存の列からのエクスプレッション作成7.4.2　リテラル値からのエクスプレッション作成7.4.3　範囲からのエクスプレッション作成7.4.4　エクスプレッションを作成するその他の関数7.5　エクスプレッション名の変更7.6　慣用句としてのエクスプレッション7.7　本章で学んだこと
8章　エクスプレッションの継続
8.1　演算の種類8.1.1　例A：要素単位の演算8.1.2　例B：1つに要約する演算8.1.3　例C：1つ以上に要約する演算8.1.4　例D：拡張する演算8.2　要素単位の演算8.2.1　数学的変換を行う演算8.2.2　三角関数関連の演算8.2.3　丸め、分類する演算8.2.4　欠損値および無限値の演算8.2.5　その他の演算8.3　行数を削減しないSeries単位の演算8.3.1　累積演算8.3.2　フィルとシフト演算8.3.3　重複値に関する演算8.3.4　移動統計量を計算する演算8.3.5　ソート演算8.3.6　その他の演算8.4　1つに要約するSeries単位の演算値の反復8.4.1　量化子による演算8.4.2　統計量を計算する演算8.4.3　カウント演算8.4.4　その他の演算8.5　複数に要約するSeries単位の演算8.5.1　一意な値に関係する演算8.5.2　選択演算8.5.3　欠損値を削除する演算8.5.4　その他の演算8.6　Series長を拡大するSeries単位の演算8.7　本章で学んだこと
9章　エクスプレッションを組み合わせる
9.1　インライン演算子とメソッドの比較9.2　算術演算9.3　比較演算比較の連鎖9.4　論理演算9.5　ビット演算9.6　関数の使用9.6.1　when, then, otherwise他に何がある？9.7　本章で学んだこと
第IV部　トランスフォーム
10章　列の選択と作成
10.1　列の選択10.1.1　セレクタとは10.1.2　名前に基づく選択10.1.3　データ型に基づく選択10.1.4　位置に基づく選択10.1.5　セレクタを組み合わせる列を前に送る10.2　列の作成列は上書きされる10.3　関連する列演算10.3.1　ドロップ10.3.2　名前変更10.3.3　スタッキング10.3.4　行インデックスを追加する10.4　本章で学んだこと
11章　行のフィルタリングとソート
11.1　行をフィルタリングする11.1.1　エクスプレッションに基づくフィルタリング11.1.2　列名に基づくフィルタリング11.1.3　制約に基づくフィルタリング11.2　行をソートする11.2.1　単一列に基づくソート11.2.2　逆順ソート11.2.3　複数列に基づくソート11.2.4　エクスプレッションに基づくソート11.2.5　ネストデータ型を用いたソート11.3　関連する行演算11.3.1　欠損値のフィルタリング11.3.2　スライス11.3.3　最大と最小11.3.4　サンプリング11.3.5　セミジョイン11.4　本章で学んだこと
12章　テキスト関連、時間関連、ネストデータ型の扱い
12.1　String12.1.1　Stringのメソッド12.1.2　Stringの例12.2　Categorical12.2.1　Categoricalのメソッド12.2.2　Categoricalの例12.3　Enum12.4　時間関連データ型12.4.1　時間関連メソッド12.4.2　時間関連データを用いた例12.5　List12.5.1　Listのメソッド12.5.2　Listの例12.6　Array12.6.1　Array メソッド12.6.2　Arrayの例12.7　Struct12.7.1　Structのメソッド12.7.2　Structの例12.8　本章で学んだこと
13章　要約と集約
13.1　分割、適用、結合13.2　GroupBy コンテキスト13.2.1　記述メソッド13.2.2　高度なメソッド13.3　行ごとの集約13.4　Selectコンテキストのウィンドウ関数13.5　動的グループ化13.6　移動集約13.7　アップサンプリング13.8　本章で学んだこと
14章　ジョインと連結
14.1　ジョイン14.1.1　ジョイン戦略14.1.2　複数の列でジョインする14.1.3　検証14.2　厳密でないジョイン14.2.1　厳密でないジョインの戦略14.2.2　より詳細な制御14.2.3　ユースケース：マーケティングキャンペーンの貢献度14.3　縦方向と横方向の連結14.3.1　垂直連結14.3.2　水平連結14.3.3　対角連結14.3.4　整列連結14.3.5　リラックス14.3.6　スタッキング14.3.7　追加14.3.8　拡張14.4　本章で学んだこと
15章　リシェイプ
15.1　ワイド形式とロング形式のDataFrametidyデータ15.2　ピボットしてワイド形式のDataFrameにするレイジーピボット15.3　ピボット解除してロング形式のDataframeにする15.4　転置15.5　Explode15.6　複数のDataFrameへの分割15.7　本章で学んだこと
第V部　高度なテクニック
16章　データの可視化
16.1　ニューヨーク市自転車移動16.2　Altairによる組み込みのプロット16.2.1　Altairとは16.2.2　プロット名前空間のメソッド16.2.3　DataFrameのプロット16.2.4　大きすぎて扱えない16.2.5　Seriesのプロット16.3　hvPlotを使ったpandasと似たプロット16.3.1　hvPlot16.3.2　最初のプロット16.3.3　hvplot 名前空間のメソッド16.3.4　バックアップとしてのpandas16.3.5　手動による変換16.3.6　プロットのバックエンドを変更する16.3.7　地図上に点をプロットする16.3.8　プロットの組み合わせ16.3.9　インタラクティブウィジェットを追加する16.4　plotnineによる出版品質のグラフィック16.4.1　plotnine16.4.2　探索のためのプロット16.4.3　コミュニケーションのためのプロット16.5　Great TableとしてDataFrameをフォーマット16.6　本章で学んだこと
17章　Polarsを拡張する
17.1　Pythonのユーザ定義関数17.1.1　要素への適用マッピングの実行は遅い17.1.2　Seriesへの適用17.1.3　グループへの適用キャッシュはすべてを統べる17.1.4　エクスプレッションへの適用17.1.5　DataFrameとLazyFrameへの適用17.2　カスタム名前空間を登録する17.3　RustのPolarsプラグイン17.3.1　準備17.3.2　プラグインプロジェクトの内容17.3.3　プラグイン17.3.4　プラグインのコンパイル17.3.5　性能ベンチマーク17.3.6　引数の登録17.3.7　Rustクレートの使用17.3.8　ユースケース：geo17.4　本章で学んだこと
18章　Polarsの内部構造
18.1　Polarsのアーキテクチャ18.2　Arrow18.3　マルチスレッド演算とSIMD演算18.4　Stringデータ型のメモリ上での表現18.5　SeriesのChunkedArray18.6　クエリの最適化18.6.1　LazyFrameにおけるスキャンレベルの最適化18.6.2　その他の最適化18.7　エクスプレッションのチェック18.7.1　meta名前空間の概要18.7.2　meta名前空間の例18.8　Polarsのプロファイリング18.9　Polarsにおけるテスト18.9.1　DataFrameとSeriesを比較するReprの喜び18.10　よくあるアンチパターン18.10.1　列の選択に角括弧を使う18.10.2　collectの誤用18.10.3　PolarクエリでPythonコードを使用する18.11　本章で学んだこと
付録　GPUによるPolarsの高速化
A.1　NVIDIA RAPIDSA.2　GPUエンジンのインストールステップ1：WSL2のWindowsへのインストールステップ2：Ubuntu LinuxのWSL2へのインストールステップ3：必要なUbuntu Linuxパッケージのインストールステップ4：CUDAツールキットのインストールステップ5：Pythonの依存ライブラリのインストールステップ6：インストールのテストA.3　Polars GPUエンジンを使う設定サポートされていない機能A.4　Polars GPUエンジンのベンチマークベンチマーク対象クエリとデータベンチマーク手法結果と考察結論A.5　GPUにおけるPolarsの未来A.6　本付録で学んだこと
著者・訳者紹介
奥付

Content preview from Python Polars ―高速なデータ処理を実現する次世代ライブラリ

10章列の選択と作成

エクスプレッションの仕組みを理解したところで、次はエクスプレッションの使い方を見ていこう。本章ではDataFrameの列に関係する演算を取り上げる†1。既存の列の選択と新規列の作成に焦点を当てる。これらはデータを扱う際に行う、最も一般的な操作だろう。

まず、「7章　エクスプレッションとは」で紹介したdf.select()を再度説明する。次に、より柔軟な列の選択方法を紹介する。いわゆる列セレクタを使用する方法である。セレクタを用いると、列の名前や、データ型、位置に基づいて列を指定することができる。これらはさまざまな方法で組み合わせることができる。さらに、新しい列を作成したり、列を並べ替えたりする方法を紹介する。最後に、関連する列の演算について簡単に説明する。列の名前変更や削除、2つのDataFrameの列の結合などだ。

本章では、スター・ウォーズの世界に登場する我々が好きな反乱軍（rebels）に関するDataFrameを扱う。

starwars = pl.read_parquet("data/starwars.parquet")
rebels = starwars.drop("films").filter(
    pl.col("name").is_in(["Luke Skywalker", "Leia Organa", "Han Solo"])
)

print(rebels[:, :6])  ❶
print(rebels[:, 6:11])
print(rebels[:, 11:])

❶ ここでは、DataFrameを列ごとにスライスして、本のページに収まるようにしている。折り畳みページを使う方法もあるが、この種の本ではあまり使用しない。

shape: ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784814401437Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python Polars ―高速なデータ処理を実現する次世代ライブラリ

by Jeroen Janssens, Thijs Nieuwdorp, 中田秀基

10章列の選択と作成

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.