Skip to Content
DuckDB: 起動して実行中
book

DuckDB: 起動して実行中

by Wei-Meng Lee
March 2025
Intermediate to advanced
308 pages
5h 8m
Japanese
O'Reilly Media, Inc.
Content preview from DuckDB: 起動して実行中

第8章. DuckDBを使ってリモートデータにアクセスする

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

これまでの章では、MySQLデータベースやCSV、JSON、Parquetファイルなど、ローカルデータを扱うためにDuckDBを使用してきた。実用的なシナリオでは、扱うデータは通常リモートサーバにあり、複数の場所から取得することが多い。幸いなことに、DuckDBはhttpfs 拡張機能を提供しており、リモートデータセットにアクセスすることができる。さらにDuckDBは、ユーザが機械学習用の事前学習モデルを共有できるプラットフォームであるHugging Faceがホストするデータセットへのアクセスもサポートしている。Hugging Faceは大規模なデータセットのリポジトリもホストしており、開発者はこれをダウンロードして独自のモデルを学習することができる。

この章では、DuckDBでhttpfs 拡張を使ってリモートデータセットを扱う方法と、DuckDBを使ってHugging Faceがホストしている膨大なデータセットにアクセスする方法を学ぶ。

DuckDBのhttpfs拡張機能

DuckDB のhttpfs 拡張モジュールは、リモートファイルの読み書きを可能にするファイルシステムを実装した、オートロード可能な拡張モジュールである。この拡張により、DuckDBはファイルをローカルにダウンロードすることなく、HTTPやHTTPSプロトコルで直接読み書きできるようになる。これは、ローカル・ストレージを超える大規模データセットを扱う場合、リアルタイムまたは頻繁に更新されるデータにアクセスする場合、複数のリモート・ソースから分散データをクエリする場合、クラウド・ストレージとシームレスに統合する場合に特に役立つ。効率的なリモートデータ分析が可能になり、クラウドベースのデータレイク、ウェブAPI、分散ファイルシステムを含むシナリオに最適である。

httpfs という拡張子は、CSVやParquetなど、DuckDBがネイティブにサポートしているさまざまなファイル形式をサポートしている。

チップ

httpfs 拡張機能は、オブジェクト・ストレージの読み取りと書き込み、Amazon S3(Simple Storage Service)APIを使ったファイルのグロビングもサポートしている。

httpfs 、DuckDBセッションにインストールしてロードする必要がある:

import duckdb

conn = duckdb.connect()
conn.execute('''
  INSTALL httpfs;
  LOAD httpfs;
''')

httpfs 、DuckDBセッションごとに一度だけインストールと読み込みを行う必要がある。

次のセクションでは、httpfs 拡張機能を使って、リモートで保存されているCSVファイルやParquetファイル()をクエリする方法を学ぶ。

CSVファイルとParquetファイルをリモートでクエリする

httpfs 、リモートからファイルにアクセスすることができる。ウェブサーバに保存されているファイルであれば、読み書きしたいファイルの点を直接指すURLを使うだけで、DuckDBは最初にローカルにダウンロードすることなく処理してくれる。しかし、GitHubなどのサイトに保存されているファイルの場合は、生のファイルを含むURLを取得する必要がある。次の2つのセクションでは、以下のことを行う: ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

AWSでのサーバーレス開発

AWSでのサーバーレス開発

Sheen Brisals, Luke Hedger
初めてのGraphQL ―Webサービスを作って学ぶ新世代API

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし
エンジニアが学ぶ会計システムの「知識」と「技術」

エンジニアが学ぶ会計システムの「知識」と「技術」

広川 敬祐, 五島 伸二, 小田 恭彦, 大塚 晃, 川勝 健司

Publisher Resources

ISBN: 9798341633889