7章日時データの取り扱い

レシピ7.0 はじめに

 機械学習の前処理で、日付や時間(datetimes)を扱わなければならない場合がよくある。例えば、特定の売上が発生した時刻や、公的な保健統計における年次などだ。時系列データとは、同じ変数を繰り返して何度も収集したデータを意味する。本章では、時系列データを扱う方法の道具箱を整備する。タイムゾーンの処理や、ラグ付き時間特徴量の生成などだ。具体的には、pandasライブラリの時系列処理ツールについて説明する。このライブラリは、datetimeなどの他のさまざまなライブラリの機能を集約している。

レシピ7.1 文字列の日時データへの変換

問題

日時を表す文字列のベクトルを時系列データに変換したい。

解決策

 pandasのto_datetimeformatパラメータに、日時のフォーマットを指定して、日時データに変換する。

# ライブラリをロード
import numpy as np
import pandas as pd

# 文字列を作成
date_strings = np.array(['03-04-2005 11:35 PM',
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

# 日時データに変換
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]
[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

 必要があれば、errors ...

Get Python機械学習クックブック 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.