一覧へ戻る
Discussion Paper Discussion Paper 148 (2018.12)

Boundary problem and data leakage: A caveat for wavelet-based forecasting

蓮見 亮
  特任研究員
梶田 脩斗
   

2018/12/03

近年、機械学習モデルの経済予測への応用が注目を集めている。機械学習モデルを利用した予測には、データから特徴量を抽出する作業が必要になる。経済時系列データの特徴量抽出には、しばしばウェーブレット変換が用いられてきた。いくつかの既存研究によると、ウェーブレット変換と機械学習モデルを組み合わせた予測モデルは、伝統的な時系列モデルの予測精度を大きく上回るという。しかし、これらの研究は必ずしも経済時系列データの加工方法について十分な情報を明らかにしておらず、予測結果が頑健でない可能性がある。

本稿では、経済時系列データを不適切な方法でウェーブレット変換した場合、予測時点では本来未知であるはずの将来のデータを使用して予測する「データ漏洩」が発生し、見かけ上予測モデルの精度を劇的に向上させてしまう場合があることを示す。我々の分析例では、「データ漏洩」が起こらないように適切に経済時系列データをウェーブレット変換した場合、予測モデルの精度は原系列のナイーブ予測(前期の値を予測値とすること)すら超えることができない。ウェーブレット変換を使用した予測モデルの再現性の確保には、データの加工方法に関する詳細な説明が不可欠である。

※旧サイト(~2018.8月)のDiscussion Paper一覧はこちらから