時系列データの基本統計量と使い方(時間領域)【センサデータで始める時系列データ分析入門 1】

はじめに

本格的な時系列データ分析に入る前に,時系列データに使用可能な基本的な統計量(平均・分散・自己相関等)をおさらいします.

配布する加速度センサデータの基本統計量を実際に求めて,それぞれの値をどのようなケースに利用できそうかを考えます.

基本統計量

本記事では,「時系列データかどうかを問わず,一般的なデータ分析で用いられる統計量」を基本統計量と呼ぶことにします.

本日扱う統計量は,

  • 平均
  • 分散 & 標準偏差
  • 中央値
  • 共分散【自己共分散】
  • 相関係数【自己相関係数】

です(時系列データに適用する際の特殊な名前がある場合は【 】で示しています).高校・大学で習った内容の復習のつもりで見てください.

基本統計量の概要・数式

平均 \(\mu\)

データがどの辺りを中心に分布しているかを示す値です.\(n\)個のセンサデータ\(x[1], x[2], \cdots, x[n]\)に対して,平均\(\mu\)は.

\[\mu_x = \frac{x[1] + x[2] + \cdots + x[n]}{n}\]

となります.

分散 \(\sigma^2\) & 標準偏差 \(\sigma\)

データのばらつき度合いを表す指標です.先程の平均\(\mu_x\)を用いて,分散\(\sigma^2\)は,

\[
\sigma^2 = \frac{(x[1]-\mu_x)^2 + (x[2]-\mu_x)^2 + \cdots + (x[n]-\mu_x)^2}{n} \\
= \frac{1}{n} \sum_{t=1}^n (x[t]-\mu_x)^2
\]

のように表します.ここで,\(x[t]-\mu_x\)は,偏差と呼ばれ,平均からどの程度離れているかを表します.

偏差を2乗することで,それぞれの値を0以上にします.分散の単位は,元のデータの単位を2乗したものとなっています(通常単位などをあまり考えないときに使います).

標準偏差は,分散の正の平方根をとったものです.ばらつき度合いの数値の単位を,元のデータと合わせたいときに使います.

中央値 \(\rm{Med}\)

データに外れ値があり,平均が代表する値として不適当な場合は,中央値を代わりに用いることがあります.データを小さい順に並べた(ソート済みの)\(n\)個のデータ\(x[n]\)があるとき,

\[ \rm{Med_x} =
\begin{cases}
x[\frac{n}{2}] & n = 偶数 \\
\frac{x[\frac{x-1}{2}] + x[\frac{x+1}{2}]}{2}& n = 奇数 \\
\end{cases}
\]

共分散 \(\rm{Cov}\)

2つの異なるデータ列の関係を表す値です.それぞれ長さnのデータ列\(x, y\)があるとき,

\[\rm{Cov}[x, y] = \frac{1}{n} \sum_{k=1}^n (x[k] – \mu_x)(y[k] – \mu_y)\]

全く同じデータ同士で共分散を取ると,分散になります.共分散の値は,

\(\rm{Cov}[x, y] > 0\)のとき: xが大きいとき,yも大きくなる.Covの大きさはその傾向の度合い

\(\rm{Cov}[x, y] = 0\) のとき: 関係がない

\(\rm{Cov}[x, y] < 0\)のとき,xが大きいとき,yは小さくなる.Covの絶対値の大きさはその傾向の度合い

のような意味があります.

https://manabitimes.jp/math/853

自己相関係数 \(\rm{Corr}\)

相関係数は,2つのデータがどれだけ関係しているかを表す指標です.x, yのデータに対する相関係数は,

\[\rm{Corr}[x, y] = \frac{\rm{Cov}[x, y]}{\sigma_x \sigma_y} \]

で定義されます.共分散 \(Cov[x, y]\)を,それぞれの標準偏差で割っており,正規化したような形になっています.取る値は,\(-1 \leq Corr_{xy} \leq +1\) となります.

ここで,

正の完全相関とは,\(Corr[x, y] = +1\)の状態であり, \(y=ax+b, a>0\)の上に,全ての(x, y)のデータが乗る状態です.

負の完全相関とは,\(Corr[x, y] = -1\)の状態であり, \(y=ax+b, a<0\)の上に,全ての(x, y)のデータが乗る状態です.

\(|Corr[x, y]|\)が0に近づくほど関係がなく,1に近づくほどx, yの関係が強くなるというイメージとなります.

基本統計量を元にした,時系列データ特有の統計量

上では,時系列データとは関係なく,普遍的に使える統計量の説明を書きました.以下からは,時系列データに共分散や相関係数を適用した,「自己共分散」「自己相関係数」について説明します.

自己共分散

自己共分散は,時系列データ\(y_t\)と,\(y_t\)の時間をiだけずらした\(y_{t-i}\)との間で共分散を取ります.

\[ \rm{Cov}[y_t, y_{t-i}] = \frac{1}{n} \sum_{t=1}^n (y_t – \mu_{y_t})(y_{t-i} – \mu_{y_{t-i}}) \]

i時間だけ離れたデータの共分散のことを,i次の自己共分散と言います.

通常の共分散の性質と同じく,正の値を取れば同じ増減の傾向が,負の値を取れば逆の増減の傾向があると考えられます.

自己相関係数

自己相関係数は,自己共分散と同様,時系列データ\(y_t\)と,\(y_t\)の時間をiだけずらした\(y_{t-i}\)との間で相関係数を計算します.式にすると,

\[\rm{Corr}[y_t, y_{t-i}] = \frac{\rm{Cov}[y_t, y_{t-i}]}{\sigma_{y_{t}} \sigma_{y_{t-i}}} \]

のようになり,i次の自己相関係数と言います.自己相関係数が大きくなるということは,「i時間周期で,同じような波形が時系列データ上に現れている」ことを示します.

センサデータへの基本統計量の適用

ここからは,センサデータを実際に利用して,データから得られる基本統計量の使い道・用途について考えます.

今回使用するセンサデータは,加速度センサ・ジャイロセンサの2つです.加速度センサは,物体の加速度を測定し,傾きや振動を検知するのに用いられます.ジャイロセンサは,物体の運動のうち,角加速度を測定します.

# todo センサデータに統計量を適用したときの値などを取り出す