Contents
はじめに
本格的な時系列データ分析に入る前に,時系列データに使用可能な基本的な統計量(平均・分散・自己相関等)をおさらいします.
配布する加速度センサデータの基本統計量を実際に求めて,それぞれの値をどのようなケースに利用できそうかを考えます.
基本統計量
本記事では,「時系列データかどうかを問わず,一般的なデータ分析で用いられる統計量」を基本統計量と呼ぶことにします.
本日扱う統計量は,
- 平均
- 分散 & 標準偏差
- 中央値
- 共分散【自己共分散】
- 相関係数【自己相関係数】
です(時系列データに適用する際の特殊な名前がある場合は【 】で示しています).高校・大学で習った内容の復習のつもりで見てください.
基本統計量の概要・数式
平均 \(\mu\)
データがどの辺りを中心に分布しているかを示す値です.\(n\)個のセンサデータ\(x[1], x[2], \cdots, x[n]\)に対して,平均\(\mu\)は.
\[\mu_x = \frac{x[1] + x[2] + \cdots + x[n]}{n}\]
となります.
分散 \(\sigma^2\) & 標準偏差 \(\sigma\)
データのばらつき度合いを表す指標です.先程の平均\(\mu_x\)を用いて,分散\(\sigma^2\)は,
\[
\sigma^2 = \frac{(x[1]-\mu_x)^2 + (x[2]-\mu_x)^2 + \cdots + (x[n]-\mu_x)^2}{n} \\
= \frac{1}{n} \sum_{t=1}^n (x[t]-\mu_x)^2
\]
のように表します.ここで,\(x[t]-\mu_x\)は,偏差と呼ばれ,平均からどの程度離れているかを表します.
偏差を2乗することで,それぞれの値を0以上にします.分散の単位は,元のデータの単位を2乗したものとなっています(通常単位などをあまり考えないときに使います).
標準偏差は,分散の正の平方根をとったものです.ばらつき度合いの数値の単位を,元のデータと合わせたいときに使います.
中央値 \(\rm{Med}\)
データに外れ値があり,平均が代表する値として不適当な場合は,中央値を代わりに用いることがあります.データを小さい順に並べた(ソート済みの)\(n\)個のデータ\(x[n]\)があるとき,
\[ \rm{Med_x} =
\begin{cases}
x[\frac{n}{2}] & n = 偶数 \\
\frac{x[\frac{x-1}{2}] + x[\frac{x+1}{2}]}{2}& n = 奇数 \\
\end{cases}
\]
共分散 \(\rm{Cov}\)
2つの異なるデータ列の関係を表す値です.それぞれ長さnのデータ列\(x, y\)があるとき,
\[\rm{Cov}[x, y] = \frac{1}{n} \sum_{k=1}^n (x[k] – \mu_x)(y[k] – \mu_y)\]
全く同じデータ同士で共分散を取ると,分散になります.共分散の値は,
\(\rm{Cov}[x, y] > 0\)のとき: xが大きいとき,yも大きくなる.Covの大きさはその傾向の度合い
\(\rm{Cov}[x, y] = 0\) のとき: 関係がない
\(\rm{Cov}[x, y] < 0\)のとき,xが大きいとき,yは小さくなる.Covの絶対値の大きさはその傾向の度合い
のような意味があります.
https://manabitimes.jp/math/853
自己相関係数 \(\rm{Corr}\)
相関係数は,2つのデータがどれだけ関係しているかを表す指標です.x, yのデータに対する相関係数は,
\[\rm{Corr}[x, y] = \frac{\rm{Cov}[x, y]}{\sigma_x \sigma_y} \]
で定義されます.共分散 \(Cov[x, y]\)を,それぞれの標準偏差で割っており,正規化したような形になっています.取る値は,\(-1 \leq Corr_{xy} \leq +1\) となります.
ここで,
正の完全相関とは,\(Corr[x, y] = +1\)の状態であり, \(y=ax+b, a>0\)の上に,全ての(x, y)のデータが乗る状態です.
負の完全相関とは,\(Corr[x, y] = -1\)の状態であり, \(y=ax+b, a<0\)の上に,全ての(x, y)のデータが乗る状態です.
\(|Corr[x, y]|\)が0に近づくほど関係がなく,1に近づくほどx, yの関係が強くなるというイメージとなります.
基本統計量を元にした,時系列データ特有の統計量
上では,時系列データとは関係なく,普遍的に使える統計量の説明を書きました.以下からは,時系列データに共分散や相関係数を適用した,「自己共分散」「自己相関係数」について説明します.
自己共分散
自己共分散は,時系列データ\(y_t\)と,\(y_t\)の時間をiだけずらした\(y_{t-i}\)との間で共分散を取ります.
\[ \rm{Cov}[y_t, y_{t-i}] = \frac{1}{n} \sum_{t=1}^n (y_t – \mu_{y_t})(y_{t-i} – \mu_{y_{t-i}}) \]
i時間だけ離れたデータの共分散のことを,i次の自己共分散と言います.
通常の共分散の性質と同じく,正の値を取れば同じ増減の傾向が,負の値を取れば逆の増減の傾向があると考えられます.
自己相関係数
自己相関係数は,自己共分散と同様,時系列データ\(y_t\)と,\(y_t\)の時間をiだけずらした\(y_{t-i}\)との間で相関係数を計算します.式にすると,
\[\rm{Corr}[y_t, y_{t-i}] = \frac{\rm{Cov}[y_t, y_{t-i}]}{\sigma_{y_{t}} \sigma_{y_{t-i}}} \]
のようになり,i次の自己相関係数と言います.自己相関係数が大きくなるということは,「i時間周期で,同じような波形が時系列データ上に現れている」ことを示します.
センサデータへの基本統計量の適用
ここからは,センサデータを実際に利用して,データから得られる基本統計量の使い道・用途について考えます.
今回使用するセンサデータは,加速度センサ・ジャイロセンサの2つです.加速度センサは,物体の加速度を測定し,傾きや振動を検知するのに用いられます.ジャイロセンサは,物体の運動のうち,角加速度を測定します.
# todo センサデータに統計量を適用したときの値などを取り出す