アクチュアリー試験を受けることにした(モデリングから時系列解析解析まで)
アクチュアリー試験を受けることにした(モデリングから時系列解析解析まで)
- 前提:田舎では、おおよそ全ての知的創造産業が機能し無い
- 証明:IT産業の分布より把握
- 前提:知的ではないがなんらかの知的に近い有資格が有効
- 証明:東京と見劣りするわけでない人口比に対する会計事務所数より把握可能
- アクチュアリーは保険の設計の許可を得るものであり、統計・確率・モデリングついでに年金数理が必要
- 幸いなことに、幾つかは専門分野でやってきた内容である。年金数理以外は、私自身の知識の使い回しが可能である。勉強時間の短縮になる。
- あと、モチベーションとして何か学んでないと不安な人格な為。
モデリング
- 回帰分析
単回帰である。相関係数の平均的な定義の方法により定義可能。
単回帰して作ったモデルに対して、xを説明変数、yを被説明変数という
xが複数ある時、重回帰という - 偏相関係数
時間を扱う場合、tなどのパラメータが入ることがある。xとyをtを説明変数として、y = a * x + bのようにしてtの影響を省くことで求めらることができる - 最小二乗法
モデルに対する誤差を最小化するもの。
αとβで偏微分していくことで求められる。ここで偏微分したα、βは正規方程式と呼ばれる式に還元して、解きに行くと、最適なα、βになる。
βは次のように定義可能である
S_x = √(Σx2 - x_norm2)/n
S_y = √(Σy2 - y_norm2)/n
S_xy = Σ(x - x_norm)(y - y_norm)/n
とした時、
β = S_xy/(S_x)2
で、得られる。 - 係数決定
残差:回帰した時に、ズレででてくる合計値
回帰変動:残差を加味した変動値
全変動:残差変動と回帰変動の合計値
これにより、決定係数Rは下記のように定義される
R2 = 1 - 残差変動/全変動
Rは0~1の値を取り、モデルが優れているほど、回帰変動が0に近づくので、Rが1に近いほどよいモデルである。(PR曲線まではいかないみたい)
回帰係数の推定
- 自由度修正決定係数
重回帰式に説明変数を追加すると、決定係数は必ず増加してしまうので、専用にある程度補正してやる必要がある。 R_norm2 = 1 - (残差変動/(n -k - 1))/(総変動/(n -1))
多重共線性
- 互いに相関が強すぎる説明変数を追加してしまうと発生するアレ。直感的に分かりにくい数字がでてきてしまう。
ダミー変数
- 相関が強すぎる説明変数を最初からモデルを変えて、予想するアレ。なんていうのかわからないが、決定木のようなことをやっている。ランダムフォレストにつながる何かなのだろう。
非線形回帰
- 対数線形モデル
-- 前これをやってむっちゃ精度悪かったわ - 指数関数モデル
- ロジスティック関数モデル
-- 常に成績は凡庸だが、悪い値も出さない
区間推定
- Xが標準正規分布に従い、かつカイ二乗分布に従うとした時、T分布は下記のようになる
T = αnorm - α / √(ρnorm2(1/n + x_norm2/Σ(x - x_norm)2))
手動で計算することも求められるらしい。。。マジか。。。
検定
- t検定
- テストではパラメータを提出される。ただし、直接利用できるパラメータを利用できなく、間接的に参照して検定を証明する必要がある。
-- Rでは一発のコマンドで済んでしまうが、手で書こうとするとかなり辛い
時系列解析
- γ = Cov(Yt, Yt-h)を時差hの自己共分散という
- ρ = Cov(Yt, Yt-h)/V(Yt)を時差hの自己相関という
- このときρをコレログラムという
- また別の定義として、 - γ = Σ(y_t - y_norm)(y_t-h - y_norm)/n を時差hの標本自己共分散
- ρ = γh / γ0
(時系列解析の詳細はまた来週)