はじめに
参考資料
多次元正規分布
多次元正規分布の条件付き分布
導出
誤植？
- 平方完成の直前，式(2.57)の6行目（γ2版）式(2.56)の5行目（書籍版）
- 式(2.58)（γ2版）式(2.57)（書籍版）以降，精度行列で表された正規分布

はじめに

ガウス過程回帰を導出する上で必要になる多次元正規分布の条件付き分布についてまとめておく．教科書「ガウス過程と機械学習」を参考に，式変形の各ステップをなるべく省略せずに記した．

参考資料

持橋先生，大場先生の「ガウス過程と機械学習」先行公開 (γ2版)の第2章． 19年3月発売予定らしいが，サポートページにて一部公開されている．先行公開原稿が素晴らしいのに加えて，サポートページの内容の充実っぷりがすごい．ただ，（私の勘違いかもしれないが）19年2/4現在において，公開版では後述のように微妙な誤りがあるので注意．正式版では修正されることを期待．

19/03/12追記：書籍版では一部修正されていました．また，正誤表がサポートページにて公開されています．

ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)

作者:持橋大地,大羽成征
発売日: 2019/03/09
メディア: 単行本（ソフトカバー）

多次元正規分布

$D$ 次元のベクトル $\boldsymbol{x}=\left(x _ 1, \cdots, x _ D \right)$ が平均 $\boldsymbol{\mu}$ ，共分散行列 $\boldsymbol{\Sigma}$ の正規分布に従うとき，以下のように表す．

\begin{align} \boldsymbol{x}&\sim \mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right) \\ \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})&=\frac{1}{\left(\sqrt{2\pi}^D \sqrt{|\boldsymbol{\Sigma}|}\right)}\exp\left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^T \boldsymbol{\Sigma}^{-1} \left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) \end{align}

多次元正規分布の条件付き分布

$\boldsymbol{x}$ を二つのベクトル $\boldsymbol{x}\ _ 1$ と $\boldsymbol{x}\ _ 2$ に分ける． $\boldsymbol{x}=\left(x\ _ 1, \cdots, x\ _ D \right)$ から，最初の $L$ 次元 $\boldsymbol{x}\ _ 1=\left(x\ _ 1, \cdots, x\ _ L \right)$ を抜き出し，残りを $\boldsymbol{x}\ _ 2=\left(x\ _ {L+1}, \cdots, x _ D \right)$ とする．

このとき $\boldsymbol{x} _ 1$ を固定したときの条件付き分布 $p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right)$ は次のように書ける．

\begin{align} p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right)=\mathcal{N}\left(\boldsymbol{\mu} _ 2+\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1}\left(\boldsymbol{x} _ 1-\boldsymbol{\mu} _ 1\right), \boldsymbol{\Sigma} _ {22}-\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1}\boldsymbol{\Sigma} _ {12}\right) \ \end{align}

導出

同時分布と条件付き分布の関係（乗法定理）は

\begin{align} p\left(\boldsymbol{x} _ 1,\boldsymbol{x} _ 2 \right)=p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right)p\left(\boldsymbol{x} _ 1 \right)\end{align}

だった．条件付き分布は

\begin{align} p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right)=\frac{p\left(\boldsymbol{x} _ 1,\boldsymbol{x} _ 2 \right)}{p\left(\boldsymbol{x} _ 1\right)} \ \end{align}

であり，今 $\boldsymbol{x} _ 1$ は条件として固定されているので， $\boldsymbol{x} _ 2$ の関数 $p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right)$ は $p\left(\boldsymbol{x} _ 2,\boldsymbol{x} _ 1 \right)$ に比例している（分母の $p\left(\boldsymbol{x} _ 1 \right)$ には依存しない）．すなわち $p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right) \propto p\left(\boldsymbol{x} _ 1,\boldsymbol{x} _ 2 \right)$ である．

さて， $\boldsymbol{x}\sim \mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right)$ であった．同時分布 $p\left(\boldsymbol{x} _ 2,\boldsymbol{x} _ 1 \right)$ は $\boldsymbol{x} _ 1$ と $\boldsymbol{x} _ 2$ が「同時に」得られる確率なのだから， $p\left(\boldsymbol{x} _ 2,\boldsymbol{x} _ 1 \right)=\mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right)$ である．

$\boldsymbol{x}$ を二つのベクトルに分割したので， $\boldsymbol{\mu}$ と $\boldsymbol{\Sigma}$ も二つに分割して，次のように表すことができる．

\begin{align} \boldsymbol{x}= \left( \begin{array}{c} \boldsymbol{x} _ {1} \\ \boldsymbol{x} _ {2} \end{array} \right) \sim \mathcal{N}\left( \left( \begin{array}{c} \boldsymbol{\mu} _ {1} \\ \boldsymbol{\mu} _ {2} \end{array} \right) , \left( \begin{array}{cc} \boldsymbol{\Sigma} _ {11} & \boldsymbol{\Sigma} _ {12}\\ \boldsymbol{\Sigma} _ {21} & \boldsymbol{\Sigma} _ {22} \end{array} \right) \right) \end{align}

精度行列，すなわち共分散行列の逆行列 $\Lambda$ を次のように定義する．

\begin{align} \Lambda= \begin{pmatrix} \boldsymbol{\Lambda} _ {11} & \boldsymbol{\Lambda} _ {12}　\\ \boldsymbol{\Lambda} _ {21} & \boldsymbol{\Lambda} _ {22} \end{pmatrix} = \begin{pmatrix} \boldsymbol{\Sigma} _ {11} & \boldsymbol{\Sigma} _ {12} \\ \boldsymbol{\Sigma} _ {21} & \boldsymbol{\Sigma} _ {22} \end{pmatrix}^{-1} \end{align}

この精度行列を用いることによって，元の正規分布を次のように表せる．

\begin{align} \mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right) = p\left(\boldsymbol{x} _ 2,\boldsymbol{x} _ 1 \right) &\propto \exp\left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^T \boldsymbol{\Sigma}^{-1} \left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) \\ &= \exp\left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^T \boldsymbol{\Lambda} \left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) \\ &= \exp\left(-\frac{1}{2} \begin{pmatrix} \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \\ \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \end{pmatrix}^T \begin{pmatrix} \boldsymbol{\Lambda} _ {11} & \boldsymbol{\Lambda} _ {12}\\ \boldsymbol{\Lambda} _ {21} & \boldsymbol{\Lambda} _ {22} \end{pmatrix} \begin{pmatrix} \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \\ \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \end{pmatrix} \right) \end{align}

次に $\exp$ の括弧の中を展開したいのだが，要素がブロックに分割されたベクトルの転置については注意しておこう．次に示すように，中身を転置した上で，さらに各ブロックについて転置を取る必要がある．

\begin{align} \begin{pmatrix} \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \\ \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \end{pmatrix}^T = \begin{pmatrix} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T & \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \end{pmatrix} \end{align}

したがって，

\begin{align} \begin{pmatrix} \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \\ \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \end{pmatrix}^T \begin{pmatrix} \boldsymbol{\Lambda} _ {11} & \boldsymbol{\Lambda} _ {12}\\ \boldsymbol{\Lambda} _ {21} & \boldsymbol{\Lambda} _ {22} \end{pmatrix}\begin{pmatrix} \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \\ \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \end{pmatrix}&= \begin{pmatrix} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T & \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \end{pmatrix}\begin{pmatrix} \boldsymbol{\Lambda} _ {11} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) +\boldsymbol{\Lambda} _ {12} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \\ \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) +\boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \end{pmatrix} \\ &= \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {11} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) + \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {12} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)+ \\ & \hspace{14pt} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) + \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \\ &= \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {11} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) + 2\left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)+ \\ & \hspace{14pt} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \\ \end{align}

最後の式変形では， $\boldsymbol{\Lambda}\ _ {12}=\boldsymbol{\Lambda}\ _ {21}$ であり，中央の二つの項が同一であることから導かれる．ここで一旦， $\exp$ の中に戻して眺めてみる． $\exp$ の括弧内の和は，それぞれの $\exp$ の積に分解できるから，

\begin{align} &\exp\left( \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {11} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) + 2\left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) + \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \right)\\ &= \exp\left( \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {11} \left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right) \right) \exp\left( 2\left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) + \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \right)\\ \end{align}

となる． $-\frac{1}{2}$ を省略していることに注意．

ここで $\exp\left( \left( \boldsymbol{x}\ _ {1} - \boldsymbol{\mu}\ _ {1} \right)^T \boldsymbol{\Lambda}\ _ {11} \left( \boldsymbol{x}\ _ {1} - \boldsymbol{\mu}\ _ {1} \right) \right)$ には $\boldsymbol{x} _ 2$ が含まれておらず， $p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right)$ はこの項に依存しない．したがって引き続き比例関係のみに注目すれば，

\begin{align} p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right) &\propto p\left(\boldsymbol{x} _ 1,\boldsymbol{x} _ 2 \right)\\ &\propto \exp\left( -\frac{1}{2} \left( 2\left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)　+ \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \right) \right) \end{align}

となる． $\exp$ の括弧の中身をさらに展開しよう．

\begin{align} &2\left( \boldsymbol{x} _ {1} - \boldsymbol{\mu} _ {1} \right)^T \boldsymbol{\Lambda} _ {21} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) + \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\mu} _ {2} \right) \\ &= \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} - \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} - \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} + \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} + \\ &\hspace{15pt} 2\boldsymbol{x} _ {1}^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} -2\boldsymbol{x} _ {1}^T \boldsymbol{\Lambda} _ {21} \boldsymbol{\mu} _ {2} -2\boldsymbol{\mu} _ {1}^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} +2\boldsymbol{\mu} _ {1}^T \boldsymbol{\Lambda} _ {21} \boldsymbol{\mu} _ {2} \end{align}

ここで， $\boldsymbol{x}\ _ {2}$ が含まれていない項は，先ほどと同様に独立な $\exp$ の項として分離することができ，ただの係数となって比例関係から無視することができる．そうすると生き残る項は

\begin{align} &\boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} - \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} - \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} + 2\boldsymbol{x} _ {1}^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} -2\boldsymbol{\mu} _ {1}^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} \\ &= \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} - \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} - \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} + 2\left(\boldsymbol{x} _ {1}^T-\boldsymbol{\mu} _ {1}^T\right) \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} \\ &= \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} - \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} - \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} + 2\left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right)^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} \end{align}

ここで，各項はそれぞれ内積なので，転置を取っても値が変わらない．また，精度行列は対称行列であることから，

\begin{align} \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} &= \left( \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} \right)^T \\ &= \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} \\ 2\left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right)^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} &= \left( 2\left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right)^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} \right)^T \\ &= 2\boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) \end{align}

となる．そうすると上の式は，次のように書ける．

\begin{align} &\boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} - \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} - \boldsymbol{\mu} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} + 2\left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right)^T \boldsymbol{\Lambda} _ {21} \boldsymbol{x} _ {2} \\ &= \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} - 2\boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} + 2\boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) \\ &= \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} -2\boldsymbol{x} _ {2}^T \left( \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} +\boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) \right) \end{align}

見やすくするためにベクトル $\boldsymbol{\Lambda}\ _ {22} \boldsymbol{\mu}\ _ {2} +\boldsymbol{\Lambda}\ _ {21} \left(\boldsymbol{x}\ _ {1}-\boldsymbol{\mu}\ _ {1}\right)$ を $\boldsymbol{a}$ とおく．そうして上の式を平方完成すると，

\begin{align} &\boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} -2\boldsymbol{x} _ {2}^T \boldsymbol{a} = \left( \boldsymbol{x} _ {2} - \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{a} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{a} \right) - \boldsymbol{a}^T \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{a} \end{align}

ここで， $\boldsymbol{a}^T \boldsymbol{\Lambda}\ _ {22}^{-1} \boldsymbol{a}$ は $\boldsymbol{x}\ _ {2}$ を含んでいないから，これまでと同様に独立な $\exp$ の項として分離することができ，ただの係数となって比例関係から無視することができる．

結局，比例関係は次のようになる．

\begin{align} p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right) &\propto p\left(\boldsymbol{x} _ 1,\boldsymbol{x} _ 2 \right)\\ &\propto \exp\left( -\frac{1}{2} \left( \boldsymbol{x} _ {2} - \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{a} \right)^T \boldsymbol{\Lambda} _ {22} \left( \boldsymbol{x} _ {2} - \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{a} \right) \right) \end{align}

したがって， $p\left(\boldsymbol{x}\ _ 2|\boldsymbol{x}\ _ 1 \right)$ は次の正規分布に従う．共分散行列が $\boldsymbol{\Lambda} _ {22}$ の逆行列であることに注意．

\begin{align} p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right) &\sim \mathcal{N} \left( \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{a} , \boldsymbol{\Lambda} _ {22}^{-1} \right) \\ &= \mathcal{N} \left( \boldsymbol{\Lambda} _ {22}^{-1} (\boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} +\boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) , \boldsymbol{\Lambda} _ {22}^{-1} \right) \\ &= \mathcal{N} \left( \boldsymbol{\mu} _ {2} +\boldsymbol{\Lambda} _ {22}^{-1}\boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) , \boldsymbol{\Lambda} _ {22}^{-1} \right) \\ \end{align}

精度行列 $\boldsymbol{\Lambda}$ を共分散行列 $\boldsymbol{\Sigma}$ に戻したいのだが，そのためにブロック行列の逆行列を求める公式を使う． $\boldsymbol{M}=\left( \boldsymbol{\Sigma}\ _ {22}-\boldsymbol{\Sigma}\ _ {21}\boldsymbol{\Sigma}\ _ {11}^{-1}\boldsymbol{\Sigma}\ _ {21} \right)^{-1}$ とおくと，

\begin{align} \Lambda= \begin{pmatrix} \boldsymbol{\Lambda} _ {11} & \boldsymbol{\Lambda} _ {12}\\ \boldsymbol{\Lambda} _ {21} & \boldsymbol{\Lambda} _ {22} \end{pmatrix} = \begin{pmatrix} \boldsymbol{\Sigma} _ {11} & \boldsymbol{\Sigma} _ {12}\\ \boldsymbol{\Sigma} _ {21} & \boldsymbol{\Sigma} _ {22} \end{pmatrix}^{-1} \end{align}

において，

\begin{align} \boldsymbol{\Lambda} _ {22} &＝ \boldsymbol{M} = \left( \boldsymbol{\Sigma} _ {22}-\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1}\boldsymbol{\Sigma} _ {21} \right)^{-1} \\ \boldsymbol{\Lambda} _ {21} &= -\boldsymbol{M}\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1} \end{align}

となる．二つを組み合わせれば

\begin{align} \boldsymbol{\Lambda} _ {22}^{-1} \boldsymbol{\Lambda} _ {21} &= -\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1} \end{align}

であるから，

\begin{align} p\left(\boldsymbol{x} _ 2|\boldsymbol{x} _ 1 \right) &\sim \mathcal{N} \left( \boldsymbol{\mu} _ {2} +\boldsymbol{\Lambda} _ {22}^{-1}\boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) , \boldsymbol{\Lambda} _ {22}^{-1} \right) \\ &= \mathcal{N} \left( \boldsymbol{\mu} _ {2} -\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) , \boldsymbol{\Sigma} _ {22}-\boldsymbol{\Sigma} _ {21}\boldsymbol{\Sigma} _ {11}^{-1}\boldsymbol{\Sigma} _ {21} \right) \\ \end{align}

に辿り付く．これがゴールである．完．

誤植？

19年2/4現在において，参考資料の先行公開版では微妙な誤りが見られた．少し混乱してしまったので，一応まとめておく．（私の勘違いや計算ミスだったらご指摘ください）

19/03/12追記：書籍版では一部修正されていました．

平方完成の直前，式(2.57)の6行目（γ2版）式(2.56)の5行目（書籍版）

$\exp$ の中身にだけ注目する．

\begin{align} \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} -2\boldsymbol{x} _ {2}^T \left( \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} +\boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) \right) \end{align}

のはずであるが，これが

\begin{align} \boldsymbol{x} _ {2}^T \boldsymbol{\Lambda} _ {22} \boldsymbol{x} _ {2} -2 \left( \boldsymbol{\Lambda} _ {22} \boldsymbol{\mu} _ {2} +\boldsymbol{\Lambda} _ {21} \left(\boldsymbol{x} _ {1}-\boldsymbol{\mu} _ {1}\right) \right)\boldsymbol{x} _ {2} \end{align}

となっていた．

19/03/12追記：書籍版では以下のようになっているが，誤り．全ての項が二次形式になるはずであるが，後半が(二次形式)ベクトルの形になっている．

19/03/12追記2：これについてはサポートページの正誤表に記載されています．

式(2.58)（γ2版）式(2.57)（書籍版）以降，精度行列で表された正規分布

19/03/12追記：書籍版では修正されていました．

正しくは

だと思うが，

となっていた．共分散行列は $\boldsymbol{\Lambda}\ _ {22}$ の逆行列 $\boldsymbol{\Lambda}\ _ {22}^{-1}$ になるはずである．

ギャラクシースーパーはてなブログ

ギャラクシースーパーノヴァ子の日記だお

多次元正規分布の条件付き分布

はじめに

参考資料

多次元正規分布

多次元正規分布の条件付き分布

導出

誤植？

平方完成の直前，式(2.57)の6行目（γ2版）式(2.56)の5行目（書籍版）

式(2.58)（γ2版）式(2.57)（書籍版）以降，精度行列で表された正規分布