特異値分解のステップ

特異値分解の復習。
特異値分解は、m×n行列Aに対して、下記のように分解する。
 A=U\sum V^T
・A:m×n
・U:m×nの直行行列
・Σ:m×n
 V^T :n×nの直行行列
単位ベクトル(左特異ベクトル) \vec u、Aの特異値σ、単位ベクトル(右特異ベクトル) \vec vを用いると、下記のようにあらわせる。
 A=(\vec u_1 \vec u_2 ...)\begin{bmatrix}σ_1 & 0  ... \\ 0 & σ_2 & ... \\ ... & 0 & .. \end{bmatrix} ( \vec v_1 \vec v_2 ..)^T

Aを分解するために必要な情報は U, Σ, V^Tの3つである。これは、 AA^Tおよび A^TAをそれぞれ固有分解することで求められる。

1. Vを求める

 A^TA=VΣ^TU^TUΣV^T
Uは直行行列なので、 U^T=U^{-1}となり、打ち消せる。
 A^TA=VΣ^TΣV^T
これは、固有値分解の公式 A=VΛV^{-1}で、Aが A^TAに、Λが Σ^TΣに変わったものとみなすことが出来るので、固有方程式から以下が成立する。
 |A^TA-λE|=0
これを解いて、 λ=λ_1,λ_2を得る。
Σの特異値を σ_1, σ_2とすると、
 Σ^TΣ=\begin{bmatrix} σ_1& 0 &0 \\ 0 & σ_2 & 0\end{bmatrix}\begin{bmatrix} σ_1& 0 \\0 &  σ_2\\ 0 &  0\end{bmatrix}=\begin{bmatrix} σ_1^2 & 0 \\ 0 & σ_2^2\end{bmatrix}=\begin{bmatrix} λ_1 & 0 \\ 0 & λ_2 \end{bmatrix}
となるので、 σ=\sqrt λが成立する。
よって、Aの特異値は、 σ=\sqrt λ_1, \sqrt λ_2
Aの右特異ベクトルVは、 A^TA固有ベクトルを単位ベクトルに変換すればよい。
 V=(v_1, v_2)

2. U,∑を求める

右特異ベクトルは冒頭の定義式より
 A=U∑ZV^T
より、Uは下記のようにあらわせる。
 U=AV/∑あるいは、 U=AVΣ^{-1}
よって、 U=(\vec u_1, \vec u_2)
 \vec u_1=\frac{1}{σ_1}A\vec v_1
 \vec u_2=\frac{1}{σ_2}A\vec v_2

3.計算例

例として、A= \begin{bmatrix}3 & 2 & 2 \\2 & 3 & -2 \end{bmatrix} を分解する。
 AA^T=\begin{bmatrix} 17& 8 \\ 8 & 17 \end{bmatrix}
と計算できる。行列式は下記になる。
 det(AA^T- \lambda I)= \lambda^2-34\lambda +225=0
よって、 AA^T固有値は下記になる。
 \lambda = 25,9
ここで、 A^TA固有値 \lambda = 25,9,0となるので、右特異ベクトルは、 A^TA-λIを計算し、
 v_1=\begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2}  \\ 0 \end{bmatrix}
 v_2=\begin{bmatrix} 1/\sqrt{18} \\ -1/\sqrt{18}  \\ 4/\sqrt{18} \end{bmatrix}
 v_3に関しては、他の固有ベクトルと直交しているという条件から求める。
 v_1^Tv_3=0, v_2^Tv_3=0
 ||v_3||=1
 v_3=\begin{bmatrix} 2/3 \\ -2/3  \\ -1/3 \end{bmatrix}
すなわち、
 A=UΣV^T=U\begin{bmatrix} 5 & 0 & 0 \\ 0 & 3 & 0 \end{bmatrix}\begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} & 0 \\ 1/\sqrt{18} & -1/\sqrt{18} & 4/\sqrt{18} \\ 2/3 & -2/3 & -1/3 \end{bmatrix}
左特異ベクトルを求め、下記に分解できる。
 A=UΣV^T=\begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ 1/\sqrt{2} & -1/\sqrt{2} \end{bmatrix}\begin{bmatrix} 5 & 0 & 0 \\ 0 & 3 & 0 \end{bmatrix}\begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} & 0 \\ 1/\sqrt{18} & -1/\sqrt{18} & 4/\sqrt{18} \\ 2/3 & -2/3 & -1/3 \end{bmatrix}

 AA^T A^TAの関係

[tex AA^Tu=λu]とすると、
 A^TAv=λ_2v→AA^Tv=λ_2Av
Av=uと置くと、 λ_2=λとみなせる。

深層学習メモ:代表的なCNNアーキテクチャの流れ

ここでは、代表的なCNNのアーキテクチャの進化の流れについて記す。

AlexNet

2012年のILSVRCにおいて、他のアーキテクチャに圧倒的な差をつけて優勝し、深層学習モデルのブームの端緒になったモデル。
f:id:tibet:20220115215211p:plain
引用元:"ImageNet Classification with Deep Convolutional Neural Networks"
全体としては、畳み込み層を5層積み、間にmax poolingをはさみ、最後に全結合層を3層積んで出力を得る。

最適化は、weight decayとモーメンタム付きの確率的勾配降下法で行われている。エラーレートが改善しなくなった時点で、学習率は1/10にしている。

アーキテクチャの特徴としては以下である。

ReLu

勾配消失問題を回避するため、活性化関数としてReLuを使用している。

Local Response Normalization

空間的に同じ位置にある隣接したカーネルマップの出力の値から自身の出力を正規化する手法。近年ではあまり使われていない

Overlapping Pooling

AlexNetでは、Max poolingを用いているが、集約するピクセル領域をわずかにオーバーラップしたものを使用している。

DropOut

DropOutは、学習時に一定の割合でランダムに中間層を外す手法である。過学習を押さえて、より汎化したモデルを作成することが出来る。

ZFnet

2013年の"Visualizing and Understanding Convolutional Networks"で提案されたネットワーク。
CNNの可視化を行ったうえで、AlexNetの次の課題を解決するアプローチをとった。
・第一層のフィルタは極端に高い周波数と低い周波数の情報で成り立っており、その中間の周波数情報がほとんどない。
・第二層の可視化からは、第一層の畳み込みで使用されている4という大きなストライドによって、エイリアシングが発生している。

そこで、この問題を解決するために、下記のアプローチをとった。
1.第一層のフィルタサイズを11×11から7×7に変更
2.ストライドを4から2に変えた。
その結果、AlexNetを超えるパフォーマンスを示した。
アーキテクチャは下記に示すとおりである。
f:id:tibet:20220117090425p:plain

GoogLeNet

2015年のCVPRの"Going Deeper with Convolutions"で提案されたアーキテクチャで、2014年のILSVRCの優勝モデルである。
このモデルの特徴は以下である。

Inception module

Inceptionアーキテクチャの主な考え方は、畳み込みビジョンネットワークの最適な局所スパース構造を、容易に利用できる密なコンポーネントでどのように近似し、カバーできるかを見つけることに基づいている。
具体的には複数の畳み込み層やpooling層から構成されるinception moduleと呼ばれるマイクロネットワークを定義し、これを積み重ねることで一つの大きなCNNを作り上げている。
f:id:tibet:20220117091647p:plain
インセプションモジュールでは、ネットワークを分岐させてサイズの異なる畳み込みを行った後、それらの出力をつなぎ合わせるという処理を行っている。異なるサイズの畳み込みを独立して行っているため、非0のパラメータ数が大きく減ることになる。
(a)のナイーブバージョンのinception moduleはmax poolingを除くと、5×5の畳み込み一つで表現することもできるが、inception moduleを利用することで、はるかに少ないパラメータで同等の表現能力を持つCNNを構築することが出来る。
また、(b)では1×1の畳み込み層を挿入することで、次元削減を行い、さらにパラメータを削減している。

Global Average Pooling(GAP)

従来のモデルでは、畳み込み層の後に全結合層を積むことによって、出力を得る構造になっていたが、この全結合層はパラメータが多く、過学習を起こすことが問題となっていた。

GAPでは、チャネルにわたってaverage poolingをする(すなわち出力は1×1×チャネル数のテンソルとなる)。
GoogLeNetではCNNの畳み込み層の後、全結合層を利用することなくGAPを採用することで最終的な出力を得ることを提案している。
そのため、パラメータ数を大きく削減し、過学習を防ぐことが出来る。

Auxilirary Loss

GoogLeNetの全体像を下記に示す。
出典:
https://arxiv.org/pdf/1409.4842.pdf
f:id:tibet:20220117093527p:plain
途中で分岐しているが、このサブネットワークでもクラス分類をしており、Auxiliary Lossを追加することが行われている。
これにより、ネットワークの中間層に直接誤差を伝搬させることで、勾配消失を防ぐとともにネットワークの正則化を実現している。
Auxiliary Lossを導入することで計算量を抑えることは期待できないが、アンサンブル学習と同様な効果を得られるため、汎化性能の向上は期待できる。

VGGNet

2014年のILSVRCで2位の認識精度を達成したモデルである。
2015年にVery Deep Convolutional Networks for Large-Scale Image RecognitionとしてCVPRにて発表された。

この論文では、CNNの深さがどのように性能に影響するかを研究するため、下記のようなアーキテクチャの設計方針をとった。
・3×3の畳み込みのみを利用する
・同一出力チャネル数の畳み込み層をいくつか重ねた後にmax poolingによる特徴マップを半分に縮小
・max poolingの後の畳み込み層の出力チャネル数を2倍に増加。

この方針でCNNの深さを増加させていくと、コンスタントに精度が改善した。

AlexnetやZFNetで使用されていたLRNは、VGGnetのような深いネットワークではあまり効果がないため、利用されていない。

ResNet

Resiual Networks(ResNet)は、2015年のILSVRCの優勝モデルである。その後、2015年のCVPRでDeep Residual Learning for Image Recognitionとして発表された。
ResNetでは、処理ブロックをショートカットして入力を次段に渡すResidualモジュールを採用したことが特徴である。これによって、誤差逆伝搬時にも勾配が直接下層に伝わっていくことになり、非常に深いネットワークにおいても効率的に学習できるようになった。

Residual module

下記がResidual Moduleのビルディングブロックである。
出典:
https://arxiv.org/pdf/1512.03385.pdf
f:id:tibet:20220117133914p:plain
入力を処理ブロックF(x)への入力経路とスキップして次段に直接入力する経路に分けるため、次段への入力は下記のようになる。
 H(x)=F(x)+x
このような構造をIdentity Mappingとも呼ぶ。
f:id:tibet:20220117134928p:plain
上記の左側は、実際に使われているresidual moduleの構造で、出力チャネル64の3×3の畳み込み層が2つ配置されている。
正確にはBatch nomalizationとReLuが配置されている。
右側はbottleneckと呼ばれるもので、1×1の畳み込みで次元削減を行った後に3×3の畳み込みを行い、その後さらに1×1の畳み込みで次元を復元するという形をとることで左側と同等の計算量を保ちながら、より深いモデルを構築することが出来る。

Batch Nomalization

深いネットワークでは、ある層のパラメータ更新によって、その次の層の入力の分布が
バッチごとに大きく変化してい住まう内部共変量シフトが発生し、学習が進まない問題があった。Batch nomalizationでは、この内部共変量シフトを正規化して各レイヤが独立して学習が行えるようにすることで、学習を安定化・高速化する。

Heの初期化

重みの初期化について、ReLuを活性化関数として利用する場合の適切なスケーリングを理論的に導出した。

SENet

Squeeze-and-Excitation Networks(SENet)は2017年のILSVRCの優勝モデルである。
2018年のCVPRにてSqueeze-and-Excitation Networksとして発表された。
特徴は、特徴マップをチャネルごとに適応的に重みづけをするAttentionの機構を導入したことである。これは、SE(Squeeze-Exitation) Blockで実現されている。

SE Block

出典:
https://arxiv.org/pdf/1709.01507.pdf
f:id:tibet:20220117142400p:plain
上記がSE Blockの概念図である。
SE BlockはSqueezeステップとExcitationステップの2段階が行われる。
Squeezeステップではチャネル依存性に取り組むために、グローバルな空間情報をチャネル記述子に”絞り込む"(squeeze)。
具体的には、H×W×Cの特徴マップに対してGlobal Average pooling1を適用する。
次にexitationステップでは、チャネルごとの依存関係を抽出するために、1×1の畳み込みを適用し、ReLuと再度出力チャネル数Cの1×1の畳み込みを経て最後にシグモイド関数を適用し、チャネルごとの重みを出力する。










\*yu4u氏の畳み込みニューラルネットワークの最新研究動向 (〜2017)を参考に自身の勉強のために書いています。

深層学習メモ 強化学習

ベルマン方程式

動的計画法として知られる数的最適化において、最適化の条件を示す式。
状態 x を外部からの入力 u で制御できると考えているときに、ある種の評価 J の下で u を色々変えてみて、いざ評価 J を最も良くするような u が見つかったときに成り立っているべき方程式である。
強化学習については、下記のようにかける。
 V_{\pi}(s)=\displaystyle\sum_{a}\pi (a|s)\displaystyle\sum_{s'}T(s'|s,a)(R(s|s')+ \gamma V_{\pi}(s'))
ここで、
π:ある時点の方策
s:ある時点の状態
s':次の時点の状態
a:ある時点のアクション
γ:時間による割引率
 V_{\pi}(s):ある状態である方策を選んだ時の価値関数
 \pi (a|s):ある状態から方策πに従ってとる行動確率
 T(s'|s,a):ある状態から次の状態への状態遷移確率
 R(s|s'):ある状態から次の状態に移る時の報酬
 V_{\pi}(s'):次の状態での価値関数
つまり、価値関数は、直近の報酬に1ステップ先の価値関数を足したものである。ただし、方策および遷移確率で未来のとりうる値は枝分かれするので、その期待値をとる。

方策勾配法

 目的関数J(θ)を最大化する方策パラメータベクトルθを勾配から探索する手法。学習率をαとすると、更新式は下記のようにあらわされる。
 \theta_{t+1}=\theta_t+\alpha ∇_θJ(\theta_t)
方策を学習する目的は、エージェントの行動を最適化して機体リターンを最大化することである。そこで、学習開始時の期待リターンとして、その時点での方策  \pi (a|s_0, \theta ) のもとで計算された価値関数Vなので、これを目的関数J(θ)とする。
 J(\theta )=V^{\pi}(s_0)=E\left[ S_0=s_0\right]
この定義をθで微分することで、以下の方策勾配定理を得る。

方策勾配定理

勾配方策定理とは、Q値を用いて、累積報酬を増加させる方策の勾配を求めるための定理である。

 ∇_θJ(θ)\propto E^{\pi}\left[ ∇_{\theta}log\pi (a|s,\theta ))Q_{\pi}(s,a)\right]
J(θ)が平均エピソード長に比例するため、等式ではなく比例関係で結ばれている。

モンテカルロ法

動的行動計画法では、環境のダイナミクスが既知であることが前提となっている。ところが、あらゆる行動に対して起こりうる変化をすべて把握して、それらをすべてモデリング出来るケースは現実には非常に少ない。
そこで、環境のダイナミクスが既知でなくても価値の推定・方策改善を行う手法がモンテカルロ法になる。

強化学習におけるモンテカルロ法では、エピソードに従ってエージェントは行動をとり報酬を得る。各状態で実際に得られた報酬の平均をとることで期待値を計算する。
モンテカルロ法では現在時刻tからエピソード終了までの時間Tまでの報酬の現在価値を求めるので、学習率α、割引率γとして行動状態価値関数は下記のようになる。
 G(S_t,a_t)=\displaystyle \sum_{i=t}^T(\gamma^{i-t}r^i)
 Q(S_t,a_t)←Q(S_t,a_t)+α\left[ G(S_t,a_t)-Q(S_t,a_t)\right]
状態価値関数は、下記のようにあらわせる。
 V(S_t)=max{Q(S_t,a_t)}

TD法

TD法では、予測で修正を行う。そのために正確性はモンテカルロ法より劣るが、修正速度は1行動ごとになるので早い。
そのため、tとt+1の差異を求める。
 Q(s_t,a_t)←Q(s_t, a_t)+α(r_{t+1}+γQ(s_{t+1},a_{a+1})-Q(s_t,a_t))

深層学習の学習:指標など

BLEU

機械翻訳の評価指標の一つでBLEUがある。
この評価方法の前提は、「プロの翻訳者の訳と近ければ近いほど、その機械翻訳の精度は高い」という考え方である。
BLEUは0~1の間で表現され、それを100倍したものをBLEUスコアとして用いる。
目安としては40以上なら高品質と言える。

BLUEスコアは、下記のような式で計算される。
 BLEU=BP\times exp\left(\displaystyle\sum_{n=1}^Nw_nlogp_n\right)
ここで、
 p_n=\dfrac{\sim_i翻訳文iと参照文iで一致したn-gram数}{\sum_i2翻訳文i中の全n-gram数}
 w_n=\dfrac{1}{N}

BLEUでは、機械翻訳が参照翻訳より短い場合は、ペナルティを与え、機械翻訳が参照翻訳より長い場合はペナルティを与えないBP(Brevity penalty)がある。
cを機械翻訳の長さとして、下記のようにあらわされる。
 BP=   \left\{
    \begin{array}{l}
      1 \ \   c\geq r\\
      exp(1-r/c) \ \ c < r
    \end{array}
  \right.

soft plus関数およびsigmoid関数との関係

soft plus関数は、下記のように定義する。
 f(x)=log(1+exp(x))
グラフにすると、下記のような形で、ReLu関数に近いが、連続的につながっていて、全域で微分可能であることが特徴である。
f:id:tibet:20220109161929p:plain

sigmoidとsoft plus関数の関係

シグモイドは下記の関数である。
 σ(x)=\dfrac{1}{1+exp(-x)}
 \dfrac{d}{dx}f(x)=σ(x)
 f(x)=\int_{-∞}^xσ(y)dAy

soft plus関数の実装

簡易的には、pythonで下記の実装もありえる。

import numpy as np
def softplus(x):
 return np.log(1.0+np.exp(x))

ただ、x=1000を超えるような数をいれるとオーバーフローをする場合がある。
そこで、下記のような実装の工夫があり得る。
 f(x)=log(1+exp(x))=log(1+exp(x))-log(exp(x))+x
 =log \dfrac{1+exp(x)}{exp(x)}+x=log\left( 1+\dfrac{1}{exp(x)}\right) + x=log(1+exp(-x))+x
この変形を用いて、

import numpu as np
return maximum(x,0)+log(1+np.exp(-np.abs(x)))

KLダイバージェンスとJSダイバージェンス

KLダイバージェンスは、正解分布p(x)に対して、推定分布q(x)がどの程度近似しているかを評価する指標である。
 DLK(P||Q)=\int_{-∞}^{∞}p(x)log(\dfrac{p(x)}{q(x)}dx

KLダイバージェンスは、p(x)とq(x)が非対称なため、使いにくい場合もある。そこで、等価な形に改めたのがJSダイバージェンスである。
 D_{DS}(P||Q)=\dfrac{1}{2}(D_{KL}(P||Q)+D_{KL}(Q||P))

情報量とエントロピー

情報量

情報量は、下記の2つの条件を満たすものとして定義する。
1. 発生する確率が低いことが分かった時のほうが情報量が多い
2. 情報量は足し算で増えていく
この条件を満たす情報量を以下のように定義できる。あることが分かった時の「そのことの情報量」を自己情報量と呼ぶ.
 i(x)=-log_2P(x)

平均情報量とエントロピー

ある物事について、どれほど知らないことがあるかという事を表すのが平均情報量である。
 H(X)=\displaystyle \sum_{i=1}^n-P(x_i)\times log_2P(x_i)
この「分からなさ」あるいは「不確実性」を情報エントロピーとも呼ぶ。
平均情報量=情報エントロピー
として定義される。

相対エントロピー

相対エントロピーは、カルバックライブラー(Kullback-Lebler)の情報量とも呼ばれる。
これは確率分布の差異を表す指標で、分布間擬距離とも呼ばれる。
あらかじめわかっている確率(リファレンスの確率)をP、評価したい確率をQとすると、相対エントロピーは下記のように定義できる。
 相対エントロピー=\displaystyle\sum_{i=1}^nQ_ilog_2\dfrac{Q_i}{P_i}
P=Qの場合は、相対エントロピーは0となります。

結合エントロピー

複数の事象を同時に知った時に得られる平均情報量を結合エントロピーという。
 H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=-\displaystyle\sum_{i=1}^{X_x}\displaystyle\sum_{j=1}^{M_Y}P(x_i,y_j)logP(x_i,y_j)

相互情報量

二つの確率変数の相互依存の尺度を表す指標である。
 I(X;Y)=\displaystyle\sum_{y\in Y}\displaystyle\sum_{x\in X}p(x,y)log\dfrac{p(x,y)}{p(x)p(y)}
連続変数なら、相和の代わりに定積分を用いる。
I(X;Y)を情報エントロピーで表すと以下になる。
 I(X;Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)

条件付きエントロピー

f:id:tibet:20220106224429p:plain
上記の図が参考になる。
条件付きエントロピーは、次のように表せる。
 H(X|Y)=H(X)-I(X,Y)=H(X,Y)-H(Y)

確率pで表現すると次のようになる。
 H(X|Y)=-\displaystyle\sum_y\left( \displaystyle\sum_xp(x,y)logp(x,y)-p(y)log(y)\right)
もしくは、
 H(X|Y)=-\sum_{x\in 0,1}\sum_{y\in 0,1}P(X=x|Y=y)P(Y=y)log(P(X=x\Y=y)

深層学習の学習 R-CNN

R-CNN(Region-CNN)とは

2014年に発表された一般物体検出の代表的なネットワーク。
元論文は、 Rich feature hierarchies for accurate object detection and semantic segmentation
ディープラーニングの一般物体検出手法の発展をまとめた図が下記のようにGitHubで公開されているが、R-CNNが出発点になっていることが分かる。

https://github.com/hoya012/deep_learning_object_detection/blob/master/assets/deep_learning_object_detection_history.PNG?raw=true

R-CNNのプロセス

R-CNNのプロセスは大きく下記のように示せる。
(参考はこちら
1.対象画像の入力
2.入力画像に対して、物体が映っている領域の候補(region Proposal)をSelective Searchで約2000個抽出し、CNNのインプットの大きさに合うようにそれぞれの領域中の画像をリサイズする。
3.それぞれの領域に対してCNN(Alex Net)で特徴量を計算
4.それぞれの領域に何が映っているのかSVMで分類する

Region Proposal

入力画像からSelective Searchで物体が写っている領域の候補(Region Proposal)矩形を2000こ抽出し、CNNの入力画像とする。Selective Searchによってあらかじめ候補領域を絞り込むことで、高速化を図っている。
CNNの入力サイズは固定のため、Selective Searchで抽出した領域はCNNの入力サイズに合わせてリサイズする。

Selective Search

ピクセルレベルで類似する領域を階層的に結合して一つの物体領域を出力し、そのBBを出力する。

Compute CNN Feature

物体認識として使うCNNは、ImageNetデータセットで学習した一般的認識のネットワークを流用し、別のデータセットで転移学習を行う。

Classify Regions

SVMによって領域を分類する。

R-CNNの課題

R-CNNは深層学習以前の一般物体検出手法に比べて認識精度を大きく向上させたが、時間が非常にかかる。
また、CNN、SVM、BBの回帰とプロセスごとに別々に学習する必要がある。

深層学習の学習:BERT

BERT

BERTとは、2018年にGoogleが発表した自然言語処理用の深層学習モデルである。

  • 論文タイトル

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

  • 投稿日

2018/10/11

  • 著者

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

  • 概要
    • Bidirectional Transformerをユニットにフルモデルで構成したモデル
    • 事前学習タスクとして、マスク言語予測タスク、隣接文判定タスクを与える
    • BERTからTransfer Lerningを行った結果、8つのタスクでSOTA
    • Googleが事前学習済みモデルを公開済み

背景

 様々な言語処理タスクにおいて事前学習が有効である。

  • 文レベルのタスク:文同士の関係性が重要
    • 文章類似度
    • 言い換え
  • トークンレベル:モデルはトークンレベルでよい出力が求められる

事前学習には二種類のアプローチがある。

    • Feature-Based
    • Fine-tuning

Feature-Based アプローチ

 事前学習したモデルでターゲットの文章を読み込ませ、隠れ層の値(特徴量)を抽出して、ターゲットのタスクモデルに渡すアプローチ。
 様々なNLPタスクの素性として利用される。
 最近では、ElMoが話題になった。

Fine-tuningアプローチ

 言語モデルで事前学習し、それをタスクのモデルで転移学習するアプローチ。
 事前学習は、パラメタの初期値として使用される。
 Open AI GPT、BERTで使用されており、最近はこちらが注目されている。

BERTの概要

Fine-tuningアプローチの事前学習に工夫を加えている。
具体的には、双方向トランスフォーマーは、よい学習効果をもたらすが、言語モデルの学習においては、従来のモデルでは未来情報のリークを防ぐためのマスクが無いため、採用が難しい。
そのため、事前学習タスクにおいて工夫をする必要があった。
f:id:tibet:20211228170042p:plain

入力表現

3種類のEmbeddingのSumを入力とする。

  • Token Embedding: WordPieceでTokenizationしたものをEmbedding
  • 単語位置埋め込み:系列長1-512の表現
  • 文区別埋め込み:1文目、2分目の区別
事前学習

1. 空欄語予測(Masked Language Modeling (MLM))

  • 文章中の単語のうち、15%をMASK対象に選ぶ。選ばれた15%の単語の位置にはフラグを立てておく。
  • 選んだ単語のうち、80%を[MASK]に置き換え、10%を他の単語に置き換え、残り10%は置き換えない。

文章を入力としてフラグが点いている位置のオリジナルの入力単語が何であるかを出力する。

  • 背景

双方向モデルは、left-to-rightモデルや双方向にconcatしたものより一般に強力である。しかし、双方向だと複数層の文脈から自分を見てしまうため、学習出来ない。
そこで発想を転換し、次の単語ではなく、ランダムに抜かれた単語を予測するモデルにする
一方でこの方法を採用すると、単語全体の15%しか学習に使えないため、学習に時間がかかる。

2.隣接文予測(Next Sentence Prediction(NSP))
2つの文章の関係性理解が重要だが、言語モデルのタスクのみではとらえられないという問題点があった。
そこで、2つの連なる文章のペアに対して、隣接文を50%の確率でシャッフルし、隣接文であるかのT/Fを出力させた。

BERTの具体的な事前学習方法
  • データセット:BooksCorpus+English Wikipedia
  • 事前処理
    • 入力文章の合計系列長が512以下になるように2つの文章をサンプリング
    • Next Sentence Predictionのため、文章1と文章2の組み合わせは50%の確率で変わる
    • MLMのため、Wordpieceトークンに分けられた後マスクされる
  • バッチサイズ:256(256×512=128,000単語/バッチ)
  • 1,000,000ステップ=33億個のたんごを40エポック学習
  • 活性化関数:GeLu

有効性

8個のNLPベンチマークタスクで、タスクspecificなアーキテクチャを組むことなく一気にSOTA達成