次元削減について

主成分分析をよく使っていたけど、高次元なデータはスパースすぎて、PCAだとうまくいかないらしい。高次元のときの点間の距離と、次元削減後の低次元のときの点間の距離がうまく対応しないみたい。

んで、tSNEやUMAPはPCAに比べて次元削減がええみたい。tSNEは高次元と低次元のときの点間の距離を確率分布をつかって表現して、その2つの確率分布をなるべく近いなるようにして、低次元の座標を求める。結構わかりやすいアルゴズム。UMAPはまだよくわからん。

 

t-SNEを理解して可視化力を高める - Qiita

UMAPの仕組み ── 低次元化の理屈を理解してみる - kntty.hateblo.jp