maxentについて

在データしか手に入らない状況で、なんとか種分布モデルを構成したいときに、最近よく使われるようになっているmaxent。

 

総個体数が一定のある生物が限られた環境中(メッシュと読み替えても良い)に分布しており、各環境での個体数はその地点の環境要因と連関していると仮定して、そのもとで系のエントロピーが最大になるようなモデルを構成する。んで、最尤推定法で各環境要因の係数を求める(とかなんとか。かなり理解があやしい)。

 

在データしかなければ最尤推定できんので、擬似的な不在データが必要。それをバックグラウンドデータとか擬不在データと呼ぶ。全環境からランダムサンプリングして、それを擬不在データとすることもある。

 

しかし、特定の環境でしか在データが集まらない場合(例えば、都市部で集中して在データがあつまる)、ランダムサンプリングで擬不在データをつくってしまうと、在データは都市からたくさん集まって、擬不在データは都市以外からもたくさん集まることが起こる。さらに、都市と都市以外は環境要因もかなり違うはず。そうすると、「都市or非都市」という要因が交絡して、「在・不在⇔環境要因」の関連が生じてしまう恐れがある。

 

そのため、この交絡を制御する仕組みが必要になる。交絡がそもそも生じたのはランダムサンプリングによる擬不在データの生成だったので、ランダムサンプリング以外の手法が必要になる。