クラスタリング学習1

クラスタリングにあたって
各要素の合計Σx^0、平均の合計Σx^1、分散Σx^2の合計を取る これらはデータの出入りに頑健で保存統計量と呼ばれる
クラスタリングの結果を階層的に得ようとする
・凝集型
スタートが1個のサンプルは1個のクラスタだと考え、似たものをくっつけてクラスタリングしてゆく
 距離(複数ある場合は一番近い物同士、一番遠いもの同士、中間値、クラスタ空間など)を利用
・分割型
スタートが全部同じクラスタと考え、違うものを分割してゆく
 代表なのC4.5・・・情報エントロピーをもとにして分割し、割られたいくつかのクラスタエントロピーの情報利得(ふさわしいクラスタに入っているとエントロピー小さくなる)が最小になるように割る
ある群の中で、よく一緒に取られている組み合わせを探し(パンと牛乳一緒に買ってるなど)クラスタ化する
Grid-based computing
ウェーブレット変換
モデルベースクラスタリング
クラスタ正規分布にフィッティングさせる
あるyiが入力xiにいろんな要因でノイズが乗っている場合、そのノイズが多く乗っているほど、それらを全部まとめて正規分布とみてやってもよくなるという定理
いくつかの正規分布で表現する 複数のもととなる正規分布があって、それらが各サンプルどちらに所属するかを取り合う
次に、その正規分布に所属されたサンプルたちで、分布みずからの修正を行う
他にも、片方を固定してもう片方の修正を行うなどがある