#
“
機械学習についての日々の研究岡野原さんは、学習アルゴリズムをいかに分散並列化するかみたいな話(ワークショップ)を紹介
- 通常、学習は逐次的なアルゴリズムなので、データを分散して、別々に学習したパラメータを持ち寄って最後に平均化するようなのでは上手くいかないらしい(この「うまくいかない」方法とbaggingの違いはよくわからなかった)
- そこで、簡単な変更を加える。データを分散して、別々に学習するが「ときどき」持ち寄ってパラメータを平均化して、各自それを持ち帰って学習を続けるという方法がすごくうまくいくうえに、収束性の証明もできるらしい。
- 実はこれは、プライバシ保護データマイニングに結構マッチするんじゃないかと思う。
- データをお互いに明かすことなく、分散アルゴリズム+暗号のテクニックで、全データを使ったモデルをつくるタイプの話があるが、これらは大抵、暗号化やら通信やらのコストで、普通にやるのに比べてすごく時間がかかってしまうのが課題。
- でも、この方法をベースにしている限りは、たまにパラメータを持ち寄って平均化するところだけを安全にやればよいので、かなりコストが抑えられるように思う。
2ヶ月前に投稿されました. リアクション.