最適なタギングのためのアルゴリズムとかないんですかね

webページの列が与えられて、個々のページに対してラベルを付与するタスクを考える。
ラベルをつける目的は分類のため。あとから見直すときのインデクスとして。

ラベルごとのページ数はなるべく均等であることが望ましい。ほとんどのページに同じラベルが振られたら、そのラベルは検索の役に立たない。その場合、ラベルの情報は更新される必要がる(あるラベルを細分化する、全体の分類をやりなおすなどして)。また、ラベルの種類が増えすぎると検索時/ラベリング時のコストが増える。
今後来るwebページの傾向を見越して長期運用に耐えうるラベリングをしたい。さてどうするか。
(まあ要ははてブのタグ付けの話なんですが)
(今後来るページの傾向を予測できればほぼ解けたかんじですね)