指向性メモ::2004-12-10::カテゴリ分けの話

ページ情報
制作日
2004-12-10T11:12:28+09:00
最終更新日
2004-12-10T11:12:28+09:00
ページ内目次

そういえば、このメモはカテゴリ設定してなかったな。Articlesの方はメタデータとして埋め込んであるんだけど。

最近思うに、カテゴリはメタデータとして埋め込まない方がいい気もします。URIに影響するしないに関わらず、時間が経つと変化しそうなことをデータとして埋め込んでしまうと後々変更がメンドくさくなります。

とはいえ、カテゴリ分けはリソースの検索には便利なわけで。となると、やはりここは動的に行けば良いのですよ。たとえば、Googleのサイト内検索を使う場合、カテゴリ名をキーワードとした検索結果をリンクしておけば、簡易的なカテゴリ分けに使えそうです。カテゴリを追加したい場合はリンクを増やせば良いだけで、膨大な過去のリソースを変更する必要もありません。

namazuなんかを使う方法もありますが、個人的に気になるのはGoogleのAPIたたき放題な昨今の状況です。普通のサイト内検索だとカテゴリ表示につかうには若干整理されていない感がありますが、APIを叩いて返ってきた情報を適切に整形すれば、かなりよさげなカテゴリリストを生成できそうな気がします。

根本的な話をすれば、リソースのメンテナンス性を考えるならば、「あるがまま」の情報以外は埋め込むべきではないと思うんですよね。例えば日付や制作者などの情報は、リソースが生成された時点で、誰も、何もしなくても、存在します。こういった情報は基本的に変更されず、またメタデータでありながら本体のデータと不可分です。

それにくらべ、カテゴリ分けは、利便性を目的として「恣意的」に行われます。リソース本体とは直接関係有りません。「あるがまま」の情報が後から補完できないのに対し、これらの恣意的な情報の付加は、タイミングを任意に設定できます。だったら、ギリギリまで後回しにして、リクエストの直前に行った方がいい気がします。そうすれば常に最新の情報を、(機械にやらせれば)手を煩わすことなく得ることが出来るはずです。

逆に、これらの恣意的な情報をあらかじめ設定する場合の利点は、言うまでもなく、必要なCPU時間を分散できることです。また、カテゴリ分けだけに話を限定すれば、人間にやらせることにより、現在では難しい文脈解析を高い精度で行うことが出来ます(将来的にはCPU時間だけの問題になりそうだけども)。

しかし、昨今の状況を鑑みるに、GoogleとそのAPIにより、カテゴリ分けをリアルタイムで行うコストはかなり下がっているのでないかと想像できます。言い換えれば、カテゴリ分けはCPU時間を分散させるほど、大変な作業ではなくなりました。

ガッツが有れば、全記事を走査して単語のバースト具合からカテゴリそのものまで自動で生成出来そうですが(よく出る単語をカテゴリとして自動認識してリンクを作ってくれたら楽だなあ)、さすがにそこまでは無理だとしても、カテゴリの単語のみを自分で決めて、実際の分類は機械にやらせることが出来る時代になったんではないかと、ふと思いました(コードを書く気力はない)。

あ、まてよ、本文中のキーワードとカテゴリが必ずしも一致するとは限らないか。「日記」に突っ込むような文章だとしても、「日記」なんて一々書かないしな。Articlesみたいにカテゴリが固有名詞ばっかりならGoogle先生でも対応できそうだけど、内容とカテゴリ名が乖離するような場合は必ずしも満足行く結果が得られないか。やっぱりまだ人間に頼るしか無いのね。

Comments

Trackbacks

Trackback Ping URI

http://yudai.arielworks.com/memo/2004/12/10/111228.trackback

末尾に「8 + 4」の計算結果を繋げて下さい。例えば計算結果が「17」の場合、「111228.trackback17」です。これは機械的なトラックバックスパムを防止するための措置です。

Post a comment

Name (optional)
Email address or URI (optional)
Do the math below (required to filter comment spams)
8 + 4 + 9 =
Message (required)
Submit
連絡先、リンク、転載や複製などについては『サイト案内』をご覧ください。Powered by HIMMEL

I ♥ Validator