はてなブックマークの分類システムの疑問点

先日(id:Yuny:20050211:p1)書いたこのページが「ゲーム」カテゴリになる理由について、cx20さんから教えていただきました。

# cx20『はてなブックマークのカテゴリ分類ですが、はてなダイアリーキーワードによって分類されるようです。
一般:ダイブ / 一般:フラフラ / 一般:モラル / ゲーム:十字架 / 一般:子供』

「十字架」がゲームカテゴリのキーワードなんですね。なるほど。「教えて!goo」のその記事を読んでみたら、「十字架」という言葉も本文中で使われていました。
しかし、このお話は奥さんが浮気している、どうしようって言うご相談で、「十字架」は全然問題じゃないんですよね。(比喩としてちょっと出てきたくらい)それがたまたまキーワードにあったから、それで分類されるのはおかしい。
この場合、ページタイトルにある「浮気」(一般カテゴリ)を優先するか、「今週、妻が浮気します」(読書カテゴリ)で分けるかした方が正確なのではないかと思います。
つまり、ページの題名もキーワード選出の仕組みに入れた方がより正確なのではないかと思います。>はてなブックマークへの要望


はてなダイアリーキーワードの区分で仕分けることが、どれくらい有効に働くか、未知数ですね。
「十字架」は、ゲームカテゴリだけでなく、一般カテゴリにもありました。ゲームカテゴリとしては「2004年10月から稼動しているパチスロ機。」という意味で。一般カテゴリでは「罪人をはりつけにした処刑具。」などの意味になっていました。
意味が複数登録されているキーワードの問題でもあるのかもしれませんね。


他の事例ですと、近藤さんがインタビューされているこの記事を登録すると、なぜか「スポーツ」になる。

この場合は、登録した方が工夫を試みたようです。titleタグ上は「京都経済新聞社/報道ネットワーク 豊かな人生は“机”と“ベッド”の間にある」ということになっていますが、はてなブックマーク上は「京都経済新聞社/報道ネットワーク 豊かな人生は“机”と“ベッド”の間にある「はてな社長 近藤 淳也氏」」となっていて、わざわざ幾つかの文言が付け加えられています。しかし、結果的にはスポーツカテゴリ扱いになってしまっています。(おそらく、本文末尾で触れている「ツール・ド・信州」や「ロードレース」などの単語によるものだと思われます)

本文からカテゴリ分けするのではなく、はてなブックマークへ登録するときの題名の付け方からカテゴリ分けした方が正確になるのかもしれません。文章を分類するときは、先ほど見たような本文にちらりと出た比喩表現などにとらわれず、むしろタイトルの方が要旨を象徴するように思います。
もしも本文が「ツール・ド・信州」や「ロードレース」について述べたものであれば、必然的にそれらに重きを置いたタイトルになっているはずです。今回は本文といっても、近藤さんの経歴紹介でちょっと触れているだけの単語が分類の原因になってしまっているため、このようなことになりました。題名の付け方からカテゴリ分けすれば、おそらく『はてな社長 近藤 淳也氏』あたりが効いて、はてなカテゴリに分けられたことでしょう。

ほかにも幾つか、音楽系の記事を登録してみましたが、同様な問題が散見されました。人力検索はてなの質問を登録してみても、はてな扱いになったり、ならなかったりしています。