特徴語抽出とローカル検索

お店の評判とか場所に対するツブヤキをアグリゲーションして、その場所に対する特徴語を抽出しています。

処理1 複数データソースがある場合、場所のduplication問題を解決する。基本的な考え方は、東京大学の相良先生がWebDB登壇の際にシェアいただいた論文が一番わかりやすい。さらに、場所に対するタグ付け(いわゆる業種)とジオコーディングを行います。タグは正規化した辞書を用意すべきで、最低限シノニム辞書は用意すべし。

処理2 タグに対する特徴語を頻度で抽出。抽出したデータに対し、抽出すべき情報なのかを評価します。

処理3 処理2で作成した必要なデータを辞書として、特徴語抽出を行います。当然、その際にデータソースのURIも保存しておくこと。

あとは、検索結果の表層データ(非検索対象情報)としてインデックスに追加しておく。これで、より有用な検索結果を出すことが可能だ。

Term Extraction Web Service – YDN.

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中