dreamedge.net

【輪講資料】Mining the Web for Points of Interest【SIGIR2012】

2013-05-13T22:28:41+0000

SIGIR2012で発表されたPOI(Point of Interest: ランドマークや遺跡、店舗などの地理的な固有物)の自動抽出の論文について,最近社内有志で行っている輪講で紹介した資料を公開します.発表自体は先月だったのに,なんとなく後回しにしていたら半月経ってしまった……(´・ω・`)

論文の結論としてはまだまだ自動抽出は実用的なレベルにいたらないのかなという印象でしたが,業務で辞書整備された地名抽出エンジンをベースに地理情報の抽出とかを行っているので大分参考になりました.提案システムはかなり頑張っている印象ですが,やっぱり自動抽出は人手整備されたシステムの精度にはかなわないので,使い道を考えて適用しないと厳しいですね.

提案している技術構成自体は比較的スタンダードなのですが,POI抽出のCRFにクエリログから計算したPMIを入れているのは興味深かったです.日本語の解析でも使えるのかは試してみたいなぁ.

緯度経度の抽出についてもYahooの論文らしくFlickrデータを使って頑張ってますが,ここはFoursquareがチェックイン情報を使ったら簡単に越えてきそうなのが…….

ちなみにSIGIRでの発表された際の資料がSlideShareで公開されています.自分のまとめ方と大分違っていて面白いですね.