dreamedge.net

【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】

2013-06-03T12:25:31+0000

【輪講資料】Optimal Hashing Schemes for Entity Matching【WWW2013】
WWW2013で発表された,大量のEntity情報(企業情報や店舗情報などなど)の集約を最適化する方法の論文.これも先日社内で行った輪講で発表したので,資料を公開します.
発表時の質疑を受けて,地味に発表版からアップデートがかかってます(`・ω・´)

Entity情報の集約をする手法ではなくて,集約手法を最適化手法ということで,ややマニアックな課題を取り扱っている印象.でもサービス運用していると結構クリティカルなポイントなので,そこを研究課題としてもってくる辺りは上手いなと思いました.

後は現実のサービスで使われている集約ルールがどれだけ最適化されるかの例が示されているのですが(スライド19枚目),これがかなりのインパクトですね.

ただ手法の理論的な裏づけが論文の大半を占めることもあり,非常に内容が難解.日ごろあまり数式の出てこない世界で生きている自分では,10ページの論文を読むだけに丸3日位かかったという…… しかも内容を完全に理解し切れていないと状況(´・ω・`) 特に類似度判定でのコスト算出の部分はいまだに所々分かっていないので,誰か読み込んで教えて欲しいところです……