none
如何比较两篇文章的相似程度,从而获取相关信息列表? RRS feed

  • 问题

  • 数据库里有个文章表,如何根据文章内容而自动分类?也就是如何获取文章相似性的?(相关新闻列表) 这是怎么做的?

    我们库里除了文章内容字段,还有个关键词字段(各个词以"|"隔开的),然后根据关键字算词频。我想知道怎么比较词频来判断这两篇文章的内容是相似的,也就是说这两篇文章在讲述同一个新闻。(我们现在用的是矢量空间算法来比较,速度好慢,还很占内存)有没有什么好的,简便的方法来比较啊?

    我想问问:大家通常是怎么做“相关信息列表” 这种效果的?

    2010年5月24日 9:41

全部回复

  • 这里有个JAVA写的方法,你参照下

    http://www.blogjava.net/smildlzj/articles/238489.html


    努力+方法=成功
    2010年5月24日 9:50
  • 谢谢楼上的朋友。呵呵

    实际上我是想做排重,过滤重复的新闻。我们先计算出每篇文章的各个关键字的词频 ,然后再求反余弦功再来比较相似性。由于每篇文章的关键词太多了(这个字段还是text类型呢)数据库也优化过了,还做了全文索引。按我们这比较算法,太慢了。程序常常自己就死掉了,导致数据中断,无法分发我们的数据入库,很烦恼。我想问问你们是用什么方法来排重啊?有没好的算法或公式?还望各位高手能指点一下我吧? 我先在这里谢谢大家了。

     

    2010年5月26日 1:25