none
词频统计算法怎么做啊? RRS feed

  • 问题

  • 大家好。有没什么好的词频统计算法。

    嗯,比如:现有两篇文章1.txt  2.txt  ,然后1.txt 的词表是list1 , 2.txt 的词表是list2 (数组),然后,由list1 和list2 (求并集)得到一个字典表list  .

    我想统计list中所有词分别在1.txt  和2.txt 中出现的次数。

    普通的算法的是不行的。我的文章是在数据库里的一个表里(article),然后取正文字段,然后再统计。而这个表数据量很大,正文字段也很大,有的正文长达4M
    2009年10月16日 1:56

答案