Developer Network
Developer Network
Developer Network
:CreateViewProfileText:
登录
MSDN 订阅
获取工具
下载
Visual Studio
SDK
试用软件
免费下载
Office 资源
计划
订阅
Administrators
学生
Microsoft Imagine
Microsoft 学生合作伙伴
ISV
新手
Events(事件)
社区
Magazine
论坛
博客
第 9 频道
文档
API 和参考
开发人员中心
示例
停用的内容
非常抱歉。你请求的内容已被删除。将在 1 秒内自动重定向。
提出问题
快速访问
论坛主页
浏览论坛用户
FAQ
搜索相关主题
Remove From My Forums
积极答复者
词频统计算法怎么做啊?
.NET 开发
>
.NET Framework 一般性问题讨论区
问题
0
登录进行投票
大家好。有没什么好的词频统计算法。
嗯,比如:现有两篇文章1.txt 2.txt ,然后1.txt 的词表是list1 , 2.txt 的词表是list2 (数组),然后,由list1 和list2 (求并集)得到一个字典表list .
我想统计list中所有词分别在1.txt 和2.txt 中出现的次数。
普通的算法的是不行的。我的文章是在数据库里的一个表里(article),然后取正文字段,然后再统计。而这个表数据量很大,正文字段也很大,有的正文长达4M
2009年10月16日 1:56
回复
|
引用
答案
0
登录进行投票
你好 对于你这种情况 可以采用正则匹配就可以获得有多少个 正则表达式就是 那个词本身(注意包含特殊转义的字符)
Wenn ich dich hab’,gibt es nichts, was unerträglich ist.坚持不懈!
http://hi.baidu.com/1987raymond
已标记为答案
Riquel_Dong
Moderator
2009年10月23日 7:41
2009年10月16日 2:09
回复
|
引用
版主