none
一个关于关键词分类的问题 RRS feed

  • 问题

  • 一个关于关键词分类的问题                                

     我是个C#新手,想做一个新闻自动分类的东东,将信息源(标题+正文)通过关键词过
    滤筛选

    例如:有1000条新闻,按照汽车、医药、股市等等大的行业把文章逐一进行筛选分类

    我是这样想的利用一个命中度的概念,如房地产是一个大的产业分类,它下边包含了
    “楼市、楼盘”等许多的关键词,当一篇文章中一个关键词在文章标题和正文中出现多
    次,也就意味着命中度高,则将文章其分为相应的大类。反之,继续用其他关键词筛
    选,直至这1000条文章全部遍历一遍。

    开始我是做一个Reader,将所有的关键词都读进去,然后对比文章,结果...发现偶太
    天真了!!!后经咨询得知牵扯到算法问题有点晕!!!
    2007年8月6日 2:51

答案

  • 您所要求的功能其实就是一个Web Crawler的基本功能,是一般搜索引擎必须的。关于Web Crawler的详细信息可以参看:http://en.wikipedia.org/wiki/Web_crawler
    以下网址包含一个C# Web Crawler的简单示例,希望您能够从中受益:
    http://www.codeproject.com/cs/internet/Crawler.asp
    2007年8月6日 3:38