none
关于数据挖掘的学习 RRS feed

  • 问题

  • 小生刚入行半年,谁能给推荐一个学习数据挖掘的途径(书或网站,没时间上学习班……),重点在于文本挖掘的,要SQL2005或者SQL2008的,多谢啦~~
    2010年1月25日 1:12

答案

  • 2010年1月25日 2:15
    版主
  • 这个说来话长。就拿我现在正在做的研究来说,我有一个数据库,内有近万篇不同领域的论文。倘若我想利用关键字、被引之类的数据来分析这个数据库,看能否确定领域甚至开拓新领域,就需要文本挖掘的深层知识。
    我本人只会一点统计啊数据挖掘方面的,文本挖掘也就只知道简单的K均值和衍生算法,对我解决这个问题帮助不大啊……

    如果要做这个分析,挖掘出新的领域我想可能不大,不过我提供一个思路,多少能帮助你获取一些信息:

    1.对论文分词,索引(分词,索引引擎比较多,开源的有lucene,.NET版本也有)
    2.对分词结果按照你自己的思路设计算法,(你主要统计的估计是某些关键字出现的情况,被其他论文引用情况)汇总统计。
    3.最好搞一个关键字参照表,对比之前的分词结果做一些交叉统计。

    这样能获得一些信息,但是我个人认为意义不是很大(感觉有点像论文防抄袭系统???)
    family as water
    2010年1月27日 2:51

全部回复

  • 文本挖掘?

    能详细说说怎么个挖掘文本?


    family as water
    2010年1月25日 1:43
  • 2010年1月25日 2:15
    版主
  • MSDN可以当字典用,可以上网搜搜成系列blog和教程,这种东西很多。
    2010年1月26日 2:37
  • 呵呵,我选择微软主要就是因为他有MSDN,里面的教程我都一一做过了,但是相比我要接触的领域而言,这些还只是表面功夫~多谢
    2010年1月26日 5:55
  • 这个说来话长。就拿我现在正在做的研究来说,我有一个数据库,内有近万篇不同领域的论文。倘若我想利用关键字、被引之类的数据来分析这个数据库,看能否确定领域甚至开拓新领域,就需要文本挖掘的深层知识。
    我本人只会一点统计啊数据挖掘方面的,文本挖掘也就只知道简单的K均值和衍生算法,对我解决这个问题帮助不大啊……
    2010年1月26日 5:57
  • 这些都是一些比较基本的知识,虽然是入门阶段非常重要的东西,但始终不能解决我的问题,我想知道哪里有更加深入的讲解,可以解决更高层面上的问题~
    2010年1月26日 5:59
  • 这个说来话长。就拿我现在正在做的研究来说,我有一个数据库,内有近万篇不同领域的论文。倘若我想利用关键字、被引之类的数据来分析这个数据库,看能否确定领域甚至开拓新领域,就需要文本挖掘的深层知识。
    我本人只会一点统计啊数据挖掘方面的,文本挖掘也就只知道简单的K均值和衍生算法,对我解决这个问题帮助不大啊……

    如果要做这个分析,挖掘出新的领域我想可能不大,不过我提供一个思路,多少能帮助你获取一些信息:

    1.对论文分词,索引(分词,索引引擎比较多,开源的有lucene,.NET版本也有)
    2.对分词结果按照你自己的思路设计算法,(你主要统计的估计是某些关键字出现的情况,被其他论文引用情况)汇总统计。
    3.最好搞一个关键字参照表,对比之前的分词结果做一些交叉统计。

    这样能获得一些信息,但是我个人认为意义不是很大(感觉有点像论文防抄袭系统???)
    family as water
    2010年1月27日 2:51
  • 其实难点在于如何将我对关键词的分词啥的输入到我的数据挖掘工具里,比如我如果考虑K均值算法,我如何确定相关的原点距离之类的。呵呵。

    我知道很难,也不可能是一个人做的出来的东西,做出来确实也意义不大,但是,我有不得不做的理由啊~多谢指点啦~!

    2010年1月27日 6:32