none
不同类型资料文件抽取工具的vb.net实现 RRS feed

  • 问题

  •   我啰嗦一点把事情说清楚:我在制作一个资料文件抽取/检索工具,具体来说就是从word/excel/text/chm/htm/pdf等类型的文件中抽取文本,从而实现检索,有点像WindowsDesktopSearch吧?呵呵,当然如果仅限于此我就不必做了,事实上我还要做一些分类/提取之类的工作,但是现在在文本抽取这一块就卡住了。

     

      我计划使用Ifilter来实现对不同类型的文件进行文本抽取,语言VB.net,已经根据资料查询到offfilt.dll/nlhtml.dll/query.dll/pdfx.dll是用于针对不同类型文件进行文本抽取的了,也找到了类似于miniDx这样的组件。

     

      现在的问题是:

      1:miniDx的组件似乎不能对上述甚至更多的类型进行抽取。在我的实验中,pdf文件就失败了。

      2:offfilt.dll/nlhtml.dll/query.dll/pdfx.dll找不到适当的说明文档来实现接口,事实上,我在添加“引用”时,只有offfilt.dll可以添加到项目引用中,query.dll/nlhtml.dll都不能添加进来。而offfilt.dll虽然添加进来了,却无法从“对象浏览器”中看到借口,甚至用DllView等工具也找不到确切的接口及说明。[dllImport]无法完成定义。

     

      以上的问题,请高手们帮忙解答。

      希望能:

      1:获得offfilt.dll/nlhtml.dll/query.dll等文件的接口及其说明。

      2:如果有相应实现的例子就更感谢了。实现的例子不一定限于vb.net。

     

    万分感谢!

    2008年9月25日 20:51