none
.doc in .txt umwandeln per org.textmining.text.extraction.WordExtractor RRS feed

  • Frage

  • Hallo Leute,

    gerne würde ich vorhandene .doc Dokumente per tm-extractors-0.4.dll in .txt Dokumente umwandeln. Dies bezüglich habe ich die eben genannte dll per Verweis in mein Projekt geholt und folgende Sachen importiert:

    Imports org.textmining.text.extraction.WordExtractor

    Imports org.textmining.text.extraction.chp

    Imports org.textmining.text.extraction.sprm

    Imports org.textmining.text.extraction

    Imports java.io.InputStream

    Imports java.io.FileOutputStream

    Was mir jedoch fehlt ist der Code um die Konvertierung anzustoßen. Kann mir da jemand helfen? Das was ich finde ist dieses hier:

    http://grepcode.com/file/repo1.maven.org/maven2/org.textmining/tm-extractors/0.4/org/textmining/text/extraction/Test.java?av=f

    und alles was da noch steht. Nur kann ich mit dem Code nichts anfangen (kein VB Code).

    Das einzige was ich habe und das wahrscheinlich auch nicht richtig ist, ist dies hier:

                        Dim wordextractordoc As New WordExtractor()
                        Dim s As String = wordextractordoc.extractText(New java.io.FileInputStream(foundFile))
                        Debug.WriteLine(s)
                        Dim out As New java.io.OutputStreamWriter(New java.io.FileOutputStream(TempString))
    


    Über Hilfe würde ich mich freuen.

     

    Gruss CV

    Samstag, 29. Oktober 2011 07:29

Antworten

  • Die Antwort, habe ich gerade selber gefunden.

     

    Der Code:

    Dim wordextractordoc As New WordExtractor()
    Dim s As String = wordextractordoc.extractText(New java.io.FileInputStream(foundFile))

    reicht um das eingelesene .doc Dokument als String weiter zu verarbeiten.

    Ich Danke trotzdem und wünsche allen ein schönes Wochenende.

    GRUß CV

    • Als Antwort markiert weltenspalter Samstag, 29. Oktober 2011 08:37
    Samstag, 29. Oktober 2011 08:37