locked
pdf wandeln in plain text RRS feed

  • Frage

  • Hallo wei? jemand ob es ein Tool gibt um den Textinhalt eines PDF einfach
    auszulesen, oder ob es mit VFP9 Bordmitteln geht?
     
    Bin dankbar f?r jede Info.
     
    Gru? Walter
     
     
     
    Freitag, 29. April 2011 13:13

Antworten

  • Seit Window Search 4 (vielleicht sogar 3) kannst Du auch in PDF Texten suchen, und die Windowssuche läßt sich automatisieren:

     

    loConn=CREATEOBJECT("adodb.connection")
    loConn.ConnectionString="Provider=Search.CollatorDSO;Extended Properties='Application=Windows';"
    loConn.Open()
    
    Text To lcWSSQL NoShow
    SELECT System.ItemFolderPathDisplay, System.Filename 
    FROM SystemIndex 
    WHERE CONTAINS('searchstring') AND System.FileExtension = '.pdf' 
    Endtext
    
    loRs = loConn.Execute(lcWSSQL)
    If loRS.RecordCount>0
     loRS.Movefirst() 
     Do While Not loRS.EOF
     loPath = loRs.Fields.Item("System.ItemFolderPathDisplay")
     loFile = loRs.Fields.Item("System.Filename")
    
     lcFilename = Addbs(loPath.Value)+loFile.Value
     ? lcFilename
     loRS.Movenext()
     EndDo
    EndIf

    Was dazu neben Windows Search 4 vorhanden sein muß ist ein IFilter für PDFs, wie es ihn z.B. von Adobe gibt: http://www.adobe.com/support/downloads/thankyou.jsp?ftpID=2611&fileID=2457 . Und natürlich muß der Indexing Dienst laufen und die PDFs in einem indizierten Ordner liegen. Unter den Voraussetzungen ist das auch nicht schlecht.

    Ansonsten Google doch PDF to TXT. 

    Tschüß, Olaf.


    Nachtrag: RecordCount wird immer -1 sein, lass also If loRS.RecordCount>0 und das dazugehörige EndIf
    einfach weg. Nur wenn kein Ergebnis gefunden wird, wirft loRS.MoveFirst() dann einen Fehler, daher das mit
    TRY..CATCH umschließen bis hinter das ENDDO.




    Samstag, 30. April 2011 12:32