Benutzer mit den meisten Antworten
Suche in einer pdf-Datei

Frage
-
Hallo,
ich bin auch der Suche nach Resourcen für eine programmgesteuerte Suche in einer pdf-Datei? Was ist best practice?
Bin für jeden Hinweis dankbar.
Kurz mein Szenario für eine Desktop-App: In mehreren pdf-Dateien soll programmgesteuert nach einem Wort gesucht werden und jeweils die genaue Seite in der Datei angegeben werden.
Antworten
-
Hallo Martin
wichtige Punkte vorab:
PDF ist kein Microsoft-Format (fast schon falsches Forum).
PDF ist ein ausgesprochenes Ausgabe-Format, wer darin sucht hat eigentlich schon 'verloren'. Nicht alles in einem PDF was auf dem Bildschirm wie Text aussieht ist auch als Klartext in der Datei hinterlegt, sondern oft nur als Grafik-Vektoren oder (worst case) nur als Bitmap! Daher sind Suchresultate immer sehr von der Qualität (Quelle) der PDF Datei abhängig. Insbesondere dort wo PDFs eigentlich via Druckerausgabe-Umleitung entstanden sind, muss man fest mit viel Müll rechnen.Windows selber bietet / nutzt etwa 'IFilter' COM Interface (DLLs, ActiveX), für PDFs suche mal ähnliche wie:
http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025
http://www.foxitsoftware.com/products/ifilter/
http://blogs.msdn.com/b/ifilter/Interop, hier C#
http://www.codeproject.com/KB/cs/IFilter.aspx
http://www.codeproject.com/KB/cs/fulltextsearchingifinters.aspx- Als Antwort vorgeschlagen Thorsten DörflerModerator Sonntag, 18. Dezember 2011 14:08
- Als Antwort markiert Robert BreitenhoferModerator Mittwoch, 21. Dezember 2011 16:27
Alle Antworten
-
Hallo Martin
wichtige Punkte vorab:
PDF ist kein Microsoft-Format (fast schon falsches Forum).
PDF ist ein ausgesprochenes Ausgabe-Format, wer darin sucht hat eigentlich schon 'verloren'. Nicht alles in einem PDF was auf dem Bildschirm wie Text aussieht ist auch als Klartext in der Datei hinterlegt, sondern oft nur als Grafik-Vektoren oder (worst case) nur als Bitmap! Daher sind Suchresultate immer sehr von der Qualität (Quelle) der PDF Datei abhängig. Insbesondere dort wo PDFs eigentlich via Druckerausgabe-Umleitung entstanden sind, muss man fest mit viel Müll rechnen.Windows selber bietet / nutzt etwa 'IFilter' COM Interface (DLLs, ActiveX), für PDFs suche mal ähnliche wie:
http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025
http://www.foxitsoftware.com/products/ifilter/
http://blogs.msdn.com/b/ifilter/Interop, hier C#
http://www.codeproject.com/KB/cs/IFilter.aspx
http://www.codeproject.com/KB/cs/fulltextsearchingifinters.aspx- Als Antwort vorgeschlagen Thorsten DörflerModerator Sonntag, 18. Dezember 2011 14:08
- Als Antwort markiert Robert BreitenhoferModerator Mittwoch, 21. Dezember 2011 16:27
-
Hallo Martin Krüger,
Ich gehe davon aus, dass die Antwort Dir weitergeholfen hat.
Solltest Du noch "Rückfragen" dazu haben, so gib uns bitte Bescheid.
Grüße,
Robert
Robert Breitenhofer, MICROSOFT
Bitte haben Sie Verständnis dafür, dass im Rahmen dieses Forums, welches auf dem Community-Prinzip „Entwickler helfen Entwickler“ beruht, kein technischer Support geleistet werden kann oder sonst welche garantierten Maßnahmen seitens Microsoft zugesichert werden können.