Benutzer mit den meisten Antworten
OCR Read PDF-Image

Frage
Antworten
-
Hallo Daniel,
d.h. das PDF Dokument hat den Text bereits?
Falls ja, schau mal hier:
Dann wäre iTextSharp evtl. auch was für dich.
Für PDFSharp schau mal hier:
https://github.com/DavidS/PdfTextract
Gruß, Stefan
Microsoft MVP - Visual Developer ASP/ASP.NET
http://www.asp-solutions.de/ - Consulting, Development
http://www.aspnetzone.de/ - ASP.NET Zone, die ASP.NET Community
- Bearbeitet Stefan FalzModerator Donnerstag, 16. April 2015 12:25
- Als Antwort vorgeschlagen Dimitar DenkovMicrosoft contingent staff, Administrator Donnerstag, 23. April 2015 10:30
- Als Antwort markiert Aleksander Chalabashiev Montag, 4. Mai 2015 11:10
Alle Antworten
-
Hallo Daniel,
willst Du den Text einer PDF lesen? Oder eine OCR Erkennung durchführen?
Ersteres kannst Du bspw. mit Aspose.Pdf machen:
http://www.aspose.com/.net/pdf-component.aspx
Letzteres mit Aspose.OCR:
http://www.aspose.com/.net/ocr-component.aspx
Beide Komponenten sind nicht wirklich günstig, dafür aber richtig gut.
Zumindest für den Part "Plaintext lesen" kannst Du es auch mit diesen Komponenten versuchen:
Gruß, Stefan
Microsoft MVP - Visual Developer ASP/ASP.NET
http://www.asp-solutions.de/ - Consulting, Development
http://www.aspnetzone.de/ - ASP.NET Zone, die ASP.NET Community
- Bearbeitet Stefan FalzModerator Donnerstag, 16. April 2015 09:01
-
Hallo Daniel,
d.h. das PDF Dokument hat den Text bereits?
Falls ja, schau mal hier:
Dann wäre iTextSharp evtl. auch was für dich.
Für PDFSharp schau mal hier:
https://github.com/DavidS/PdfTextract
Gruß, Stefan
Microsoft MVP - Visual Developer ASP/ASP.NET
http://www.asp-solutions.de/ - Consulting, Development
http://www.aspnetzone.de/ - ASP.NET Zone, die ASP.NET Community
- Bearbeitet Stefan FalzModerator Donnerstag, 16. April 2015 12:25
- Als Antwort vorgeschlagen Dimitar DenkovMicrosoft contingent staff, Administrator Donnerstag, 23. April 2015 10:30
- Als Antwort markiert Aleksander Chalabashiev Montag, 4. Mai 2015 11:10
-
Hi Stefan,
das PDF-Dokument was ich bearbeite - also wenn ich das PDF-Dok. aufmache habe ich nicht die Möglichkeit mit der Maus den Text zu markieren das ist ein Image-File.pdf
Also das sind eingescannt Eingangsrechnungen, und mein Ziel ist es den Text auszulesen...
Gruß Daniel
-
Hallo Daniel,
da kommst Du um eine OCR Erkennung nicht drumrum. Allerdings wäre es sinnvoller, wenn der Scanner das gleich macht. Die meisten Scanner können das von Haus aus.
Gruß, Stefan
Microsoft MVP - Visual Developer ASP/ASP.NET
http://www.asp-solutions.de/ - Consulting, Development
http://www.aspnetzone.de/ - ASP.NET Zone, die ASP.NET Community -
Hallo Daniel,
wie gesagt, wirst Du nur mit OCR weiterkommen. Eine mögliche Option steht oben in meiner ersten Antwort, ich würde aber evtl. doch schauen, ob man nicht einmal einen Batchlauf über die bestehenden Dateien durchführt und neue Dokumente direkte beim Scan entsprechend verarbeitet.
Gruß, Stefan
Microsoft MVP - Visual Developer ASP/ASP.NET
http://www.asp-solutions.de/ - Consulting, Development
http://www.aspnetzone.de/ - ASP.NET Zone, die ASP.NET Community -
Hallo nochmal,
ich lasse die Frage noch offen, vielleicht kennt wer eine Free DLL mit der man OCR erkennen kann.
Gruß
Danijel
- Bearbeitet Danijel Kramar Montag, 4. Mai 2015 06:47