Usuário com melhor resposta
Conversão PDF para TXT usando OCR.

Pergunta
-
Respostas
-
Olá
Precisei fazer isso e gostei desta API: http://sourceforge.net/projects/itextsharp/
public void Ler(string arquivoPdf, string arquivoOutput) { PdfReader reader = new PdfReader(arquivoPdf); StreamWriter writer = new StreamWriter(arquivoOutput, false, System.Text.Encoding.UTF8); for (int page = 1; page < reader.NumberOfPages; page++) { writer.Write(PdfTextExtractor.GetTextFromPage(reader, page)); } writer.Flush(); writer.Close(); writer.Dispose(); System.Diagnostics.Process.Start("notepad.exe", arquivoOutput); }
Funcionou bem.
Abs
Att --- Se a minha resposta lhe foi util, marque "Propor como Proposta" para qualificar o conteudo do fórum. Obrigado, Valdek Santos Santana Junior
- Marcado como Resposta Jéfte Santos quarta-feira, 16 de janeiro de 2013 18:33
Todas as Respostas
-
Olá
Precisei fazer isso e gostei desta API: http://sourceforge.net/projects/itextsharp/
public void Ler(string arquivoPdf, string arquivoOutput) { PdfReader reader = new PdfReader(arquivoPdf); StreamWriter writer = new StreamWriter(arquivoOutput, false, System.Text.Encoding.UTF8); for (int page = 1; page < reader.NumberOfPages; page++) { writer.Write(PdfTextExtractor.GetTextFromPage(reader, page)); } writer.Flush(); writer.Close(); writer.Dispose(); System.Diagnostics.Process.Start("notepad.exe", arquivoOutput); }
Funcionou bem.
Abs
Att --- Se a minha resposta lhe foi util, marque "Propor como Proposta" para qualificar o conteudo do fórum. Obrigado, Valdek Santos Santana Junior
- Marcado como Resposta Jéfte Santos quarta-feira, 16 de janeiro de 2013 18:33
-
Valdek,
Como você fez para resolver quando o conteúdo do PDF é todo uma imagem, tipo aqueles scanners antigos onde só efetuavam o scanner para imagem e n como texto?
Estou com este problema, tenho alguns PDF's que preciso extrair o texto dele para um txt mais como ele vem como imagem não estou conseguindo, uso o iTextSharp para extrair texto do PDF mais o mesmo não efetua esta extração quando o PDF é todo como imagem.
Alguém conhece alguma classe open source que possa me ajudar com isso, pode ser um OCR...Obrigado!
-
Dá uma olhadinha nessas Threads abaixo ira te ajudar bastante:
http://www.luiztools.com/post/Leitura-de-imagens-usando-OCR-e-C.aspx
http://forum.imasters.com.br/topic/488774-ocr-com-c/
http://pt.stackoverflow.com/questions/30643/como-trabalhar-com-ocr-para-reconhecer-fotografias