none
Conversão PDF para TXT usando OCR. RRS feed

  • Pergunta

  • Boa noite, gente.

    A pergunta é bem direta: É possível usar OCR para converter PDF em TXT, já que as api's mais comuns para fazer isso não sanam o problema da tabulação? Se sim, que ferramenta devo usar para fazer essa conversão? Muito Obrigado.

    sábado, 6 de outubro de 2012 03:45

Respostas

  • Olá

    Precisei fazer isso e gostei desta API: http://sourceforge.net/projects/itextsharp/

    public void Ler(string arquivoPdf, string arquivoOutput) {
        PdfReader reader = new PdfReader(arquivoPdf);
        StreamWriter writer = new StreamWriter(arquivoOutput, false, System.Text.Encoding.UTF8);
            for (int page = 1; page < reader.NumberOfPages; page++) {
                writer.Write(PdfTextExtractor.GetTextFromPage(reader, page));
            }
        writer.Flush();
        writer.Close();
        writer.Dispose();
        System.Diagnostics.Process.Start("notepad.exe", arquivoOutput);
    }

    Funcionou bem.

    Abs


    Att --- Se a minha resposta lhe foi util, marque "Propor como Proposta" para qualificar o conteudo do fórum. Obrigado, Valdek Santos Santana Junior

    • Marcado como Resposta Jéfte Santos quarta-feira, 16 de janeiro de 2013 18:33
    segunda-feira, 8 de outubro de 2012 12:59

Todas as Respostas