Extrair texto de imagens com estes melhores OCR Software

2019

Atualmente, quase tudo (por exemplo, fotos, músicas, vídeos) passou a ser digital (e isso faz sentido, já que o conteúdo digital pode ser gerenciado, editado e compartilhado de forma conveniente). Então, como documentos textuais podem ficar para trás? Graças aos avanços nas técnicas de reconhecimento óptico de caracteres (OCR), agora é mais fácil do que nunca digitalizar a matéria textual em documentos impressos / manuscritos, tornando-a editável por programas de processamento de texto.

Agora, para fazer isso, você precisa de alguns aplicativos de software OCR realmente bons, e é exatamente isso que trata este artigo. Esses softwares podem adquirir os documentos impressos originais como imagens de dispositivos de digitalização ou você pode inserir suas próprias imagens de documentos para serem convertidas em texto editável. Intrigado? Bem, então não vamos dar a volta e chegar ao melhor software de OCR .

1. ABBYY FineReader

Quando se trata de Reconhecimento Óptico de Caracteres, quase não há nada que seja próximo ao ABBYY FineReader. Carregado até a borda com uma quantidade insana de recursos avançados, o ABBYY FineReader facilita a extração de texto de todos os tipos de imagens.

Apesar de carregar e extensa lista de recursos, o ABBYY FineReader é super simples de usar. Pode extrair texto de quase todos os tipos de formatos de imagem populares, como PNG, JPG, BMP e TIFF. E isso não é tudo. O ABBYY FineReader também pode extrair texto de arquivos PDF e DJVU. Uma vez carregado o arquivo de origem ou imagem (que deve preferencialmente ter uma resolução de pelo menos 300 dpi, para digitalização ideal), o programa analisa e determina automaticamente diferentes seções do arquivo com texto extraível. Você pode ter todo o texto extraído ou escolher apenas algumas seções específicas. Depois disso, tudo o que você precisa fazer é usar a opção Salvar para escolher o formato de saída, e o ABBYY FIneReader cuidará do resto. Existem vários formatos de saída suportados, como TXT, PDF, RTF e até EPUB.

O texto de saída é perfeitamente editável, e o texto até mesmo dos documentos com maior conteúdo de conteúdo (por exemplo, aqueles com múltiplas colunas e layouts complexos) é extraído sem falhas. Outros recursos incluem amplo suporte a idiomas, vários estilos / tamanhos de fontes e ferramentas de correção de imagens para arquivos provenientes de scanners e câmeras.

Em suma, se você quer o melhor software OCR, com extenso formato de entrada / saída e suporte de processamento, vá para o ABBYY FineReader.

Disponibilidade da plataforma: Windows 10, 8, 7, Vista e XP; Mac OS X 10.6 e posterior

Preço: versões pagas a partir de $ 169, 99, 30 dias de avaliação gratuita disponível

Baixar

2. Readiris

Em busca de um software OCR extremamente poderoso e pesado, mas não é preciso muito esforço para começar? Dê uma olhada no Readiris, pois ele pode ser o que você precisa.

Um aplicativo de nível profissional, o Readiris possui um amplo conjunto de recursos que é praticamente idêntico ao ABBYY FineReader discutido anteriormente. De BMP a PNG e de PCX a TIFF, o Readiris oferece suporte a vários formatos de imagem. Além disso, os arquivos PDF e DJVU também podem ser processados. As imagens podem ser obtidas de dispositivos de scanner e o aplicativo também permite definir parâmetros de processamento personalizados para arquivos / imagens de origem, como suavização e ajuste de DPI, antes de analisá-los. Embora o Readiris possa processar imagens de resolução mais baixa, a resolução ideal deve ser de pelo menos 300 dpi. Depois que a análise é concluída, o Readiris determina seções de texto (ou zonas) e o texto pode ser extraído de zonas específicas ou de todo o arquivo. O texto extraído é editável e pode ser salvo em vários formatos, como PDF, DOCX, TXT, CSV e HTM.

Além disso, o recurso de economia de nuvem do Readiris Pro permite salvar diretamente o texto extraído em diferentes serviços de armazenamento na nuvem, como Dropbox, OneDrive, GoogleDrive e outros mais. Há também um bom número de recursos de edição / processamento de texto, e até mesmo os códigos de barras podem ser verificados.

No geral, você deve usar o Readiris se quiser recursos robustos de extração / edição de texto em um pacote simples de usar, completo com suporte extensivo a formatos de entrada / saída. No entanto, o Readiris falha um pouco quando se trata de processar documentos com layouts complexos, como várias colunas, tabelas etc.

Disponibilidade da plataforma: Windows 10, 8, 7, Vista e XP; Mac OS X 10.7 e posterior

Preço: Versões pagas a partir de $ 99, 10 dias de teste gratuito disponível

Baixar

3. FreeOCR

Se você está procurando por um software OCR simples e sem problemas, com capacidades de reconhecimento de texto decentes, não procure mais além do FreeOCR . Embora possa não ser sobrecarregado com todos os tipos de recursos sofisticados, ainda funciona muito bem para o que é.

Baseado no extremamente popular motor de OCR Tesseract, o FreeOCR é extremamente fácil de usar. Ele pode obter documentos impressos digitalizados por meio de scanners e também permite fazer upload de imagens com conteúdo textual. Não só isso, ele também pode extrair texto de documentos de várias páginas altamente formatados. Você pode fazer com que o aplicativo extraia todo o texto da entrada PDF / imagem ou defina um bloco específico de texto. As velocidades de conversão são muito boas e o texto convertido pode ser salvo em formatos como TXT e RTF ou exportado diretamente para o Microsoft Word. O FreeOCR suporta todos os principais formatos de imagem, como PNG, JPG e TIFF.

Dito isto, o FreeOCR tem algumas deficiências. É muito básico e não tem nenhuma função de pós-processamento de texto. Além disso, o layout do texto extraído muitas vezes fica confuso, com linhas e colunas sobrepostas. Use-o somente se você precisar de alguma funcionalidade básica de OCR para uso ocasional.

Disponibilidade da plataforma: Windows 10, 8, 7, Vista e XP

Preço: Gratuito

Baixar

4. Microsoft OneNote

O OneNote é um aplicativo de anotações incrivelmente rico em recursos que também é fácil de começar. No entanto, a anotação não é a única coisa boa. Se você usar o OneNote como parte de seu fluxo de trabalho, poderá usá-lo para fazer algumas extrações básicas de texto, graças à qualidade de OCR embutida nele.

Usar o OneNote para extrair texto de imagens é ridiculamente simples. Se você usar o aplicativo de desktop, tudo o que você precisa fazer é usar a opção Inserir para inserir a imagem em qualquer um dos blocos de anotações ou seções. Feito isso, basta clicar com o botão direito na imagem e selecionar a opção Copiar texto da imagem . Todo o conteúdo textual da imagem seria copiado para a área de transferência e pode ser colado (e, portanto, editado) em qualquer lugar, conforme a necessidade. Seja PNG, JPG, BMP ou TIFF, o OneNote suporta quase todos os principais formatos de imagem.

No entanto, os recursos de extração de texto do OneNote são bastante limitados e não podem lidar com imagens com layouts complexos de conteúdo textual, como tabelas e subseções. Então isso é algo que você deve ter em mente.

Disponibilidade da plataforma: Windows 10, 8, 7 e Vista; Mac OS X 10.10 e posterior

Preço: Gratuito

Baixar

5. GOCR

Nota: Antes de começar, é importante saber que, embora o GOCR suporte formatos de imagem regulares, como PNG e JPG, ele não conseguiu reconhecê-los durante o teste (executado em um PC com Windows 10). É muito possível que ele funcione com esses formatos em máquinas Linux, mas se você estiver usando o Windows, precisará converter as imagens de origem no formato PNM. Isso pode ser feito por meio de várias ferramentas de conversão de arquivos on-line, como essa.

O que diferencia o GOCR do lote é que ele não tem um front-end de interface gráfica de usuário (GUI). É uma ferramenta baseada em linha de comando e, como tal, não é realmente o mais fácil de usar. Mas uma vez que você esteja confortável com o básico, o GOCR pode ser realmente útil na extração de texto a partir de imagens. Também é importante notar que, para o GOCR funcionar corretamente, as imagens de origem devem ter conteúdo textual claramente visível e, de preferência, fundo branco, já que o utilitário realmente não funciona com arquivos de origem complexos. O GOCR extrai o texto das imagens e as salva no formato TXT. Embora ele suporte alguns argumentos e funções, apenas alguns precisam ser conhecidos para começar. Por exemplo, para extrair texto de uma imagem PNM de amostra, você deve digitar o seguinte no prompt de comando.

X: \ pasta de amostra \ gocr049 -i file.pnm -o arquivo.txt

Aqui, X: \ sample folder é o local onde a ferramenta de linha de comando do GOCR está localizada, e file.pnm e file.txt são os arquivos de entrada e saída, respectivamente (ambos no mesmo local do GOCR; se o local for diferente, o caminho completo deve ser especificado). Além disso, se você quiser alterar os níveis de escala de cinza da imagem, poderá especificar um valor numérico como argumento, junto com -l. Clique aqui para ler sobre o uso em detalhes.

Resumindo, o GOCR é um utilitário OCR bastante bom e, quando se trata de extração de texto a partir de imagens simples, funciona excepcionalmente bem. No entanto, ele é severamente limitado em recursos e requer um grande esforço para começar a trabalhar.

Disponibilidade da plataforma: Windows 10, 8, 7, Vista e XP; Linux; OS / 2

Preço: Gratuito

Baixar

Tudo pronto para converter imagens em texto?

A digitalização de conteúdo textual impresso (e manuscrito) é extremamente útil, pois torna extremamente fácil armazenar, editar e compartilhar texto. E o software de OCR discutido acima faz o trabalho rápido de fazer exatamente isso, não importa quão básicas ou avançadas sejam suas necessidades de extração de texto. Precisa de recursos de extração de texto de nível profissional com as melhores ferramentas de pós-processamento? Vá para o ABBYY FineReader ou o Readiris. Preferiria um software de OCR mais simples que apenas fizesse o básico? Use o OneNote ou o FreeOCR. Experimente-os e veja como eles funcionam para você. Sabe de algum outro software de OCR que poderia ter sido incluído na listagem acima? Grite nos comentários abaixo.