sábado, 26 de janeiro de 2019

Extrair o texto de imagem digitalizada


Descobri recentemente uma forma de extrair o texto de uma imagem digitalizada, de forma que o mesmo fosse completamente editável. Muitas pessoas necessitam desta técnica para que documentos de texto digitalizados retornem ao formato original, de forma fácil, sem exigir a necessidade da utilização dos OCRs caros e difíceis de conseguir. O teste foi feito em imagem do tipo .jpg, mas acredito que também funcione, sem problemas, para outros tipos de imagens. Houve um problema para documentos de texto com múltiplas colunas; neste caso, deve ser feito um tratamento preliminar para transformar cada coluna em um único documento.
Como isto funciona? É bastante simples. Primeiro, necessitamos possuir uma conta no Google. Todos sabem que quando você abre uma conta no Google, então possuirá uma série de serviços oferecidos gratuitamente. Conta aberta, um dos serviços gratuitos que você terá direito é o Google Drive – um repositório (Google Drive) onde você poderá arquivar diversos tipos de arquivos. Para saber mais a respeito, busque no próprio site da Google as informações detalhadas.
O segundo passo consiste em salvar o arquivo imagem, referente ao artigo, no citado repositório virtual. Para fazer isto, você deve se logar na sua conta Google e acessar o seu Google Drive (veja a figura) abaixo:

Para acessar o Google Drive, clique no ícone “Drive”.
A seguir, quando houver acessado a página do seu Google Drive, poderá fazer o upload do arquivo desejado. Veja a figura a seguir:

1- Clique em “Meu Drive” e escolha a opção “Fazer upload de arquivos”.
2 – Escolha o arquivo que deverá estar no diretório do seu computador e clique em “Abrir”
3 – Aguarde, enquanto o processo é concluído. Visualize no canto inferior direito da tela a mensagem do aplicativo informando a conclusão do upload.
Após salvar o arquivo no Google Drive, restará abrir tal arquivo utilizando o aplicativo do Google intitulado “Documentos Google”. Para fazer isto, selecione o arquivo clicando sobre ele com o botão direito do mouse. Escolha “Abrir com” e depois clique na opção “Documentos Google”. Veja a figura abaixo:

O documento será aberto no aplicativo mostrando na primeira página a figura do arquivo original. Role então para as páginas seguintes e verá o texto que compõe a figura no formato de texto puro, editável. Veja na figura abaixo; na página superior vemos a figura original e na página abaixo e subsequentes, o texto puro correspondente.

Verifique todo o texto gerado para corrigir algumas imperfeições que surgem devido à deficiência da nitidez da imagem. O próprio aplicativo já facilita esta operação – clique com o botão direito do mouse sobre a palavra a corrigir e o aplicativo lhe oferecerá uma sugestão, aceite ou corrija ao seu critério.
O problema referente às colunas, as quais menciono no início, é porque o aplicativo considera sempre como se fosse somente uma coluna, e mistura os textos das diversas colunas, criando uma confusão no texto final. Então, para resolver esta situação, eu fiz o seguinte:
1 – Editei o arquivo original multicolunas no PhotoShop, criando para cada coluna uma imagem separada.
2 – Tratei cada uma destas colunas separadamente no aplicativo da Google, obtendo o texto final sem nenhuma mistura.
3 – Utilize um editor de texto para reagrupar os diversos blocos de texto da forma que melhor lhe convier.
Àqueles que estiverem interessados, mas não sabem como obter as colunas em separado, utilizando o PhotoShop ou outro aplicativo qualquer, faça contato comigo que passarei as informações para que consiga um bom resultado.

Nenhum comentário:

Postar um comentário