Como o Inpainting com IA Preenche Partes Faltando em Fotos
De clone stamps ao LaMa: como a IA aprendeu a apagar objetos de fotos alucinando texturas plausíveis com convoluções de Fourier.
Você tira uma foto de um recibo e, segundos depois, o texto está na sua tela, editável, pesquisável e copiável. Por trás dessa interação simples há décadas de pesquisa em Optical Character Recognition — a tecnologia que ensina computadores a ler. Como uma máquina olha para pixels e enxerga letras?
O OCR começou nos anos 1950, quando os serviços postais precisavam classificar correspondências automaticamente. Os primeiros sistemas só conseguiam ler fontes especialmente desenhadas e impressas com tinta magnética (os números blocados na parte inferior dos cheques são um vestígio dessa era). Nos anos 1990, scanners e softwares de OCR para desktop tornaram prática a digitalização de documentos. Hoje, o OCR roda em tempo real nas câmeras de celulares, lendo placas, cardápios e placas de veículos.
Pipelines modernas de OCR dividem o problema em quatro etapas:
Image → Preprocess → Detect text regions → Segment characters → Recognise → Output text
│ │ │ │ │
│ Grayscale Bounding boxes Split or Neural net
│ Deskew around lines sequence + language
│ Denoise model modelTesseract é o mecanismo de OCR open source mais usado. Desenvolvido originalmente pela Hewlett-Packard nos anos 1980, foi liberado como código aberto em 2005 e hoje é mantido pelo Google. O Tesseract 5 usa uma rede neural LSTM (Long Short-Term Memory) para reconhecimento, o que melhorou dramaticamente a precisão em relação à abordagem antiga de pattern matching.
O Tesseract suporta mais de 100 idiomas e sistemas de escrita, incluindo chinês, árabe e devanágari. Ele pode rodar no navegador via WebAssembly (por meio de bibliotecas como Tesseract.js), o que significa que o OCR pode acontecer inteiramente no lado do cliente, sem enviar imagens para um servidor.
| Desafio | Por que é difícil | Mitigação |
|---|---|---|
| Escrita à mão | Variação infinita entre escritores | Modelos especializados de handwriting (HTR) |
| Texto curvo | Caracteres se distorcem ao longo de arcos | Pré-processamento de retificação de texto |
| Baixo contraste | Texto claro sobre fundos claros | Thresholding adaptativo, equalização de histograma |
| Escritas não latinas | Mais glifos, caracteres conectados | Modelos específicos por idioma |
| Layouts complexos | Tabelas, colunas, conteúdo misto | Análise de layout antes do reconhecimento |
A precisão do OCR depende muito mais da qualidade da entrada do que do mecanismo:
OCR não apenas lê texto — ele faz a ponte entre os mundos físico e digital. Todo formulário digitalizado, quadro branco fotografado e placa traduzida depende de uma máquina que aprendeu a enxergar letras em pixels.
De clone stamps ao LaMa: como a IA aprendeu a apagar objetos de fotos alucinando texturas plausíveis com convoluções de Fourier.
A matemática por trás de marcas-d'água semitransparentes, por que padrões fixos podem ser revertidos sem perda de qualidade e a diferença entre marcas visíveis e invisíveis.
Por que telas misturam luz vermelha, verde e azul, o que a abreviação HEX realmente codifica e quando HSL facilita sua vida.