YAGF: software para el reconocimiento de texto

yagf

YAGF es un programa para el reconocimiento de texto en Linux, que nos provee de una interfaz gráfica Qt, para dos conocidas herramientas de software OCR como son Tesseract y Cuneiform.

Con YAGF podemos escanear imágenes a través de Xsane, importar páginas de los documentos PDF, imágenes con texto que tengamos en nuestros archivos, digitalizar documentos…. convirtiéndolo todo en texto editable, con la capacidad de mantener la estructura del documento original.

El programa soporta una gran cantidad de lenguajes, entre ellos es español. Para que funcione correctamente es necesario tener instalados los paquetes correspondientes de tesseract y aspell del idioma, que vamos a usar.

YAGF incluye en su interfaz herramientas que permiten girar las imágenes o seleccionar de forma automática, (además de manual) los bloques de texto a reconocer. El texto resultante se muestra en un panel lateral.

En las pruebas que he hecho funcionaba razonablemente bien, tanto en inglés como en español,  aunque con algunos fallos dependiendo del tipo de fuente a reconocer.

Ahora acaba de salir la versión 0.94 del programa, que incluye las siguientes novedades:

  • Mejor pre-procesamiento de las imágenes
  • Apoyo a OCR cuando la letra es muy pequeña
  • Mejoras en la corrección automática de la inclinación. Se ha incluido además una nueva herramienta manual, para realizar esa función en caso necesario
  • Se optimiza la importación de archivos PDF
  • Mejor integración con Teseract OCR: reconocimiento de textos bilingües, modo de reconocimiento sólo para números, y se han añadido nuevos idiomas.

Es cuestión de días que este nueva versión llegue a los repositorios de las principales distribuciones GNU/Linux.

De hecho los usuarios de Arch Linux y derivadas como Manjaro, ArchBang o Antergos ya pueden instalar YAGF 0.94 desde AUR:

yaourt -S yagf

En mi caso para openSUSE instalé la versión 0.92 (la 0.93 no se porque diablos no me acababa de ir). mediante el habitual 1 one click

Fuente | Symmetrica

3 thoughts on “YAGF: software para el reconocimiento de texto”

  1. juliuco says:

    le he instalado en ubuntu 14.04

  2. OrginalFire (@LaFlama21) says:

    También hay una interfaz gráfica para tesseract. se llama tesseract-gui y es muy buena.

  3. Filipo Becerra says:

    Les cuento una anécdota al respecto.

    Instalé YAGF hace unos días en openSUSE 13.1, solo para probar si funcionaba o no, ya sabe, en caso de necesitarlo. Me dio algunos problemas y noté que el programa “Tesseract” no se había instalado; en su lugar se instaló un juego de igual nombre (un FPS).

    Ahora, esto ocurrió por dos motivos: 1) el programa OCR y el juego se llama igual y 2) tengo agregado el repositorio “games” de OBS (¡búsquenlo!). El detalle es que en la configuración de los repositorios, el repo “Games” tiene más prioridad que el del software OCR (no recuerdo cuál es).

    Lo solucioné cambiando el paquete en YaST, y lo menciono para que estén atentos a los repos, si hubiera leído la descripción del programa y no solo el título, me habría ahorrado un problema.

    Saludos.

Deja un comentario