ABBYY FineReader un buen software de OCR

Estimado lectores, llevo ya muchos años colaborando en diversos proyectos de I+D, de desarrollo y de despliegue de contenidos en Instituciones de memoria y a lo largo de estos años he tenido que pelearme muchas veces con el problema del reconocimiento óptico de caracteres (OCR).

El uso de esta tecnología no supone hoy ningún problema cuando se aplica a textos impresos desde 1950 en adelante, pero cuando se trata de publicaciones del siglo XIX (o anteriores) o de primeros del XX la cosa cambia. El estado de los originales, la transparencia del papel o las tipografías utilizadas, hacen bastante complicado realizar un proceso de OCR con una alta fiabilidad. Para tener unos ejemplos de ello sólo tenéis que dar un vistazo a algunos libros de Google Books o a la hemeroteca del diario ABC y comprobaréis que hay gran cantidad de texto reconocido con OCR que contiene una alta tasa de errores.

Soy consciente de que realizar procesos de OCR con corrección humana para estos grandes volúmenes documentales sería demasiado costoso. En el caso de Google utilizan un sistema francamente ingenioso para corregir estos textos, se trata del sistema reCAPTCHA  que ya todos estamos acostumbrados (u obligados) a usar para demostrar en muchos sitios Web que sí somos humanos y no robots. En el caso del diario ABC no dispongo de ninguna información sobre si tienen pensado corregirlo o no.

Existen en el mercado muchas herramientas gratuitas y de pago para realizar OCR, pero yo quiero recomendarles una en especial que a mí me ha dado un resultado fantástico, se trata de ABBYY FineReader  y que tiene unas prestaciones espectaculares. Yo lo he utilizado en algunos proyectos como el de las Revistas de la Edad de Plata y el nivel de precisión ha sido bastante elevado, aunque en este proyecto concreto finalmente optamos por hacer una corrección con operadores humanos pues se requería texto preciso al 100% y el volumen de páginas estaba dentro de unos límites aceptables.

Este software permite hacer OCR con corrección por diccionarios e incorpora una herramienta que le permite aprender patrones de fuentes definidos por el usuario para mejorar así la precisión del reconocimiento. También ofrece la posibilidad de convertir PDF a Word, aunque con ciertas limitaciones de formato (eso ni el mismísimo servicio de pago de Adobe ExportPDF lo hace bien).

Sin duda una herramienta muy útil y por precio muy razonable (aproximadamente 200 € en el momento de escribir este artículo). También tienen un kit de desarrollo, aunque nunca lo he usado.

Etiquetado con:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*