¿Qué es el reconocimiento óptico de caracteres (ocr)?

El Reconocimiento Óptico de Caracteres, llamado más comúnmente OCR, es una tecnología incluida dentro de los Servicios Cognitivos de Microsoft, más concretamente, dentro de la API de Computer Vision, que nos permite detectar texto en una imagen y extraer las palabras reconocidas en ella a través de caracteres legibles, tal y como podemos comprobar en la imagen:

00.jpg

Además, la tecnología OCR de Microsoft es capaz de soportar hasta 21 idiomas diferentes.

Por ejemplo, si estamos en China y no entendemos absolutamente nada de lo que dicen los carteles, bastaría con que le sacáramos una foto a dicho cartel, y la app con OCR nos lo traduciría al instante.  ¿Cómodo, verdad?

Ventajas de la tecnología OCR

El ahorro de tiempo y esfuerzo es su proncipal ventaja. Ya que, además de identificar y traducir de manera automática el texto presente en una imagen, la tecnología OCR también es capaz de permitirnos poder convertir automáticamente un archivo escaneado o en PDF a un archivo de texto editable, por ejemplo, a Word.

En el entorno empresarial, este hecho de automatizar la transformación de imagen a texto, implica un gran ahorro en Recursos Humanos y un aumento de la productividad.

Más funcionalidades

Otra de las funcionalidades que posee esta tecnología es que puede corregir la rotación del texto reconocido, en grados, sobre el eje horizontal, tal y como se ve en la ilustración.

Es decir, si el texto que aparece en la imagen está torcido, OCR lo nivela y hace que podamos leer las palabras en una dirección correcta.

ocr3.png

Esta funcionalidad es muy utilizada, por ejemplo, en los radares y en las cámaras de los parkings. Los radares tienen que ser capaces de poder identificar una matrícula aunque ésta no se vea claramente.

Limitaciones

Sin embargo, aún existen algunas limitaciones en la tecnología OCR:

  • El tamaño de la imagen debe estar entre los 40 x 40 y los 3200 x 3200 píxeles.
  • La imagen no puede ser mayor de 100 Megapíxeles
  • La precisión del texto reconocido depende en gran medida de la calidad de la imagen. Se puede producir una lectura incorrecta por varios motivos:
    • Si la imagen es borrosa
    • Si la imagen incluye texto escrito a mano o en cursiva
    • Si aparecen fuentes de texto artísticas
    • Si el tamaño del texto es demasiado pequeño
    • Si el fondo de la imagen es demasiado oscuro o tiene sombras o brillos
    • Si las letras mayúsculas están sobredimensionadas o faltan al inicio de las palabras
    • Si aparecen subíndices, superíndices o tachados

 

¿Qué os parece esta tecnología? ¿A qué creéis que se podría aplicar? 

¡Comentadnos y permaneced atentos a nuestras próximas publicaciones sobre los Servicios Cognitivos!

 

 

Escrito por Sergio Gasca, senior developer en área de IoT de Bravent.