La visión artificial es un campo de la inteligencia artificial (IA) que permite a los ordenadores y sistemas extraer información significativa a partir de imágenes digitales, videos y otras entradas visuales, gracias a ellas, estos pueden tomar medidas o realizar recomendaciones en función de esa información.
Podríamos decir que, si la IA permite a los ordenadores pensar, la visión artificial les permite ver, observar y comprender.
La visión artificial clásica tiene múltiples aplicaciones en el día a día. Desde códigos de barras, a lectores de matrículas, hasta sistemas para detectar defectos en las líneas de producción.
Sin embargo, sus capacidades son limitadas, y su implementación, en ocasiones, es muy costosa y con una fiabilidad baja para algunas de las tareas más complejas.
Pero, el gran avance del aprendizaje automático en los últimos años ha revolucionado el campo de la visión artificial, permitiendo nuevas aplicaciones que hace unos años parecían impensables.
La visión artificial necesita alimentarse de muchos datos. Esta tecnología ejecuta el análisis de datos una y otra vez hasta que percibe diferencias y finalmente reconoce imágenes.
Por ejemplo, para entrenar un ordenador para que reconozca faros de automóviles, es necesario incorporarle una gran cantidad de imágenes de faros y elementos relacionados con los faros para que pueda aprender las diferencias y pueda reconocer un faro de automóvil, especialmente uno sin defectos.
Principalmente se utilizan dos tecnologías básicas para lograr esto:
El Machine Learning utiliza distintos modelos algorítmicos que permiten a un ordenador enseñarse a sí mismo el contexto de los datos visuales.
Si se introducen suficientes datos a través del modelo, el ordenador “observará” los datos y aprenderá a diferenciar una imagen de otra. Los algoritmos son tan importantes porque permiten que la máquina aprenda por sí misma, en lugar de que alguien la programe para que reconozca una imagen.
Una CNN ayuda a un modelo de Machine Learning o Deep Learning a “observar” desglosando las imágenes en patrones.
Esta red neuronal ejecuta una serie de operaciones matemáticas y comprueba la exactitud de sus predicciones en una serie de iteraciones hasta que las predicciones tienen cierta fiabilidad. Es en ese momento cuando consigue reconocer o ver imágenes de una manera similar a los humanos.
Veamos ahora las principales diferencias entre la programación clásica y el aprendizaje automático, desarrollado durante los últimos años.
En la programación tradicional se definen unas reglas mediante código de programación y a partir de una serie de datos de entrada se obtienen unos resultados:
Por el contrario, en el aprendizaje automático, el objetivo es que la máquina aprenda las reglas necesarias para conseguir que, a partir de unos datos de entrada, se obtengan las respuestas adecuadas.
Este proceso se puede resumir en dos fases:
Es la fase más costosa en tiempo y en recursos computacionales. Se empieza con un primer modelo aleatorio que va cambiando en múltiples pasos mediante cálculos estadísticos, hasta encontrar una configuración en que las respuestas generadas a partir de los datos de entrenamiento (Train Data), sean las mejores posibles.
Posteriormente, se procede a evaluar el rendimiento del modelo predictivo a partir de datos que no se hayan utilizado en la fase de entrenamiento (Test Data).
Una vez disponemos del modelo entrenado y validado, obtenemos las respuestas a partir de nuevos datos.
El proceso de aprendizaje automático en la visión artificial se realiza mediante redes neuronales profundas, en donde hay una serie de capas ocultas de neuronas artificiales que permiten modelar relaciones no lineales complejas, junto con una primera capa que recibe los datos de entrada y una última capa que nos proporciona los resultados.
Veamos a continuación algunas de las aplicaciones practicas de la visión artificial con aprendizaje automático:
A partir de grandes bases de datos con imágenes médicas como TACs y resonancias magnéticas, junto con datos asociados a éstas, se han construido modelos muy avanzados, capaces de diagnosticar, en muchos casos, con una mayor precisión que los mejores especialistas médicos.
En el campo de la conducción autónoma, la visión artificial mediante aprendizaje automático es una pieza fundamental del sistema.
Este tipo de vehículos cuentan con multitud de cámaras y sensores, que permiten ver y analizar su entorno para poder reaccionar ante cualquier circunstancia.
Si bien la visión artificial clásica ya hace tiempo que se utiliza en el control de calidad en la industria, con el aprendizaje automático ha habido un gran salto cualitativo en cuanto a fiabilidad y precisión en la detección de problemas en la línea de producción, que combinados con otros sistemas de inteligencia artificial permiten no solo detectar problemas sino que también permite anticiparse a ellos.