Introducción
El servicio Visión de Azure AI proporciona una solución integral para implementar funcionalidades de visión por computadora sin necesidad de desarrollar modelos desde cero. Aunque es posible entrenar modelos personalizados usando herramientas como Azure Machine Learning, este enfoque puede ser complejo, ya que requiere grandes volúmenes de datos, tiempo de entrenamiento y recursos computacionales avanzados.
Microsoft facilita este proceso con Visión de Azure AI, que ofrece modelos precompilados y opciones de personalización. Estos modelos están basados en Florence, un modelo de base altamente eficaz que permite implementar soluciones de visión artificial con rapidez, precisión y flexibilidad.
Recursos de Azure para Visión de Azure AI

Antes de usar el servicio, es necesario crear un recurso dentro de una suscripción de Azure. Se puede elegir entre dos tipos de recursos:
Visión de Azure AI
Este es un recurso específico para las funcionalidades de visión. Es ideal si solo se planea usar este servicio y se desea mantener un control preciso del consumo y los costos asociados. También facilita el monitoreo exclusivo del rendimiento del servicio de visión por computadora.
Servicios de Azure AI
Este recurso agrupa Visión de Azure AI con otros servicios de IA, como:
- Lenguaje de Azure AI
- Custom Vision
- Traductor de Azure AI
Es útil para desarrolladores que planean integrar varios servicios de inteligencia artificial en sus soluciones, centralizando así la administración y permitiendo una experiencia de desarrollo más ágil.
Funcionalidades de Visión de Azure AI
Una vez creado el recurso, se pueden enviar imágenes al servicio para realizar diversas tareas analíticas. Algunas de las funcionalidades más destacadas son:
Reconocimiento Óptico de Caracteres (OCR)

OCR permite extraer texto de imágenes. Esta funcionalidad es útil en muchos escenarios como:
- Digitalización de documentos impresos
- Análisis de etiquetas de productos
- Extracción de información de formularios
Ejemplo: una imagen de una etiqueta nutricional puede ser analizada para obtener texto como:
Nutrition Facts
Amount Per Serving
Serving size: 1 bar (40g)
Total Fat 13g
Calories: 190
Sodium: 20mg
Esta capacidad es esencial para aplicaciones que requieren conversión de información visual a texto estructurado.
Descripción de imágenes con subtítulos

Visión de Azure AI es capaz de analizar una imagen y generar subtítulos automáticos que describan su contenido.
Ejemplo:
Imagen: un hombre en monopatín saltando en el aire.
Subtítulo generado: "Un hombre saltando en un monopatín"
Esta función mejora la accesibilidad, permite búsquedas semánticas de imágenes y enriquece metadatos para organización de contenido.
Detección de objetos comunes

El servicio puede identificar miles de objetos conocidos en imágenes, devolviendo:
- Nombre del objeto
- Nivel de confianza (porcentaje)
- Coordenadas de la caja delimitadora
Ejemplo:
- Persona (95.5%)
- Monopatín (90.4%)
Las coordenadas indican la ubicación exacta del objeto dentro de la imagen, permitiendo su análisis espacial o visualización en tiempo real.
Etiquetado de características visuales
Visión de Azure AI puede asociar etiquetas o palabras clave a las imágenes analizadas. Estas etiquetas son útiles para:
- Clasificación automática de imágenes
- Indexación de grandes volúmenes de imágenes
- Búsqueda basada en contenido visual
Ejemplo de etiquetas para una imagen de un patinador:
- deporte (99.60%)
- persona (99.56%)
- calzado (98.05%)
- acrobacia (87.27%)
Las puntuaciones representan la certeza del modelo en la presencia de dichas características.
Entrenamiento de Modelos Personalizados
Si los modelos preentrenados no cumplen con los requerimientos del proyecto, Visión de Azure AI permite el entrenamiento de modelos personalizados. Esta personalización es posible gracias a la capacidad de transfer learning sobre el modelo Florence.
Clasificación de imágenes
Apple | Banana | Orange |
---|---|---|
![]() | ![]() | ![]() |
Permite entrenar modelos que predicen la clase o categoría a la que pertenece una imagen. Es útil para tareas como:
- Clasificar tipos de frutas
- Distinguir entre productos
- Identificar defectos en líneas de producción
Ejemplo:
- Entrenar un modelo con imágenes de manzanas, plátanos y naranjas para que el sistema pueda identificar cada fruta en nuevas imágenes.
Detección de objetos

Va más allá de la clasificación, ya que identifica múltiples objetos dentro de una imagen, proporcionando su clase y coordenadas.
Ejemplo:
- Entrenar un modelo que detecte y clasifique frutas dentro de una imagen de un mercado. Se pueden identificar múltiples elementos como manzanas, naranjas y plátanos, junto con su ubicación dentro de la imagen.
Estos modelos son útiles para tareas de visión avanzada como:
- Control de inventarios visual
- Supervisión de seguridad
- Automatización de procesos logísticos
Nota: el entrenamiento de modelos personalizados se realiza en el entorno especializado de Custom Vision o desde el portal de Azure AI Foundry, y requiere una cantidad mínima de imágenes para cada clase.
Conclusión
Visión de Azure AI representa una solución poderosa y versátil para integrar visión por computadora en aplicaciones empresariales, sin necesidad de experiencia profunda en aprendizaje automático. Su combinación de modelos listos para usar y opciones de personalización lo convierten en una herramienta indispensable para desarrolladores que buscan implementar inteligencia visual de manera rápida y eficiente.