1. Introducción
El aprendizaje maquina es una disciplina de la inteligencia artificial, este tipo de aprendizaje permite a los sistemas realizar tareas específicas de forma autónoma, por medio de algoritmos, un sistema es capaz de identificar patrones u objetos. La detección de objetos es un área de la visión por computadora. Existen dos grandes grupos de arquitecturas utilizadas para la detección de objetos: detectores de una etapa (R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN) y detectores de dos etapas (YOLO, SSD). Actualmente, la detección de objetos es muy utilizada en seguridad, vigilancia, vehículos autónomos, agricultura entre otros. En el área de la agricultura la detección de objetos permite una mejor gestión y rendimiento de diferentes cultivos con la detección de plagas, conteo de plantas, arboles y frutos.
El tequila es una de las bebidas más famosas a nivel nacional e internacional. Se obtiene de la planta de Agave tequilana Weber, mejor conocido como Agave azul. El Consejo Regulador del Tequila A. C. (CRT) es la organización dedicada a inspeccionar y certificar el cumplimiento con la Norma Oficial del Tequila NOM-006-SCFI-2012, así como a promover la calidad, la cultura y el prestigio de la bebida nacional.
En el año 2021 según datos del CRT se produjeron 527 millones de litros de tequila, con una producción mayor respecto al año 2020 de 30%. La demanda de materia prima para la industria del tequila va en aumento en consecuencia la superficie de cultivo del agave también ha crecido; El Consejo Regulador del Tequila en su reglamento interno Capitulo II articulo 11 específica que este organismo tiene la facultad de solicitar a sus asociados datos generales del agricultor, del predio, cantidad de plantas, estado fitosanitario, esta información es muy importante para la industria tequilera por que les permite estimar un aproximado del rendimiento de sus plantaciones de agave para planificar y predecir la producción de la bebida. La problemática que presenta el esquema del cultivo de Agave tequilana Weber variedad azul se refiere específicamente al control de las plantaciones, robo de plantas e inventariado de plantas, ya que se cosecha o se jima los 365 días del año. Cada planta de agave es muy valiosa, para que puedan ser cosechadas pasan de 4 a 7 años. Actualmente el inventario de plantas de agave se realiza de forma manual en la mayoría de los cultivos de agave.
Por lo tanto, el monitoreo e inventario de los cultivos de agave son actividades muy importantes para la economía y la generación de empleos. Dadas las grandes extensiones de terreno, es muy tedioso y tardado llevar un inventario de forma manual de las plantas de agave. Los agricultores suelen saber cuántas plantas sembraron, porque pagaron por cada una de las plantas, pero desconocen la cantidad de plantas actuales. Cuando el agave se acerca a su etapa de madurez, se presenta el problema de robo de plantas.
En este trabajo se presenta un algoritmo basado en redes neuronales convolucionales para el conteo de plantas de agave utilizando imágenes aéreas capturadas desde un vehículo aéreo no tripulado.
2. Antecedentes
El uso de Vehículos Aéreos no Tripulados (VANT) en la agricultura ha crecido exponencialmente con mayor aplicación en la adquisición de imágenes para conteo de plantas y análisis de diferentes cultivos en nuestra búsqueda sistemática encontramos investigaciones recientes en el área de conteo de plantas, arboles, frutos y la detección de enfermedades en plantas.
En lo que respecta a la detección de frutos, Rahnemoonfar & Sheppard (2017) identificaron plantas de tomate y frutos maduros utilizando técnicas de aprendizaje profundo; asimismo, usaron imágenes sintéticas para hacer más robusto su conjunto de datos para el entrenamiento del algoritmo propuesto y atender problemas de oclusión y de frutos muy maduros. En la investigación realizada por Wong, Chew, & Phang (2020) desarrollaron un método para la detección de la madurez del fruto de la palma, el algoritmo desarrollado se concentra en detectar la madurez de la fruta consta de dos funciones principales, segmentar la sección que consiste en el árbol de la imagen y clasificar la madurez de la fruta, el algoritmo propuesto tiene una precisión del 85%. Sarabia, Aquino, Ponce, López, & Andújar (2020) realizaron el conteo de árboles, procesando imágenes adquiridas de VANT, apoyándose en la morfología matemática. Su conjunto de datos constaba de 50 imágenes, de las cuales 25 se utilizaron para entrenamiento, cuatro para validación y 21 para pruebas, la exactitud de su algoritmo es de 99%.
Las investigaciones desarrolladas en la detección de palmeras son muy similares a nuestro caso de estudio desde la perspectiva de la morfología de la planta de agave y las palmas. El algoritmo desarrollado por Zortea, Nery, Ruga, Carvalho, & Bastos (2018) se basa en el aprendizaje profundo y es capaz de construir un inventario de palmeras de aceite usando imágenes adquiridas por un VANT, combinaron la salida de dos redes neuronales convolucionales independientes y obtuvieron una precisión de 91.2% - 98.8%.
En la investigación desarrollada por Mubin, Nadarajoo, Shafri, & Hamedianfar (2019) se aplicaron dos CNN diferentes para detectar palma aceitera joven y madura por separado, utilizaron un enfoque de aprendizaje profundo para predecir y contar palmas aceiteras en imágenes satelitales, la arquitectura inicial desarrollada se basó en la CNN LeNet.
El aprendizaje profundo apoyado de las CNN es una alternativa eficiente en la detección de enfermedades y plagas en plantas, debido al desarrollo de algoritmos de código abierto para aprendizaje automático, aprendizaje por transferencia, equipos de cómputo con mayor potencia en procesamiento. La investigación realizada por Wu (2019) demostró los beneficios de combinar estas técnicas, ellos diseñaron un algoritmo capaz de detectar porciones enfermas de hojas de plantas de maíz a partir de imágenes adquiridas por un VANT, el modelo de CNN se utilizó para crear mapas de calor interpretables de las imágenes originales, indicando la ubicación de las supuestas lesiones. Su conjunto de datos contenía imágenes de hojas infectadas y no infectadas se dividió aleatoriamente en conjuntos de entrenamiento, validación y prueba en una proporción de 70:15:15. Su modelo tiene una exactitud del 97 %.
Mathew & Mahesh (2021) desarrollaron un algoritmo para la detección temprana de manchas bacterianas en la planta de pimiento el sistema propuesto usa el algoritmo YOLOv5 para la detección de las manchas bacterianas en las hojas de la planta de pimiento a partir de imágenes adquiridas. Con el algoritmo YOLOv5 pueden detectar pequeñas manchas en la planta con una velocidad y precisión considerables.
El conteo y reconocimiento de insectos es importante para el control de plagas. Zhong, Gao, Lei, & Zhou (2018) diseñaron un sistema capaz de contar y clasificar insectos. Usan el algoritmo para la detección y conteo You Only Look Once (YOLO) y el método de clasificación y conteo fino lo realizan basado en Support Vector Machines (SVM) utilizando características globales. La precisión de conteo promedio es de 92,50% y la precisión de clasificación promedio es del 90,18%.
Específicamente en el área de detección y conteo de plantas de agave mediante imágenes adquiridas por un VANT encontramos los siguientes trabajos:
Calvario, Alarcón, Dalmau, Sierra, & Hernandez (2020) desarrollaron un algoritmo supervisado basado en morfología matemática y computo paralelo para el análisis de las imágenes, este algoritmo se aplicó en algunas imágenes adquiridas de VANT, Phantom 4, DJI equipado con una cámara digital RGB, la altitud de vuelo fue de 60 metros. La morfología matemática es un método de procesamiento que no requiere una etapa de entrenamiento. Una ventaja de la morfología matemática es la eficiencia computacional, además, no requiere grandes conjuntos de datos de imágenes para estimar los parámetros de los algoritmos, pero la morfología matemática requiere un alto costo de computación. El algoritmo propuesto es capaz de separar las plantas de agave y preservar los patrones principales. La precisión de este algoritmo osciló entre 83% y 98%. Recomiendan aplicar técnicas de aprendizaje supervisado como una red neuronal artificial y en particular, técnicas de aprendizaje profundo.
Corona (2019) en su investigación desarrollo un algoritmo de aprendizaje no supervisado (Birch) para la identificación y el conteo de plantas de agave las imágenes fueron adquiridas a través de un VANT, Parrot BlueGrass equipado con seis sensores, cámara RGB y cámara multiespectral, la altura de vuelo fue programada con 30 m. El conjunto de datos usado tenía un total de 584 imágenes. La métrica utilizada para medir la eficiencia del algoritmo fue el coeficiente de Silhouette lograron un coeficiente Silhouette>0.5. A trabajos futuros se sugiere incursionar en técnicas de aprendizaje profundo.
La investigación más reciente es realizada por Flores, González-Hernández, Lozano, Vazquez-Nicolas, & Toral (2021) donde presentarón un método para el recuento de plantas de agave basado en imágenes adquiridas por un VANT. Utilizaron un VANT DJI Phantom 3 con una cámara FC300S, obtuvieron un ortomosaico de las plantaciones de agave, que luego utilizaron para crear una base de datos, las imágenes son usadas para entrenar una CNN. La arquitectura de su CNN está formada por cuatro capas convolucionales y cuatro poolings. El clasificador en cascada de Haar es un algoritmo de detección de objetos basado en el concepto de características llamadas características similares a Haar. Su conjunto de datos se componía de dos clases: la primera clase era para imágenes de una sola planta de agave y la segunda clase contenía extractos del área circundante donde no había plantas de agave como el suelo y otras plantas. La primera clase se llamó positivos y la segunda se llamó negativos. Cada clase tiene 1000 imágenes. Con la siguiente división: 70% para entrenamiento, 15% para validación y 15% para pruebas. La métrica utilizada para medir la eficiencia de su algoritmo es la precisión obteniendo un 96%. Recomiendan el uso de otros métodos ya que su modelo tiene un alto costo de computación, aumentar el número de imágenes de entrenamiento positivas de diferentes edades en diferentes momentos del día en diferentes condiciones climáticas.
3. Materiales y métodos
La plataforma área seleccionada para la adquisición de imágenes es un VANT Parrot Bluegrass™, su diseño y accesorios son recomendados para diferentes aplicaciones en la agricultura. El VANT Parrot Bluegrass™ Figura 1, está equipado con una cámara RGB, sensor multiespectral que captura imágenes en 4 bandas espectrales en luz visible y luz infrarroja, sensor Parrot Sequoia, sensor Sunshine, componentes para el vuelo.
La metodología propuesta en esta investigación se divide en 4 etapas: (1) desarrollo del plan de vuelo y adquisición de imágenes, (2) preprocesamiento de las imágenes, (3) diseño y entrenamiento de la CNN y (4) detección y conteo de plantas de agave.
La etapa 1 comprende determinar todo lo relacionado con el plan de vuelo y adquisición de imágenes. La planificación del plan de vuelo sirve de apoyo para un buen proceso fotogramétrico ya que limita las zonas de interés, la separación entre líneas de vuelo y el tiempo aproximado para el vuelo estos nos garantiza imágenes precisas y de buena calidad. Se tienen que considerar factores externos como las condiciones geográficas y ambientales.
El plan de vuelo tiene como objetivo principal cubrir el terreno del cultivo mediante recorridos paralelos (líneas de vuelo) y equidistantes superpuestos en forma transversal, las fotografías correspondientes a cada recorrido deberán estar debidamente superpuestas en forma longitudinal. Los factores más importantes para la planificación del vuelo de un VANT son los siguientes:
Altitud: Es una medida absoluta respecto al nivel del mar, normalmente medida en pies la altitud también se expresa en metros mediante el símbolo msnm que significa metros sobre el nivel del mar. La altitud está relacionada con la temperatura ambiental, presencia de nubes, turbulencias o cantidad de oxígeno.
Altura: Su expresión siempre será la diferencia entre la aeronave y el terreno, por lo que se trata de una medida relativa. Normalmente su unidad de medida serán los metros.
Velocidad: Permite realizar la adquisición de imágenes en menor o mayor tiempo este parámetro es configurable en ciertos tipos de drones.
Huella de registro: Es la zona de la superficie terrestre que será capturada.
Solape: Es el porcentaje de la huella de registro repetida por dos o más imágenes. El solape mínimo en el caso de fotogrametría deberá ser mayor o igual a 80% con drones.
El plan de vuelo se tiene que configurar considerando la norma oficial Mexicana NOM-107-SCT3-2019, donde se establecen los requerimientos para operar un sistema de aeronave pilotada a distancia (RPAS) en el espacio aéreo mexicano. En la sección 6.2 de la norma oficial Mexicana NOM-107-SCT3-2019 se encuentran las recomendaciones técnicas, preventivas y de seguridad relacionadas con los VANT.
En la etapa 2, para procesar las fotografías y generar un ortomosaico es necesario establecer un flujo de trabajo mediante el software Pix4D.
Mediante la herramienta Pix4D se puede construir un ortomosaico a partir de las fotografías tomadas por el VANT. Una vez creado el ortomosaico, puede haber zonas que no requieren atención e incluso puede afectar en el análisis y estudios de los objetos, se requiere realizar un recorte de tal manera que solo se pueda apreciar aquella zona de interés.
En la etapa 3 se realiza la optimización de parámetros en la CNN para definir un modelo funcional. Una vez que las imágenes han sido preprocesadas para la creación del ortomosaico y el recorte del área de interés respectivamente; la siguiente etapa de la metodología propuesta es el diseño y entrenamiento de la CNN. El entrenamiento consta de 4 pasos, los cuales se describen a continuación.:
Etiquetado de imágenes: Esta actividad consiste en etiquetar los objetos de interés en las imágenes adquiridas de los cultivos de agave. La aplicación LabelImg es una herramienta desarrollada en Python que nos permite seleccionar regiones de interés en una imagen y hacer anotaciones respecto a las regiones seleccionadas las anotaciones se guardan como archivos XML, PASCAL VOC, YOLO y CreateML.
Dividir conjunto de datos: El conjunto de datos se tiene que organizar de forma que las imágenes y los archivos de anotaciones YOLO estén almacenados en carpetas diferentes para el entrenamiento con un 70% y la validación con un 30%.
Definir modelo de la CNN: YOLOv5 ofrece 4 arquitecturas diferentes YOLOv5s, YOLOv5m, YOLOv5l, YOLOv5x. La diferencia principal entre estas arquitecturas radica en la cantidad de módulos de extracción de características y núcleos de convolución en ubicaciones específicas de la red.
Optimización de parámetros: En YOLOv5 es posible seleccionar la arquitectura de red y personalizar la estructura de la red neuronal.
Finalmente, en la etapa 4 se realiza la detección y conteo de plantas de agave mediante un modelo de aprendizaje profundo usando una CNN. El modelo entrenado realizara la clasificación y detección de objetos de interés con un porcentaje de confianza. En visión por computadora, mAP es una métrica aplicada en la detección de objetos donde se calcula la precisión y la sensibilidad utilizando el valor de IoU para un umbral determinado.
La mAP se calcula tomando el valor de la Precisión Promedio de todas las clases y los umbrales generales de IoU.
De acuerdo con Padilla, Passos, Dias, Netto, & da Silva (2021) la curva Precisión/Sensibilidad es una buena manera de evaluar el rendimiento de un detector de objetos, ya que la confianza cambia trazando una curva para cada clase de objeto. Un detector de objetos de una clase en particular se considera bueno si su precisión se mantiene alta a medida que aumenta la sensibilidad, lo que significa que, si varía el umbral de confianza, la precisión y la recuperación seguirán siendo altas. Otra forma de identificar un buen detector de objetos es buscar un detector que pueda identificar solo objetos relevantes (alta precisión), encontrando todos los objetos reales (alta sensibilidad).
4. Resultados
4.1. Plan de vuelo y adquisición de imágenes
Para el plan de vuelo y la adquisición de las imágenes se usó el software Pix4DCapture. La configuración de la altura del vuelo (30 m); el traslape entre cada fotografía (70 %). Como resultado del plan de vuelo, se creó un conjunto de datos con 1204 fotografías con dimensiones de 2507 x 2309; cada una de las imágenes pesa en promedio 3 MB.
4.2. Preprocesamiento
Una vez capturadas las fotografías, se procedió a crear el ortomosaico utilizando el software Pix4D; posteriormente, se recortó del ortomosaico la zona de interés usando el software QGIS. El ortomosaico creado se puede apreciar en la Figura 2.
4.3. Diseño y entrenamiento de la CNN
El ortomosaico se dividió en 25 imágenes las cuales se utilizaron para el desarrollo de pruebas en Google Colab, el entorno virtual creado tiene las siguientes características: GPU Tesla T4, 12 GB memoria RAM y 78 GB de almacenamiento. Para mostrar gráficamente la detección, clasificación y conteo de las plantas de agave, se entrenaron diferentes modelos de la CNN. La información de la Tabla 1, corresponde a la descripción de los parámetros del modelo.La Tabla 2, corresponde a la configuración de los parámetros del modelo que arrojó mejores resultados.
Número | Parámetros | Concepto | |
---|---|---|---|
1, 2 | etiquetas | Las etiquetas de entrenamiento y validación corresponden a la información necesaria para trabajar con el modelo. La información representa las regiones de interés de cada imagen. Se genera un archivo de texto que almacena las etiquetas, cada etiqueta tiene su propia línea en los archivos generados donde la primera columna representa la categoría a la que pertenece la etiqueta en seguida estarán las coordenadas donde se encuentra nuestro objeto de interés en cada imagen. | |
3 | img | define el tamaño de la imagen de entrada. | |
4 | lote (batch) | determina el tamaño de imágenes procesadas. | |
5 | datos | se declara la ruta al archivo yaml donde almacena las rutas absolutas del conjunto de datos. | |
6 | epocas | definen el número de épocas de entrenamiento. | |
7 | múltiplo de profundidad | Controla la profundidad del modelo. La profundidad de YOLOv5s es 0,33 y la profundidad de V5l es 1, lo que significa que el número de cuellos de botella de YOLOv5l es 3 veces mayor que el de YOLOv5s. | |
8 | múltiplo de amplitud | Determina el número de núcleos de convolución, el ancho de YOLOv5s es 0,5 y el ancho de YOLOv5l es 1, lo que significa que el número de núcleos de convolución de YOLOv5s es la mitad de la configuración predeterminada. | |
9 | modelo | En YOLOv5 se puede seleccionar un modelo previamente entrenado para comenzar a personalizarlo y realizar pruebas; en este trabajo seleccionamos YOLOv5s, el modelo más pequeño y rápido disponible. |
Parámetros | Valor | ||
---|---|---|---|
1 | etiquetas de entrenamiento | 2500 | |
2 | etiquetas de validación | 750 | |
3 | img | 1200 | |
4 | datch | 4 | |
5 | data | /content/drive/MyDrive/YOLOv5/customdata.yaml | |
6 | epocas de entrenamiento | 500 | |
7 | múltiplo de profundidad | 1.0 | |
8 | múltiplo de amplitud | 1.0 | |
9 | Modelo | yolov5s.yaml |
4.4. Detección y conteo de plantas de agave.
Con el fin de analizar los resultados del método propuesto, en esta subsección se proponen tres casos: (1) imágenes con agaves de tamaño uniforme con maleza abundante, (2) imágenes con agaves de diferentes tamaños, maleza, sombras, objetos que no son plantas de agave y (3) agaves de diferentes tamaños y maleza, objetos que no son plantas de agave. Para medir la calidad de los resultados se utilizó la mAP, que combina los conceptos de precisión, precisión promedio, sensibilidad, Intersección sobre la Unión (IoU).
Caso 1: agaves de tamaño uniforme, separados y con maleza abundante.
La Figura 3 muestra los resultados del algoritmo propuesto para el caso donde los agaves son de tamaño uniforme, no existe una separación clara entre cada agave, y hay presencia de maleza abundante. Se realizó el conteo de 35 plantas de agave, 2 plantas de agaves no fueron detectadas porqué solo se aprecian las hojas, la barda no deja tener una vista completa de las plantas.
Caso 2: agaves de tamaño uniforme, separados con maleza, sombras y objeto que no son plantas de agave.
La Figura 4 muestra los resultados del algoritmo propuesto para el caso donde los agaves son de tamaño uniforme, existe una separación clara entre cada agave hay presencia de maleza sombras y objetos que no son plantas de agave. El modelo entrenado detecto las 52 plantas de agave.
Caso 3: agaves de tamaño uniforme, separados con poca maleza, objetos que no son plantas de agave.
La Figura 5 muestra los resultados del algoritmo propuesto para el caso donde los agaves son de tamaño uniforme, existe una separación clara entre cada agave hay poca presencia de maleza y tiene objetos que no son plantas de agave. El modelo entrenado detecto las 245 plantas de agave.
4.5. Validación de los datos
Para la validación de los resultados, se utilizó la métrica mAP usando un umbral determinado de IoU de 0.50 y múltiples umbrales iniciando con un IoU de 0.50 con incrementos de 0.05 hasta 0.95;
En la Figura 6(a) se puede observar que la curva Precisión/Sensibilidad es una buena ya que la precisión se mantiene estable en proporción a la sensibilidad con un IoU de 0.5, en la Figura 6(b) podemos observar que la confianza del modelo en proporción a su precisión. Un detector de objetos se considera bueno si su precisión se mantiene alta a medida que aumenta la sensibilidad, lo que significa que, si varía el umbral de confianza, la precisión y la recuperación seguirán siendo altas.
5. Conclusiones:
En el presente trabajo se propuso un modelo basado en CNN para el conteo de plantas de agave usando imágenes aéreas tomadas desde un vehículo aéreo no tripulado. Para desarrollar el modelo se diseñó una metodología que está constituida por cuatro fases, las cuales son: plan de vuelo y adquisición de imágenes, preprocesamiento de las imágenes, diseño y entrenamiento de la CNN, detección y conteo de plantas de agave. Con el fin de probar el algoritmo propuesto, se propusieron tres escenarios, como resultado del proceso de experimentación se llegó a las conclusiones; en esta investigación se ha presentado un sistema para la detección de plantas de agave usando técnicas de procesamiento de imágenes y aprendizaje profundo, donde se utiliza la CNN YOLOv5, para la detección y conteo de plantas de agave y se realiza la configuración de parámetros que se adapten mejor a la resolución de nuestro problema específico. Como trabajo futuro se plantea perfeccionar la arquitectura propuesta y tener una base de datos con imágenes de diferentes edades de plantas de agave.