INTRODUCCIÓN
Desde la última mitad del siglo XX, los cambios radicales en las tierras agrícolas debido a la intensificación de la agricultura y la disminución de la heterogeneidad del paisaje, especialmente en las tierras cultivables, han provocado una enorme pérdida de la biodiversidad (Flohre et al., 2011). Una parte de ello se refleja en la disminución de la población de insectos que visitan las flores: sírfidos, mariposas, abejas y avispas (Balfour et al., 2015). Sin embargo, la polinización de plantas con flores por insectos es fundamental para el funcionamiento de los ecosistemas tanto naturales como agrícolas, así como para el suministro mundial de alimentos (Montoya et al., 2020; Khalifa et al., 2021). En este sentido, la Unión Europea ha tratado de frenar esta disminución general de la biodiversidad en las últimas décadas a través de la promoción de una Política Agrícola Común (PAC) más sostenible.
Los hábitats con mayor abundancia de flores y riqueza de especies florales por unidad de superficie se localizan principalmente en los márgenes de los campos (Balfour et al., 2015). Se componen de flora arvense y constituyen una fuente de alimento y protección para los insectos, entre otras funciones ecológicas. Las familias de flora arvense más importante como hospedadoras de polinizadoras son Asteraceae, Fabaceae, Brasicaceae y Lamiaceae (Zurbuchen y Müller, 2022). Destacan las Brasicaceae o crucíferas, ampliamente representadas en la península, por sus grandes recursos de néctar y polen al inicio y final de temporada, llegando a ofrecer hasta dos floraciones que prolongan la disponibilidad de sus recursos florales (Gómez et al., 2020). Por tanto, el establecimiento de franjas florales y naturalización de zonas seminaturales mediante la siembra de estas especies podría ser una solución para atraer a los polinizadores y facilitar su presencia en agrosistemas (Ricou et al., 2014; Kuppler et al., 2023).
La puesta a punto de un sistema para el monitoreo de márgenes florales, que sea eficiente en términos de tiempo y coste, se beneficiaría del empleo de herramientas como la teledetección combinada con métodos operativos basados en inteligencia artificial, capaces de detectar y cuantificar los recursos florales (Gallmann et al., 2022). La detección remota de flores en márgenes con alta diversidad floral supone un gran desafío, debido al pequeño tamaño de sus estructuras, la superposición de flores, la posibilidad de que estén parcialmente ocultas o incluso en movimiento debido al viento durante la captura de imágenes (Gallmann et al., 2022). En la revisión de Gonzales et al. (2022) se presentan las limitaciones y capacidades de la teledetección para llevar a cabo esta tarea y ya existen trabajos que emplean imágenes tomadas con dron en los cuales se detectan flores de distintas especies (Chen et al., 2019; Gallmann et al., 2022).
En esta investigación se propone un método automatizado para la identificación de rasgos florales en plantas de la familia Brassicaceae, utilizando imágenes capturadas por un dron y empleando un enfoque de detección de objetos. Este método integra aprendizaje profundo a través de una arquitectura de red neuronal convolucional (CNN), la cual fue entrenada y evaluada utilizando imágenes obtenidas de cuatro vuelos sobre un margen floral experimental.
MATERIALES Y MÉTODOS
Descripción del ensayo y de la toma de datos
El estudio se realizó en la finca experimental del CSIC, “La Poveda” localizada en Arganda del Rey (Madrid, España, 40° 19’ N y 3° 29’ W; 536 msnm). El experimento consta de tres bloques al azar que incluían cuatro parcelas (4 × 5 m) con diferentes mezclas florales. En dichas mezclas, al menos había una especie crucífera: e.g. Diplotaxis tenuifolia L., Eruca vesicaria L. y Moricandia arvensis L., con flores amarillas, blancas y moradas, respectivamente.
Las imágenes se adquirieron con una cámara RGB modelo DJI Zenmuse P1 (SZ DJI Technology Co., Shenzhen, China) montada en un dron modelo DJI Matrice 300 RTK a 15 m de altura sobre el ensayo. El solape frontal y lateral de las imágenes fue del 70% y se cubrió una superficie de 900 m2 en un tiempo de 7 minutos. Se realizaron cuatro vuelos en los días 11, 18 y 25 de mayo, así como el 6 de junio de 2023, todos ellos programados entre las 13:00 y las 13:30 h en ausencia de nubes y viento.
Desarrollo del modelo
El modelo de aprendizaje profundo basado en una arquitectura CNN utilizado en el estudio fue YOLOv8-l desarrollado por “Ultralytics” (Huang et al., 2023). Este modelo es rápido, eficiente y preciso, y puede detectar objetos (en nuestro estudio, “flores” o “grupos de flores”) de diferentes clases y tamaños. Para la obtención del conjunto de datos (e.g. objetos etiquetados) se utilizó la herramienta gráfica labelImg desarrollada por Tzutalin (2015). Se realizaron 6633 etiquetas de la clase crucífera correspondientes a las tres especies de dicha familia repartidas equitativamente. Un 80% de las etiquetas se emplearon para el entrenamiento y un 20% para la validación del modelo. Para el desarrollo del modelo se establecieron 200 ciclos de entrenamiento, obteniéndose su optimización en el ciclo 175. La validación del modelo se llevó a cabo en un conjunto de 25 imágenes que contenían 527 etiquetas marcadas por expertos, las cuales representan la verdad-terreno (i.e. objetos reales).
Para la evaluación del modelo y de su capacidad para identificar y localizar objetos en las imágenes se emplearon diversas métricas, entre ellas: 1) recuperación (recall), que indica la proporción de objetos reales identificados por el modelo correctamente; 2) precisión media (mAP, mean average precision), que es una metrica compuesta que promedia la precision para diferentes niveles de recuperación; y 3) pérdida, que mide la discrepancia entre las predicciones del modelo y los valores reales.
RESULTADOS Y DISCUSIÓN
Entrenamiento y validación del modelo
Los resultados obtenidos en la evaluación del rendimiento del modelo YOLOv8-l durante la fase de entrenamiento revelan métricas moderadas. Por ejemplo, el valor de la precisión media (Tabla 1) sugiere que, en general, el modelo puede identificar correctamente las flores de crucíferas, aunque con algunos errores. Se observa que el modelo tiene un mejor desempeño en la detección de objetos grandes en comparación con los pequeños (por ejemplo, flores individuales), evidenciado por el valor de mAP [area=small] de 0,255.
La métrica de recall reveló que durante el entrenamiento, el modelo no logra reconocer todos los objetos en el conjunto de datos. Un valor de recall [max_detections=10] de 0,417 indica que solo un 42% de las detecciones múltiples son correctas. Estos resultados sugieren considerar el etiquetado de la “unidad fundamental flor” y el “grupo de flores” como subclases distintas para cada especie, lo cual podría mejorar la capacidad predictiva. Además, una mayor representatividad media de píxeles en las etiquetas de “grupos de flores” podría estar afectando negativamente la detección de la “unidad fundamental flor”. El valor de recall [area=small] de 0,447 confirma que el modelo no detecta adecuadamente objetos pequeños. Probar la misma configuración del modelo en especies con un mayor tamaño de flor, entre 15 y 30 mm (Barnsley et al., 2022), podría proporcionar claridad sobre la utilidad del modelo para la detección y clasificación de crucíferas.
area=small | max_detections=10 | Tra | Val | Box | Cls | |
mAP | 0,255 | |||||
Recall | 0,447 | 0,417 | ||||
Pérdida | 2,236 | 3,151 | 1,207 | 1,029 |
La pérdida de entrenamiento registró un valor de 2,236, lo cual es relativamente alto, indicando una eficacia limitada en el aprendizaje de los datos de entrenamiento. Además, la pérdida de validación, con un valor aún mayor de 3,151, sugiere que el modelo presenta dificultades al generalizar a nuevos datos. Una pérdida de caja de 1,207 muestra dificultades del modelo para predecir con precisión las etiquetas que delimitan las flores, lo cual se confirma con los valores bajos de mAP y recall. La pérdida por clase de 1,029 señala que el modelo es razonablemente bueno a la hora de identificar las clases de objetos correctos; sin embargo, únicamente se incluye una clase de objeto “crucíferas”. El valor general de mAP respalda esta observación. Por lo tanto, se hace necesario explorar posibles mejoras en el modelo al diferenciar al menos tres clases de objetos correspondientes a las flores de E. vesicaria, D. tenuifolia y M. arvensis.
Inferencia del Test
Al analizar la matriz de confusión (datos no mostrados) para evaluar la predicción del modelo sobre las 527 etiquetas correspondientes a la verdad-terreno, se observó una correcta predicción en 109 de ellas, lo que representa una precisión del 21%. La Figura 1 muestra algunos ejemplos de la inferencia del modelo en comparación con los valores reales. Una mala predicción en D. tenuifolia podría estar disminuyendo la precisión general del modelo.
Los resultados preliminares de la investigación revelan un rendimiento relativamente bajo en la detección y clasificación de la familia de crucíferas mediante la arquitectura YOLOv8-l. Este escenario presenta un desafío en la mejora del rendimiento del modelo. Para abordar esta problemática, se contempla la implementación de mejoras en el preprocesamiento del conjunto de datos, con el objetivo de optimizar la calidad y representación de los datos de entrada. La utilización de particiones de ortomosaico para generar datos de entrada al modelo simplificaría el proceso, y técnicas de superresolución podrían mejorar el modelo sin reducir la altura de vuelo.
Además, es necesario explorar la viabilidad de otras arquitecturas CNN que ofrezcan un enfoque más efectivo para alcanzar nuestros objetivos. Arquitecturas capaces de trabajar con etiquetas de diferentes tamaños y composiciones en patrones de sus pixeles enriquecerían nuestros resultados. La combinación de estas estrategias busca potenciar la capacidad del modelo para capturar patrones relevantes y mejorar la precisión en la detección y clasificación de la familia de crucíferas. Este enfoque integral constituye un paso esencial para superar las limitaciones observadas en los resultados iniciales y avanzar hacia una solución más robusta y eficaz en nuestra investigación.