1.Introducción
1.1La minería de datos en estudios cualitativos
La minería de datos tiene sus raíces en la estadística y la informática, y ha evolucionado a lo largo del tiempo con el surgimiento de nuevas tecnologías y la creciente disponibilidad de datos; el término "minería de datos" se utilizó por primera vez en la década de los 90’s por investigadores de IBM (Berry y Linoff, 1997), describiéndola como un proceso de exploración y análisis de grandes cantidades de datos, con el objetivo de descubrir patrones significativos y reglas de asociación. Los avances en tecnología digital han ampliado las opciones de promoción para llegar a los consumidores, utilizando espacios importantes en la actualidad, siendo internet el medio por el que se permite la distribución de información relevante sobre los productos y servicios que ofrecen las empresas para darlos a conocer (Montiel et al., 2017). Con el aumento del uso de Internet y las redes sociales en la década de los 2000, esta se convirtió en una técnica popular para analizar grandes conjuntos de datos en línea, siendo los investigadores quienes la utilizaron para analizar los patrones de comportamiento de los usuarios en internet y con ello personalizar la publicidad en línea (Provost y Fawcett, 2013).
La minería de datos puede ser importante en la investigación cualitativa ya que ayuda a descubrir patrones y tendencias, exploración de datos y validación de hallazgos (Caruana y Niculescu-Mizil, 2006; Kelle y Erzberger, 2010; Marshall y Rossman, 2016), es por ello, que esta es una técnica de gran utilidad para realizar el análisis de grandes conjuntos de datos en la investigación cualitativa, ya que permite a los investigadores encontrar patrones y relaciones en los datos, lo que puede ayudar a hacer inferencias y generar hipótesis para futuras investigaciones.
Para realizar la minería de datos se han generado diferentes herramientas, por ejemplo, RapidMiner la cual es una plataforma de software de minería de datos y aprendizaje automático de código abierto que permite a los usuarios construir y aplicar modelos predictivos a través de una interfaz gráfica de usuario intuitiva, convirtiéndose en una de las herramientas de minería de datos y aprendizaje automático más populares debido a su facilidad de uso y sus capacidades de análisis avanzadas (Kotsiantis et al., 2006a). Dicha herramienta ofrece beneficios a los usuarios como ahorrar tiempo y esfuerzo en el proceso de modelado predictivo, ofreciendo una amplia gama de técnicas de minería de datos, permitiendo elegir la mejor opción para sus necesidades (Kotsiantis et al., 2006b; Li et al., 2017).
1.2El caso de estudio
El estado de Guanajuato es una de las 32 entidades federativas de México, colinda al norte con los estados de Zacatecas y San Luis Potosí, al sur con Michoacán, al este con el estado de Querétaro y al oeste con el estado de Jalisco; el estado de Guanajuato cuenta con una extensión de 30,491 km², que conforman sus 46 municipios, es un estado que se caracteriza por sus edificios culturales de la época de la Nueva España, recintos religiosos, monumentos históricos, paisajes, riquezas minerales, pueblos fantasmas, productos gastronómicos y de piel;
adicionalmente, es referente de un sinfín de influencias artísticas, desde la indígena hasta la estadounidense, pasando por la española de la época de la conquista, debido a su carácter cosmopolita, en todo el estado se pueden encontrar restaurantes internacionales y algunos especializados en determinados países (MéxicoReal, 2012).
Fernando Olivera Rocha, ex secretario de Turismo de Guanajuato y actual Vicepresidente de Turismo CANIRAC (Cámara Nacional de la Industria de Restaurantes y Alimentos Condimentados), mencionó en una intervención con el tema: Turismo local, destino turístico sin playa de mayor relevancia, comentó: “Guanajuato es un destino sin playa que ofrece grandes ventajas competitivas y una política pública establecida en el Programa Estatal de Turismo y en base a ello, se trabaja a diario para subsistir en la calidad de los servicios y la fisionomía de la Entidad” (Gobierno del Estado de Guanajuato, 2015), afirmaciones que respaldan los datos del observatorio turístico del Estado de Guanajuato quien reporta una inversión privada en el turismo desde el 2013 hasta el 2021 de más de 18, 665 millones de pesos, más de mil millones de dólares, para el cierre del año 2021 se registraron 319,394 visitantes extranjeros en el estado y hasta junio del 2022 se habían registrado 215,600 llegadas de pasajeros al aeropuerto del estado, solo en 2021 se registró un total de 35,481 millones de pesos como derrama económica en dicho sector, casi dos mil millones de dólares (OTEG, 2022).
Además, la Secretaría de Turismo del Estado de Guanajuato en su reporte de Indicadores de la Actividad Turística, en la versión diciembre 2022, comunicaron el registro de un millón 765 mil visitantes al estado, generando en dicho mes una derrama económica de 3 mil 827 millones de pesos, más de 200 millones de dólares, acumulando entre enero y diciembre del 2022, más de 45 mil millones de pesos (más de dos mil millones de dólares); durante el tercer trimestre de 2022, en el Estado de Guanajuato el número de personas trabajando en el rubro Restaurantes y Servicios de Alojamiento fue de 195 mil 830 personas, ocupando el quinto lugar en el Ranking Nacional de Empleo del rubro, siendo a nivel nacional 1 de cada 13 personas que trabajan en la actividad de Restaurantes y Servicios de Alojamiento del estado de Guanajuato (DATATUR, 2023).
1.3Análisis del sentimiento
De forma general la Real Academia Española define la percepción como la “sensación interior que resulta de una impresión material producida en los sentidos corporales” (Real Academia Española, 2023), Statla visión de la psicología, principal disciplina encargada del estudio de esta, es definida como un proceso cognitivo (mental) sobre la conciencia que reconoce, interpreta y da significado en la generación de juicios sobre las sensaciones que son obtenidas por el ambiente físico y social, dentro del cual se ven involucrados procesos psíquicos como el aprendizaje, la memoria y la simbolización (Vargas, 1994).
Dentro del proceso de percepción ocurren tres momentos los cuales mencionan Bassan y Rodríguez (2020): el primero, de carácter sensorial; el segundo, de carácter selectivo y el tercero, de carácter interpretativo, en el cual se da significado al objeto percibido; dicha percepción, en este caso, trasladada al fenómeno turístico, puede ser percibido a través de una gran cantidad de variables, que por mencionar algunas, puede ser considerada la idiosincrasia de cada pueblo o lugar, su componente étnico-poblacional, el nivel de relación comercial con el turismo, el aporte económico a la economía vernácula, los preconceptos existentes, las experiencias pasadas o de localidades vecinas, etc.
El turismo es un fenómeno social, cultural y económico que supone el desplazamiento de personas a países o lugares fuera de su entorno habitual por motivos personales, profesionales o de negocios (OMT, 2023). El turismo es un fenómeno muy susceptible a lo que sucede en su entorno, por ejemplo, Rodríguez-Toubes y Álvarez (2023) mencionan que el descenso de las llegadas de turistas está relacionado con la reacción de los turistas a la percepción de amenazas a su salud, su seguridad personal o, simplemente, a su disfrute en las vacaciones. Riveros y Gamarra (2018) enfatizan como las actitudes y percepciones de los grupos o individuos frente al proceso turístico y al visitante, pueden ser positivas o negativas, activas o pasivas, de manera que las reacciones pueden tomar la forma de una de estas reacciones, o bien, coexistir una combinación de estas.
Bo Pang y Lillian Lee son autores relevantes en el campo del análisis del sentimiento y han contribuido en gran manera al desarrollo de técnicas de procesamiento de lenguaje natural para la identificación de sentimientos, su trabajo destaca la importancia del análisis del sentimiento en una amplia variedad de aplicaciones y la necesidad de técnicas precisas y eficaces para la identificación de emociones expresadas en el lenguaje humano, definiendo el análisis del sentimiento como una técnica utilizada para la identificación y clasificación de las emociones expresadas en un texto en tres posturas: positivas, negativas o neutrales, dicha técnica ha sido empleada en una gran variedad de aplicaciones, en las que se incluye la investigación de mercado, el monitoreo de la reputación de la marca, la medición de la satisfacción del cliente y la identificación de tendencias en las opiniones y actitudes de los consumidores (Pang y Lee, 2008)
Según el informe de We Are Social UK (2021), los usuarios de internet en todo el mundo pasan un promedio de 2 horas y 25 minutos al día en las redes sociales, por ello no es de extrañarse que el análisis de sentimientos en redes sociales sea una técnica cada vez más utilizada para comprender cómo las personas se sienten acerca de marcas, productos, un evento o un tema específico en internet, ya que dicha técnica está basada en el procesamiento del lenguaje natural y la minería de datos para identificar y clasificar las emociones expresadas en los textos de las redes sociales.
Es importante resaltar que los contenidos que se publican en las redes sociales son muestra de las apropiaciones que las personas realizan a través de sus experiencias y constituye un conjunto muy diverso de formas de participar con opiniones en temas de interés.
2.Metadología
Esta investigación se basa en la tradición de la metodología cualitativa que como Quecedo y Castaño (2003) la justifican, representa una investigación que genera datos descriptivos a partir del análisis de las propias palabras de las personas, habladas o escritas y de la conducta observable.
La investigación cualitativa es de carácter inductivo (Taylor y Bogdan en Quecedo y Castaño, 2003) pues permite comprender y desarrollar conceptos tomando en cuenta las pautas de los datos; utilizar un diseño flexible y partir de un conjunto de interrogantes que pueden o no sean planteadas vagamente. La investigación cualitativa por tanto se enfoca en la comprensión de las personas en su contexto y así observar cómo experimentan la realidad.
El método de investigación utilizado para esta investigación fue el estudio de caso que Yin (2014) explica es aquel que busca entender el fenómeno en su complejidad a través de la recolección rigurosa y el análisis de una amplia variedad de fuentes de datos, siendo una estrategia de investigación empírica valiosa para entender la complejidad y la riqueza de los fenómenos en su contexto, útil para investigar situaciones en las que no es posible controlar las variables de interés o en las que el investigador tiene acceso limitado a la situación, reconociendo su potencial para generar teorías, más que para probar hipótesis generalizables.
Para la recolección de la información obtenida se utilizó la plataforma de Twitter que Restrepo, García y Arboleda (2020) la define como una red social de alcance mundial que permite suministrar información en tiempo real y la interacción entre personas en relación con una temática específica. Según estos autores, corresponde a una red enfocada en microblogging que opera bajo publicaciones limitadas a 280 caracteres; fue creada en Estados Unidos por Jack Dorsey en el año de 2006.
Aunque Twitter por número de usuarios no es una red con el alcance de otras como Facebook, Whatsapp e Instagram, Twitter es utilizada por 556 millones de usuarios en el mundo (Statista, 2023). Por otro lado, Restrepo et al. (2020) destacan la importancia de Twitter como una herramienta de alta utilidad y que emplean con mayor interés personas del campo científico ya que esta red proporciona una comunicación más concreta entre distintos participantes.
Para la extracción de datos desde la red social de Twitter y su análisis se utilizó el software de Minería de Datos de RapidMiner, ya que este puede procesar datos de diferentes fuentes, como archivos de texto, bases de datos, hojas de cálculo y servicios web, entre otros; la minería de datos es una tecnología y estrategia basada en un modelado matemático que permite comprender el contenido de una base de datos y así transformar esos datos en información útil (Gutiérrez y Molina, 2014); por otro lado, la minería de datos comprende un conjunto de metodologías, aplicaciones y tecnologías que facilitan la colección, depuración y transformación de datos que no se encuentran estructurados, a fin de que faciliten su análisis y conversión en conocimiento (Marcano y Talavera, 2007).
Para lograr la conexión con Twitter desde RapidMiner se gestionó el acceso mediante una cuenta de usuario y un código que asegura la autenticación para su uso.
Una vez hecha la conexión directa desde ahí; se procedió a la extracción de tweets con la cantidad de 10 mil de ellos bajo el texto clave: “Turismo Guanajuato” como se aprecia en la figura número 3.
Se obtuvo una base de datos en Excel con los resultados de la búsqueda realizada. La búsqueda realizada en Twitter arrojó de 678 tweets bajo la categoría de “recientes o populares”, esto representa que no se alcanzaron a captar los 10 mil tweets de la búsqueda inicial. Se procedió a limpiar la base de datos extrayendo caracteres que no proporcionan información para este análisis. Posteriormente se realizó el análisis de sentimiento sobre la base de datos resultante con el software de RapidMiner, tal como se muestra en el modelo de proceso de la Figura 4.
Se extrajeron determinados atributos de la información original arrojada en Twitter como: Geo-Location-Latitude, Geo-Location-Longitude, Id, Retweet-Count y Text. Los primeros dos parámetros refieren a la ubicación geográfica de donde se genera el tweet; luego se tiene el número que identifica al texto; Retweet-Count refiere al número total de veces que se volvió a publicar el tweet original; y finalmente el texto del tweet. La extracción de parámetros se muestra en la figura 5.
Para este caso en particular se utiliza un modelo muy sencillo de análisis de sentimiento que puede ser escalado, pero los límites exigidos de la extensión de esta comunicación han impedido un análisis más extenso; sin embargo, se subraya la importancia de la minería de datos como una herramienta muy práctica para realizar aproximaciones a la comprensión de la opinión pública sobre determinados temas.
3.Resultados y Discusión
Como ya se ha mencionado, la búsqueda arrojó un total de 678 tweets como recientes o populares. En la figura 6 se muestra un extracto de la base de datos resultante.
Adicionalmente, el resultado del proceso diseñado en RapidMiner genera otros campos para su análisis: Polarity (polaridad); confidence (confianza); agreement (acuerdo); subjetivity (subjetividad), irony (ironía). El campo al que se enfoca esta investigación corresponde al de polaridad ya que refiere a la evaluación del sentimiento que recibe valores como: Muy positivo, positivo, neutro, negativo, muy negativo y ninguno. Esto significa que cualquier texto expresado en el tweet puede tener una connotación negativa, positiva o neutra con algunas intensidades, o bien estar ausente.
De la figura anterior puede decirse que la percepción del turismo en el estado de Guanajuato, México, genera comentarios positivos en un 90% de acuerdo con el análisis de sentimiento aplicado a los tweets referidos en la categoría de “recientes o populares”, que en un sentido más general correspondería al 95% de ellos si se toma adicionalmente el valor de “muy positivo”.
La confianza refleja el grado en que es confiable el modelo de análisis de construido, para el caso que se presenta se obtuvo un nivel de confianza mayor e igual al 92% lo que significa que es confiable el modelo. Por otro lado, el resultado representa el acuerdo que existe entre los sentimientos encontrados en el texto analizado; el 99.4% de los sentimientos encontrados concuerdan en la polaridad.
En lo que refiere a la ironía, entendida como el hecho de comunicar algo cuando en realidad quiere decir otra cosa; el análisis del sentimiento arrojó que en el 100% de los tweetts analizados no refleja ironía alguna. En tanto a la variable subjetividad referida a la valoración personal de lo expresado, los resultados mostrados identifican que el 94% de los textos son objetivos, es decir, refieren particularmente a expresiones inherentes al objeto de la comunicación. Lo anterior se refleja en la figura 8.
Entre los retweets con mayor frecuencia registrada en este análisis de sentimiento corresponden a los siguientes tweets:
4.Consideraciones Finales
El análisis de sentimiento es una herramienta que permite observar la actitud que asumen las personas que publican en internet sobre un tema en particular, para llevar a cabo este análisis se requiere de extraer la información pertinente; en este caso se realizó sobre la red social Twitter, una red que se caracteriza por su comunicación directa y concreta en pocos caracteres.
La polaridad de las publicaciones indica la actitud sobre el tema en referencia en valores como positivo, negativo, neutro o ausente, lo que permite identificar la empatía de las personas sobre los referentes de análisis. Esta información puede ser tomada en cuenta para el desarrollo de estrategias comunicacionales relevantes que coadyuven al posicionamiento en la mente del consumidor de marcas, productos etcétera, pero también para identificar de qué lugar proviene la percepción.
El análisis de sentimiento utiliza sistemas para el procesamiento de opiniones y que a través de la minería de datos puede facilitar la comprensión de la actitud de los usuarios de internet sobre determinados temas y conocer así las tendencias para la toma de decisiones en diferentes campos de la comunicación.