1. Introducción
Desde que la tecnología de objetos de aprendizaje (OA) fue adoptada por la academia para apoyar los procesos de enseñanza y aprendizaje surgió al mismo tiempo la necesidad de garantizar su calidad mediante actividades de evaluación destinadas a constatar evidencias mensurables. Según Bertossi y Gutiérrez (2020) los OA son materiales educativos conformados por una estructura interna de cuatro elementos -objetivo, contenido, actividades y evaluación- y una estructura externa de metadatos que facilita la búsqueda, selección y recuperación desde repositorios para su reutilización en una diversidad de configuraciones educativas y tecnológicas.
En relación a su calidad, además de posibilitar el logro objetivos de aprendizaje, Nesbit et al. (2002) destacan otros beneficios que traen consigo los procesos de evaluación: ayudan a los usuarios a encontrar OA en los repositorios, orientan sobre la mejor manera de emplearlos, pueden mejorar la calidad de los OA de manera temprana mediante evaluaciones en etapas de diseño y desarrollo, mejoran el desarrollo profesional de quienes participan en actividades de evaluación, los estándares de calidad guían a diseñadores y desarrolladores, las habilidades de éstos pueden ser reconocidas socialmente frente a evaluaciones positivas, entre otras.
Como elementos facilitadores del aprendizaje, ya sea en su modalidad presencial o a distancia, los OA deben exhibir un atributo central de calidad: la usabilidad pedagógica. Para el estándar ISO 9241 (ISO, 2018) “usabilidad es la eficiencia y satisfacción con la que un producto permite alcanzar objetivos específicos a usuarios específicos en un contexto de uso específico”. Nielsen (1993) la definió como “el atributo de calidad que mide lo fáciles de usar que son las interfaces Web”. En particular, la usabilidad pedagógica alude a “la facilidad de aprendizaje, eficiencia de uso pedagógico y la satisfacción con la que las personas son capaces de realizar sus tareas gracias al uso del producto con el que están interactuando” (Massa, 2012).
Otras consideraciones de calidad se vinculan a la reusabilidad, interoperabilidad y accesibilidad de los OA, que hacen posible su reutilización en diferentes contextos tecnológicos y pedagógicos, su comunicación con sistemas de gestión del aprendizaje y su almacenamiento, selección y recuperación desde ubicaciones remotas.
Por otra parte, para fiarse de las conclusiones de una evaluación, tan importante como los resultados que arrojen las mediciones de los atributos de calidad son la validez y confiabilidad del instrumento con el que se llevan a cabo tales mediciones.
En vistas a lo expuesto se analizarán diferentes instrumentos de evaluación con el objetivo de determinar si alguno puede ser adoptado en la Universidad Tecnológica Nacional (UTN) de Argentina, donde se enseñan ingenierías, o si será necesario elaborar uno propio. El cumplimiento de los siguientes requisitos será condición necesaria y suficiente para su selección:
Consideración de la significatividad lógica: mide atributos vinculados con la coherencia de la propuesta didáctica.
Consideración de la significatividad psicológica: evalúa cuestiones relacionadas con la estructura psicológica del contenido que hacen posible que el nuevo contenido se ensamble en la estructura cognitiva previa del alumno considerando, en lo posible, los estilos de aprendizajes como la identificación de rasgos cognitivos, afectivos y fisiológicos (Oviedo y Almendrales, 2018).
Consideración de la calidad técnica: involucra atributos que harán posible que el OA reúna las propiedades técnicas de reusabilidad, interoperabilidad y accesibilidad, entendida esta última como la posibilidad de localizar, acceder y recuperar el OA de un repositorio.
Consideración de la usabilidad: si bien es un atributo técnico de calidad, dado que existe un corpus de investigación, estándares y disciplinas relacionados con la usabilidad se prefiere contemplarla por separado.
Consideración de la accesibilidad: aquí el término atañe a los atributos de calidad que hacen posible la fácil manipulación del OA por parte de personas con o sin discapacidades en igualdad de condiciones. También es un atributo de calidad técnica, pero por los mismos motivos que la usabilidad se la considera aparte.
Sencillez de la actividad de evaluación utilizando el instrumento.
Garantías de validez y confiabilidad en la aplicación del instrumento.
La comunicación se organiza como sigue: en la sección 2 se explica la metodología empleada para llevar adelante la búsqueda bibliográfica y se describe someramente cómo fue aplicada; en la sección 3 se describen los instrumentos encontrados; en la sección 4 se valoran dichos instrumentos a la luz de los requerimientos de selección y en la sección 5 se exponen las conclusiones.
2. Método
En este trabajo se siguió la metodología propuesta por Medina-López et al. (2010) para revisiones de la literatura debido a que en otras investigaciones bibliográficas que hemos llevado a cabo con anterioridad nos resultó de sencilla aplicación y nos permitió obtener resultados favorables a los intereses de las búsquedas de manera satisfactoria. Consta de cinco etapas: (i) Identificación del campo de estudio y del período a analizar; (ii) Selección de las fuentes de información; (iii) Realización de la búsqueda (qué, dónde y cómo); (iv) Gestión y depuración de los resultados de la búsqueda; (v) Análisis de los resultados. En (i) se definió la calidad de OA como campo de estudio dentro del período 2000-2021. Las fuentes de información en (ii) incluyeron: artículos de revistas, actas de congresos, tesis académicas, libros, repositorios digitales abiertos de universidades de Estados Unidos, Canadá e Iberoamérica, portales bibliográficos y bases de datos, redes sociales académicas y el buscador Google Académico. En (iii) se realizaron búsquedas automáticas y manuales según los criterios de búsqueda “Calidad de objetos de aprendizaje”, “Calidad de [sinónimo de OA]” (donde sinónimo de OA puede ser objeto virtual de aprendizaje, objeto digital educativo, recurso educativo digital, recurso educativo abierto, material educativo digital, material didáctico interactivo, etc.), “Evaluación de calidad de objetos de aprendizaje”, “Evaluación de calidad de [sinónimo de OA]” y sus expresiones en inglés. En (iv), a partir de la lectura de resumen y conclusiones, tres revisores clasificaron el material en dos categorías: FACTIBLES (publicaciones del tema bajo estudio) y DESCARTADOS (falso-positivos). La primera categoría incluyó las publicaciones sobre calidad de OA exclusivamente. La lectura completa de los trabajos FACTIBLES para llevar a cabo el análisis se realizó en (v). En esta etapa, cuando algún asunto abordado por el artículo leído despertaba particular interés en relación a las consideraciones de selectividad mencionadas en la introducción, ameritaba una explicación más profunda o aludía a otros instrumentos de evaluación de calidad de OA, se prestó especial atención a las referencias bibliográficas como fuente valiosa de trabajos relacionados e investigaciones en el área que podrían enriquecer los resultados de la exploración y dar sustento al análisis de resultados, llevando adelante un ciclo iterativo entre las etapas (iv) y (v).
3. Revisión de la literatura
En este apartado se presentan 20 instrumentos de evaluación de calidad de OA propuestos por grupos de investigación de entidades de educación superior y grupos de trabajo para el desarrollo de estándares. La revisión apuntó a identificar en cada propuesta (Tabla 1): (i) criterios de calidad considerados; (ii) objetivo; (iii) escala de calificación; (iv) mecanismo de evaluación; (v) momento de evaluación; (vi) actores que participan en la evaluación; (vii) validez y confiabilidad del instrumento. Las columnas I a V de la Tabla 1 corresponden al ítem (i) y refieren a los aspectos de calidad Significatividad lógica, Significatividad psicológica, Calidad técnica, Usabilidad y Accesibilidad, respectivamente. Se definió esta taxonomía como marco normalizado de comparación debido a que cada instrumento estructura sus criterios en dimensiones no estándar y con diferentes niveles de abstracción. El detalle de los ítems de calidad mensurados por cada instrumento y su clasificación dentro de los aspectos de calidad mencionados puede consultarse en Bertossi y Gutiérrez (2021). La columna “Val.” refiere a “Validez”; y “Conf.” a “Confiabilidad”.
MERLOT (Multimedia Educational Resource for Learning and Online Teaching)
(Malloy y Hanley, 2001; MERLOT, s.f.). Evalúa 3 dimensiones: Calidad de contenido; Facilidad de uso; Eficacia potencial como herramienta de enseñanza.
LORI (Learning Object Review Instrument) (Nesbit et al., 2002, 2003, 2009; Leacock y Nesbit, 2007). Evalúa 9 heurísticas: Calidad del contenido; Motivación; Alineación de los objetivos de aprendizaje; Adaptación y retroalimentación; Diseño de presentación; Usabilidad de la interacción; Accesibilidad; Reusabilidad; Conformidad con estándares de metadatos e interoperabilidad. Propone un método de evaluación de participación convergente que garantiza confiabilidad entre evaluadores, aunque no entre ítems (Vargo et al., 2003) y consta de dos etapas: en la primera los actores evalúan individualmente los OA en forma asíncrona; en la segunda, preferentemente en sesiones síncronas, el proceso es conducido por un moderador y los actores consensuan un juicio común a ser publicado para el OA evaluado.
HEODAR (Herramienta de Evaluación de Objetos Didácticos de Aprendizaje Reutilizables) (Morales et al., 2008). Considera 64 ítems calificables numéricamente y distribuidos en cuatro categorías: Didáctico-curricular; Psicopedagógica, Diseño de interfaz, Diseño de navegación.
Modelo de la Universidad Autónoma de Aguascalientes (Velázquez et al., 2006). Mide 23 ítems de calidad agrupados en 4 categorías: Elementos tecnológicos; Elementos pedagógicos; Elementos de contenido; Elementos estéticos. Para cada ítem se define un valor estándar y una ponderación según el contexto del alumno. Las categorías también se ponderan en función de dicho contexto.
ECOBA (Evaluación de la Calidad en los OBjetos de Aprendizaje)(Ruiz et al., 2007). Agrupa 41 criterios en 3 ejes: Pertinencia y veracidad de los contenidos; Diseño estético y funcional; Diseño instruccional y aseguramiento de competencia.
LOAM (Learning Object Attribute Metric) (Windle et al., 2007). Mide 12 atributos de calidad pedagógica agrupados en 3 categorías: Entorno en el que tiene lugar el aprendizaje; Roles en el proceso de aprendizaje; Actividades propuestas.
Modelo de la Universidad del BioBio y Universidad de Castilla-La Mancha (Vidal et al., 2008). Mide 38 rasgos de calidad asociados a características y sub-características del estándar ISO/IEC 9126 (ISO/IEC, 2001), actualmente reemplazado por ISO/IEC 25000 (ISO/IEC, 2014), adaptadas a los OA: Funcionalidad; Usabilidad; Eficiencia; Reutilización.
LOEM (Learning Object Evaluation Metric). Modelo de tres componentes que evalúa OA de escuela media: LOEM propiamente dicho (Kay y Knaack, 2008), LOES-T (Learning Object Evaluation Scale for Teachers) (Kay et al., 2009) y LOES-S (Learning Object Evaluation Scale for Students) (Kay y Knaack, 2009). LOEM calcula 17 métricas durante la selección del OA agrupadas en 4 constructos: Interactividad; Diseño; Compromiso; Usabilidad. LOES-T evalúa 8 ítems de usabilidad pedagógica por parte del docente. LOES-S evalúa 12 ítems de usabilidad pedagógica por parte del del alumno. Mediante análisis estadístico formal los autores han demostrado confiabilidad del modelo (interna y entre evaluadores) y validez de constructo, de convergencia entre LOES-S y LOEM, de convergencia entre LOES-T y LOEM, y validez predictiva de los resultados de aprendizaje.
MECOA (Modelo para la Evaluación de Calidad de OA) (Eguigure y Prieto, 2011). Opera sobre 6 indicadores de calidad pedagógica: Contenido; Representación; Competencia; Autogestión; Significación; Creatividad.
Modelo de evaluación automática mediante redes neuronales (Cechinel et al., 2016). Clasifica los OA en dos categorías: Bueno y No-bueno. Para ello calcula 35 métricas de bajo nivel a partir datos y metadatos extraídos automáticamente del OA, las cuales se agrupan en 5 rubros: Enlaces; Texto; Gráfico, Interactividad y multimedia; Arquitectura del sitio; Metadatos de evaluación. Por el tipo de datos que se extraen para las métricas de cada rubro se las consideró parte de Calidad técnica.
GEHOA (Guía de Evaluación Heurística de OA) y CUSEOA (Cuestionario de Satisfacción de Estudiantes de un OA) (Massa, 2012). GEHOA evalúa 17 heurísticas desde el perfil experto, CUSEOA evalúa 11 heurísticas desde el perfil alumno. Ambos agrupan las heurísticas según la siguiente taxonomía: Dimensión Usabilidad pedagógica, que se descompone en las categorías Significatividad lógica y Significatividad psicológica; Dimensión Usabilidad de sitios Web, cuyas categorías son Diseño de interfaz y Estructura de navegación.
COdA (Calidad de Objetos de Aprendizaje) (Fernández-Pamplillón et al., 2012). Organiza 10 criterios en dos grupos: Criterios didácticos; Criterios tecnológicos.
LOES (Learning Object Evaluation Scale) (Gürer y Yıldırım, 2014). Adaptación de LOES-S (Kay y Knaack, 2009) para nivel primario. Consta de 29 ítems agrupados en 3 constructos: Aprendizaje percibido; Usabilidad; Compromiso. Mediante análisis factorial exploratorio y confirmatorio se ha demostrado confiabilidad y validez de la herramienta.
Equali-OAS (Escala para avaliação da qualidade dos Objetos de Aprendizagem da área da Saúde) (Trindade, 2016; Trindade et al., 2018). Evalúa OA para la enseñanza de ciencias de la salud mensurando 41 ítems agrupados en 3 dimensiones: Conceptos intrínsecos de los OA en el área de salud; Características educativas; Presentación. Se ha demostrado confiabilidad y validez de estructura interna (con análisis factorial) y externa (correlación con LORI) del instrumento.
UNE 71362 Calidad de los materiales educativos digitales (Fernández-Pampillón, 2017; AENOR, 2020; Cabezuelo et al., 2016). Incluye 15 criterios de calidad distribuidos en 3 dimensiones: Eficacia didáctica del material; Eficacia tecnológica; Eficacia respecto a la accesibilidad. Cada criterio tiene una serie de ítems puntuables numéricamente. También prevé valoración cualitativa y provee una rúbrica para expertos, una adaptación para el perfil docente y una para el perfil alumno.
Modelo por capas (Tabares et al., 2017). Cada capa corresponde a un perfil de evaluador e involucra métricas que valoran alguna de las siguientes dimensiones de calidad: Educativa; Contenido; Estética; Funcional; Metadatos; Contextual. Las métricas de la capa de Gestión se calculan a partir de metadatos del OA y datos del repositorio; las de la capa Revisión de expertos se calculan a partir de la calificación de ítems ponderados según el nivel de experticia del evaluador. Las métricas de la capa Percepción de usuarios se calculan a partir de la calificación que da el usuario. Además, se calcula un índice integrador de todas las métricas de cada capa. El modelo se validó por comparación de los índices de cada capa y por comparación entre capas de las métricas correspondientes a cada dimensión.
Modelo de valuación automática mediante analíticas de aprendizaje (Gordillo et al., 2018). Las analíticas de aprendizaje consisten en algoritmos de software estadístico-matemáticos que, a través de la medición, recopilación, análisis e informe de los usos virtuales o digitales de los alumnos y sus contextos permiten abordar aspectos hasta el momento desconocidos del proceso de aprendizaje, abriendo un camino para la ejecución de estudios descriptivos, predictivos, diagnósticos y prescriptivos (Covadonga, 2021). El instrumento de Gordillo estima predictores de calidad en base 9 tipos de interacciones: Tiempo promedio total que pasan los alumnos con el OA(*); Tiempo medio que pasan en cada diapositiva; Tiempo mínimo promedio que pasan en una diapositiva; Tiempo máximo promedio que pasan en una diapositiva; Promedio de clics de ratón(*); Promedio de cuestionarios respondidos; Número total de visitas del OA; Ratio de permanencia (porcentaje de usuarios que no abandonan el OA en los primeros 30 segundos)(*); Ratio de favoritos. Los autores han demostrado mediante regresión lineal multivariable que las interacciones (*) explican el 95% de las variaciones de calidad de los OA. Por otra parte, argumentan que los estudiantes tienden a pasar más tiempo con recursos de mayor calidad ya que presentan mejores contenidos, tienen mayor capacidad de motivar, están mejor estructurados y son fáciles de usar; además, interacciones como el número de clics o cuestionarios respondidos dan la señal de que el OA fomenta el aprendizaje activo. Por esta razón, se interpreta que las 9 mediciones aportan indistintamente a los aspectos Significatividad lógica, Significatividad psicológica y Usabilidad. En cuanto a su validez, la investigación probó que el instrumento diferenció correctamente OA de calidad alta y baja en el 90% de los casos, sin embargo, no está estudiada la cantidad de sesiones de interacción necesarias para hacerlo de manera confiable.
4. Análisis de resultados
Las observaciones derivadas de la revisión se discuten partiendo de una visión macro que considera todos los instrumentos en su conjunto hasta las particularidades de cada uno, teniendo como objetivo la pauta de selección descripta en la introducción.
La mayoría de los autores analizados coinciden en que por tratarse los OA de recursos que reúnen simultáneamente las cualidades de producto de software y recurso educativo, la dimensión técnica y la dimensión pedagógica deben estar cubiertas por los atributos de calidad medidos. Los ítems propuestos en los distintos instrumentos se subordinan a aquéllas porque o bien consideran la reusabilidad, accesibilidad e interoperabilidad (en este artículo se agrupan dentro de Calidad técnica), o hacen foco en aspectos de interacción persona-computadora, cuestiones netamente técnicas que son abordadas por disciplinas como la ingeniería de la usabilidad, el diseño web, el diseño centrado en las personas, diseño de interfaz hombre-computadora, el diseño universal y la accesibilidad web y de sistemas interactivos, que son respaldados por estándares internacionales como ISO 9241 (ISO, 2018), ISO/IEC 24751 (ISO/IEC, 2008) y recomendaciones de la W3C (W3C, 2008) (en este trabajo están discriminados bajo los aspectos Usabilidad y Accesibilidad); o bien consideran cuestiones vinculadas al apoyo o facilitación del aprendizaje según las teorías del aprendizaje y que aquí son denominadas aspectos de Significatividad lógica y de Significatividad psicológica.
En la figura 1 se muestra el porcentaje de instrumentos que cubren cada uno de los aspectos genéricos de calidad distinguidos en esta comunicación. El 75% (15 de 20) evalúa la Significatividad lógica; el 95% (19 de 20) evalúa la Significatividad psicológica; el 45% (9 de 20) considera la Calidad técnica; el 90% (18 de 20) contempla la Usabilidad y sólo el 20% (4 de 20) la Accesibilidad. Los 2 primeros guarismos revelan que las preocupaciones iniciales que salieron a la luz allá por fines de los 90 en relación a la extremada relevancia que estaba tomando la faceta tecnológica de los OA en detrimento de su estatus pedagógico a causa del gran impulso que estaban teniendo diferentes iniciativas de desarrollo de estándares de interoperabilidad y catalogación de metadatos, o bien fueron equivocadas y los peligros no eran tales, o bien, previsoras, encaminaron los esfuerzos para evitar un desequilibrio en la calidad de los componentes que conforman la doble naturaleza de estos recursos.
Como no todos los instrumentos abordan todos estos aspectos de calidad, se procedió a organizarlos en cinco clases según la pertenencia a dichos aspectos de los ítems que miden (figura 2).
La clase A agrupa ítems que pertenecen al conjunto unión de los 5 aspectos (Significatividad lógica ∪ Significatividad psicológica ∪ Calidad técnica ∪ Usabilidad ∪ Accesibilidad): LORI, COdA, Equali-OAS y UNE 71362. La clase B agrupa instrumentos que dan cobertura al conjunto de aspectos de la Clase A excepto la
Accesibilidad. A esta clase corresponden: Modelo de la Universidad de Aguascalientes, ECOBA, Modelo de las Universidades del BioBio y de Castilla-La Mancha y Modelo por capas. La clase C incluye ítems de la unión de 3 aspectos: Significatividad lógica ∪ Significatividad psicológica ∪ Usabilidad. En esta clase hay 6 instrumentos: MERLOT, HEODAR, MECOA, GEHOA, CUSEOA y Modelo de evaluación automática mediante analíticas de aprendizaje. La clase D da cobertura a sólo 2 aspectos de calidad: Significatividad psicológica ∪ Usabilidad, o bien, Significatividad psicológica ∪ Significatividad lógica. En esta clase hay 5 instrumentos: LOAM, LOEM, LOES-S, LOES-T y LOES. La clase E considera sólo la Calidad técnica. Puede advertirse que esta clase incluye sólo el Modelo de evaluación automática mediante redes neuronales debido a que sus métricas se alimentan de datos de bajo nivel extraídos del OA.
Cabe destacar que, si bien la herramienta adecuada para llevar adelante una evaluación holística pertenece a la clase A, no significa que la clase E sea la peor. Los instrumentos de este grupo, por su finalidad y características, son ideales para complementar la evaluación manual realizada con algún instrumento clase A y pueden ser aprovechados para obtener rápida y automáticamente un indicador de calidad a priori de los OA publicados en un repositorio hasta tanto los resultados de una revisión de expertos o de la comunidad de usuarios estén disponibles. Así, quedarían visibles todos los OA que verifiquen los criterios de búsqueda del interesado, dejando a su juicio la decisión de utilizar o no el OA a partir de esa información preliminar de calidad. Asimismo, pertenecer a la clase A no es garantía de un buen instrumento porque los atributos que mide podrían ser incompletos, redundantes, no válidos o no fiables. Esta clasificación se ha realizado al mero efecto de descartar aquellos instrumentos que no ofrecen una cobertura completa tal como se definió en la pauta de selección.
Considerando un análisis más particular, en la figura 3 puede observarse una notoria disparidad entre instrumentos con respecto a la cantidad de ítems para los que se mide el grado de cumplimiento dentro de cada aspecto de calidad. Con respecto al modelo que utiliza analíticas de aprendizaje, en la sección previa se explicó que los 9 ítems de calidad aportan en conjunto a los aspectos Significatividad lógica, Significatividad psicológica y Usabilidad, motivo por el cual se les asignó a cada uno de éstos la cantidad promedio de ítems.
Mientras que HEODAR y GEHOA mensuran una gran cantidad de ítems, MERLOT, LORI, COdA y UNE 71362 hacen lo contrario. El motivo de esta diferencia está en que estos últimos enumeran criterios heurísticos, que son declaraciones de reglas generales de calidad a un alto nivel de abstracción (no específicas directrices de valoración) para las que ofrecen guías a los evaluadores o enuncian buenas prácticas para facilitar la interpretación de los criterios y proceder a la calificación; entretanto HEODAR desglosa en ítems muy específicos tales heurísticas. Por ejemplo, con la profusión de ítems de Usabilidad que deben calificarse con HEODAR (30) y con GEHOA (31) se presume que sus autores han pretendido orientar al evaluador que no tiene experticia en esta disciplina para que ponga el foco en cosas puntuales y se disminuya así el riesgo de ambigüedad y omisiones.
La misma intención tiene LOES al discriminar tantos ítems de Significatividad psicológica, 18 frente a los 12 de HEODAR, que ocupa el segundo puesto en el ranking general de este aspecto de calidad, terciando ECOBA y el Modelo de la Universidad Autónoma de Aguascalientes con 11 ítems. Y la razón, nuevamente, es el grado de experticia del evaluador. LOES fue diseñado para ser usado por alumnos del nivel primario, por lo que sus creadores tuvieron especial cuidado en redactar punto por punto a evaluar en un lenguaje adecuado al nivel cognitivo de los encuestados y en forma pormenorizada de modo que no se pasara por alto ninguno y que todos fueran correctamente interpretados.
Hay un grupo de instrumentos que no son aplicables a la generalidad de los OA de educación superior. Equali-OAS sólo se ajusta a OA del área de la salud, LOEM, LOES-S y LOES-T están diseñados para OA de escuela media, mientras que LOES, como ya se dijo, para escuela primaria.
En lo que respecta a usabilidad, la misma debe garantizarse en aras a que el esfuerzo cognitivo del alumno esté centrado en aprender el contenido del OA y no en los avatares de una interfaz con deficiencias de diseño. En este sentido, todos excepto el Modelo de evaluación automática con redes neuronales mensuran ítems correspondientes a la usabilidad. No obstante, se ha advertido que algunos instrumentos posteriores a LORI han agregado ítems que ya Nielsen (1994), en su análisis factorial de 249 problemas de usabilidad, subsumió en alguna de sus 10 heurísticas de usabilidad. Por otra parte, también se detectó que algunos han discriminado ítems que otros instrumentos condensan en alguno de los propios. Tal es el caso de HEODAR, GEHOA y UNE 71362; mientras que este último considera el ítem ‘Navegabilidad’, GEHOA usa 8 ítems para evaluar esa característica y HEODAR usa 10. HEODAR, GEHOA, CUSEOA (estos últimos están inspirados en el primero) y LOEM le dan preponderancia al aspecto Usabilidad por sobre los otros, al punto que ni siquiera consideran la Calidad técnica ni la Accesibilidad; y en el caso de LOEM tampoco cubre Significatividad lógica.
Una cuestión relevante es la valoración de la Accesibilidad. En Argentina rige la ley N°26653 (2010) sobre accesibilidad en los contenidos de las páginas web y en 2011 se aprobó la Guía de Accesibilidad para Sitios Web del Sector Público Nacional según las recomendaciones WCAG (del inglés Web Content Accessibility Guidelines) del consorcio de la W3C. Éstas aportan directrices relacionados con la codificación y presentación de la información de manera que cualquier persona pueda percibir, entender, navegar e interactuar de forma efectiva con el contenido de una página web. En XXX se ha establecido un mínimo de conformidad con las recomendaciones WCAG 2.0 (W3C, 2008).
Por su parte, Fernández-Pampillón (2017) jerarquiza el impacto de la accesibilidad de los materiales educativos digitales al destacar que su consecución conlleva a la eficacia didáctica y a la eficacia tecnológica; requisitos fundamentales ambos que deben cumplirse para hablar de un OA de calidad, y para lo cual los distintos instrumentos han definido sus criterios de calidad. En otras palabras, la accesibilidad subyace a la calidad técnica y pedagógica. Sin embargo, sólo 4 modelos, LORI, COdA, Equali-OAS y la norma UNE 71362 lo tienen en cuenta.
LORI, LOEM, LOES-S, LOES-T, LOES, Equali-OAS y la norma UNE 71362 son los únicos instrumentos que garantizan confiabilidad, aunque LORI sólo lo hace para la confiabilidad inter-evaluadores (no demuestra confiabilidad interna). Además, los autores de estos instrumentos, excepto LORI, más los creadores del Modelo por capas y el Modelo de evaluación automática mediante analíticas de aprendizaje, realizaron estudios estadísticos de validez de su modelo.
El modelo multicomponente LOEM y el Modelo por capas merecen un comentario aparte debido a su enfoque único, no aplicado por ninguno de los otros modelos en el sentido que triangulan información de distintas fuentes. LOEM triangula información pre y post uso del OA a través de instrumentos que permiten obtener una valoración del OA al momento de seleccionarlo y corroborarla luego de utilizarlo en clase, tomando en cuenta las impresiones provenientes de dos fuentes: el docente y los estudiantes. Con LOEM el docente calcula diferentes métricas que le permiten determinar si el OA será adecuado para su curso; pero podrá obtener una confirmación de ello, que le servirá a futuro para decidir si continuar o no trabajando con el recurso, con las otras dos herramientas: LOES-T y LOES-S. En la primera vuelca sus percepciones sobre cuánto aprendieron y se involucraron sus estudiantes con el OA y con la segunda obtiene las opiniones de los alumnos acerca de cuánto los ayudó a aprender. Por su parte, el Modelo por capas, triangula la información proveniente de cada capa, es decir, tiene en cuenta la valoración del OA desde diferentes perspectivas: la del administrador del repositorio donde se aloja el OA, que hace hincapié en aspectos de gestión del repositorio, la de expertos, a los que les interesa el OA desde el punto de vista de su aptitud para fomentar el aprendizaje, y la de usuarios finales, que valoran su experiencia en la interacción con el OA.
Puede decirse que hasta el momento los modelos de evaluación automática exhiben una relativa inmadurez, aún tienen que ser refinados y falta más investigación en este campo, pero gozan de un gran potencial a futuro. En particular, el modelo que usa analíticas de aprendizaje resulta de utilidad al docente porque califica al OA teniendo en cuenta interacciones de los alumnos que permiten inferir su calidad pedagógica y facilidad de uso; además, presenta una ventaja sobre la revisión manual por pares, que reside en su escalabilidad para afrontar el ritmo de desarrollo de OA
El mecanismo de evaluación es bastante simple para la mayoría de los instrumentos, aunque exige el compromiso de los revisores en todos los de carácter manual. La evaluación por participación convergente implementada en LORI (con la que sustenta su confiabilidad inter-evaluador) y adoptada también por HEODAR, COdA y UNE 71362, es el método más complejo; requiere de un grupo de expertos en diversas áreas (disciplinar, de diseño instruccional, en estándares, en desarrollo) que tiene el eventual inconveniente de resultar difícil reunirlos a todos, y en caso de hacerlo, insumir bastante tiempo y esfuerzo, incluso es posible que se presenten dificultades en la fase sincrónica a la hora de coordinar horarios disponibles de los evaluadores.
En general, se detectaron 6 formas diferentes de revisión: (i) individual y de expertos, (ii) individual y llevada a cabo indistintamente por expertos y usuarios, (iii) individual y realizada por docentes usuarios del OA, (iv) individual y realizada por alumnos, (v) evaluación colaborativa por participación convergente, (vi) automática. En la tabla 2 se clasifican los instrumentos según el mecanismo adoptado (un instrumento puede emplear más de un mecanismo).
5. Conclusiones
En este artículo se discutieron las propiedades de 20 instrumentos de evaluación de calidad de OA desarrollados por comités de estandarización y diferentes grupos de investigación. El propósito del trabajo fue seleccionar uno de ellos para aplicarlo en la UTN, bajo el requerimiento de cubrir los siguientes aspectos de calidad: Significatividad lógica, Significatividad psicológica, Calidad técnica, Usabilidad y Accesibilidad; a la vez que dar pruebas de confiabilidad y validez.
A excepción de los modelos de evaluación automática, por su enfoque novedoso con aplicación de analíticas de aprendizaje y técnicas de inteligencia artificial, los instrumentos que se desarrollaron con posterioridad a LORI no sumaron aportes innovadores, redujeron sus propuestas a alguna combinación de estos cinco tipos: (i) renombramiento de ítems, (ii) reutilización de ítems, (iii) descomposición en varios ítems de alguno más genérico, (iv) subsunción de ítems en uno con nueva denominación, (v) eliminación de ítems.
Por otra parte, sólo para LOAM, LOEM, LOES-S, LOES-T, LOES, Equali-OAS y la norma UNE 71362 se han realizado estudios estadísticos formales para demostrar confiabilidad y validez; el resto carece de tales investigaciones o son incompletas, lo que reduce el abanico de candidatos a sólo estos 7 instrumentos. Sin embargo, LOAM, LOEM, LOES-S, LOES-T y LOES no ofrecen cobertura de todos los aspectos de calidad que se plantearon inicialmente, y Equali-OAS está diseñado sólo para OA del área de la salud, por lo que fueron descartados.
Si bien LORI da cobertura a todos los aspectos de calidad sólo demostró confiabilidad entre evaluadores, pero por tratarse de un instrumento ampliamente probado en varias universidades de Canadá y Estados Unidos y utilizado en numerosas investigaciones de otras partes del mundo como estándar de referencia podría asumirse su validez para incluirlo dentro de la lista de candidatos seleccionables.
No obstante, la posibilidad de presentarse nuevas necesidades en futuros contextos pedagógicos o técnicos que impliquen adaptaciones del instrumento inclina la balanza por el modelo UNE 71362. Esta norma, desarrollada específicamente para calidad de OA, cuenta con una actualización reciente en 2020 y cubre los 5 aspectos de calidad que conforman el criterio de selección. Otro punto a su favor es que brinda una guía para la realización de la actividad de evaluación y prevé, además de la evaluación de expertos, dos perfiles de aplicación, uno para docentes que carezcan de conocimientos técnicos y otro para alumnos que desconozcan los aspectos didáctico-pedagógicos. Al mismo tiempo, por estar acreditada por el organismo de estandarización español AENOR está sometida a procesos formales de revisión y actualización que garantizan su vigencia. Todas estas razones conducen a la selección de este modelo para evaluación de calidad OA.