1. Introdução
Uma análise bibliométrica fornece uma ferramenta útil para inferir conhecimento de um corpo de literatura e interpretar a evolução, a distribuição e o desenvolvimento da investigação em um determinado campo (Daim, Rueda, & Martin, 2005). Pode ser aplicada para avaliar as relações entre autores, entidades, periódicos ou países, além de medir o impacto da investigação e sua vinculação envolvendo cocitações e palavras-chave empregadas na literatura científica (Lv et al. 2011).
A análise de coocorrência de palavras é o estudo da relação entre palavras usadas em várias partes de um documento (Ronda-Pupo, & Guerras-Martin, 2012). Esta técnica é uma abordagem bem estabelecida e eficaz que pode revelar a estrutura intelectual de um domínio temático para discernir padrões de investigação e tendências em assuntos específicos (Olczyk, 2016). A análise de palavras-chave presume que um grupo de termos agregados pode indicar temas subjacentes e as coocorrências podem mostrar as associações com tópicos subjacentes (Khasseh, Soheili, Moghaddam, & Chelak, 2017). O número de coocorrências de duas palavras-chave é a quantidade de publicações nas quais as duas palavras-chave ocorrem juntas no título, no resumo ou na lista de palavras-chave (Van Eck, & Waltman, 2014). Quanto mais frequentemente dois termos coocorrerem, menor será a distância entre eles (Olczyk, 2016). Assim, uma maior frequência de coocorrência de duas palavras-chave implica em maior correlação (Liu, Hu, & Wang, 2012).
As palavras necessárias para criar uma análise de coocorrência podem ser coletadas dos títulos dos artigos, como em Milojević, Sugimoto, Yan, & Ding (2011) ou dos resumos e palavras-chave do autor como em Zhao, Mao e Lu (2018) e Choi, Yi e Lee (2011). Essas diferentes abordagens nos permitem identificar subáreas em cada campo e estudar suas características e tendências (Lee, Lee, Lee, & Chang, 2018), retratar o perfil de investigação global (Liu, Lu, & Lu, 2016; Xu et al. 2016), encontrar tópicos importantes (Zhao, Mao & Lu, 2018), tendências disruptivas (Dotsika, & Watkins 2017), procurar relacionamentos cooperativos e interpretar padrões de colaboração entre os autores (Newman 2001a, 2001b), etc.
Gan & Wang (2015) e Choi, Yi, & Lee (2011) observaram que as redes de coocorrência de palavras-chave seguem uma distribuição de lei de potência ou Lei de Zipf, onde os novos nós tenderão a se conectar preferencialmente com aqueles mais conectados. As palavras-chave com maior grau têm maior probabilidade de serem usadas com aquelas recém-introduzidas.
Em relação aos estudos sobre o tema investigado, Ding, Chowdhury, & Foo (2001) mapearam a estrutura intelectual da área de Recuperação de Informação (RI), a partir de artigos indexados na base Web Of Science, durante o período de 1987 a 1997. Eles empregaram a análise de coocorrência de palavras-chave para revelar padrões e tendências no campo investigado, medindo a força da associação de termos representativos de publicações relevantes ou outros textos produzidos sobre o campo investigado. Eles concluíram que o campo de RI tem alguns temas de investigação estabelecidos e também muda rapidamente para abraçar novos temas.
Ronda‐Pupo & Guerras‐Martin (2012) ampliaram a reflexão sobre a evolução da gestão estratégica por meio da análise do objeto de estudo do campo: a estratégia. Eles mostraram como o conceito de estratégia formou um campo conceitual do desenvolvimento da gestão estratégica no âmbito acadêmico. Eles utilizaram a análise de coocorrência de palavras-chave para verificar o surgimento de novos tópicos de investigação durante o desenvolvimento da pesquisa.
Wang, Li, Li, & Li (2012) propuseram um novo método baseado na integração do conhecimento de especialistas na análise da coocorrência de palavras. O desempenho deste método revelou ser muito bom, resolvendo problemas com palavras-chave e índices usados na análise de coocorrência de forma eficaz.
Mais recentemente, Bautista-Bernal, Quintana-García, & Marchante-Lara (2021) descreveram e analisaram o estado da arte na literatura e áreas potenciais para investigação futura, relacionadas à Saúde e Segurança Ocupacional e à Responsabilidade Social Corporativa. Elas relacionaram 289 artigos publicados na base Web of Science, no período de 1995 e 2018. Elas empregaram métodos bibliométricos para descrever a evolução da atividade de publicação, os colaboradores mais relevantes, as metodologias aplicadas, bem como o conteúdo dos artigos, a fim de examinar os principais tópicos e tendências de investigação.
Pech, Vrchota, & Bednář (2021) apresentaram uma revisão de literatura sobre manutenção preditiva e sensores inteligentes em fábricas inteligentes. Eles usaram o VOSviewer para gerar a rede de coocorrência de palavras-chave com 16 nós, para identificar as palavras-chave mais relevantes.
Lang et al (2021) publicaram um estudo cujo objetivo era entender o status atual e o desenvolvimento dos estudos de segurança contra incêndio e explorar as bases de conhecimento e as fronteiras de investigação. Para isso, eles recuperaram na base Web of Science 2027 documentos relacionados à segurança contra incêndio, do período de 2000 a 2019. Eles usaram o VOSviewer para gerar a rede de coocorrência de palavras-chave e analisaram os cinco clusters da rede. Depois, eles identificaram as frequências das palavras-chave em 4 períodos: 2000-2004, 2004-2009, 2009-2013 e 2013-2019.
Khaldi & Prado-Gascó (2021) utilizaram a bibliometria para analisar os 178 artigos publicados em periódicos acadêmicos indexados na base Web of Science, sobre o tema da cooperação internacional em migração. Para a análise de coocorrência, eles empregaram o VOSviewer e extraíram as palavras do título e do resumo dos artigos. Eles interpretaram os resultados identificando as palavras-chave mais relevantes no mapa de densidade.
Contudo, não foram identificados estudos similares à proposta deste artigo, que visa responder à seguinte questão: como identificar os tópicos emergentes de um tema de investigação? A partir de uma abordagem bibliométrica, para além de verificar a evolução das publicações de um tema de investigação, em um determinado período, pretende-se organizar os tópicos que estruturam um tópico de pesquisa e especificamente revelar quais os assuntos emergentes que podem dar pistas para novas frentes de investigação.
2. Abordagem Proposta para Identificação de Tópicos Emergentes em uma Pesquisa Bibliográfica
Este trabalho tem o objetivo de apresentar uma abordagem, que se divide em duas etapas, para a identificação dos temas emergentes em uma pesquisa bibliográfica. Na primeira etapa, buscar-se-á verificar o grau de evolução das publicações sobre um determinado tema usando a curva logística. Na segunda etapa, o foco é identificar os tópicos emergentes a partir da análise de coocorrência de palavras-chave.
A primeira etapa da proposta seguirá os seguintes passos:
1. realizar pesquisa bibliográfica definindo uma expressão de busca que atenda o foco da investigação;
2. salvar os metadados em formato CSV, se a pesquisa for realizada na base Scopus, ou TXT, para a base Web of Science;
3. Elaborar uma tabela com 3 colunas: ano de publicação, número de documentos, crescimento cumulativo;
4. Gerar um gráfico1 com a série histórica das publicações e estimar a previsão de saturação das publicações;
5. Interpretar os resultados e identificar o estado atual da evolução do tema.
A segunda etapa seguirá os seguintes passos:
1. Realizar pesquisa bibliográfica definindo uma expressão de busca que atenda o foco da investigação;
2. Salvar os metadados em formato CSV, se a pesquisa for realizada na base Scopus, ou TXT, para a base Web of Science;
3. Importar os metadados pelo software VOSviewer (Van Eck & Waltman, 2021):
- Escolher a unidade de análise palavras-chave dos autores e o tipo de análise coocorrência;
- No número de ocorrência de uma palavra-chave, selecionar o valor 12;
- Gerar a rede de coocorrência de palavras-chave;
- Construir o tesauros para o controle do vocabulário;
- Gerar a rede de coocorrência de palavras-chave com o tesauros e salvar a rede em formato GML;
4. Importar a rede no software Gephi (Bastian, Heymann, & Jacomy, 2009) e calcular as métricas de análise de redes - grau médio, classes de modularidade e centralidade de autovetor;
5. No Laboratório de Dados do Gephi identificar as palavras-chave com a maior centralidade de autovetor, ordene decrescente a respectiva coluna e identifique os nós com os maiores valores e o ano médio de ocorrência;
6. Para identificar os tópicos emergentes, ordene a coluna “score<avg._pub_year>” do mais recente para o mais antigo. Selecione as palavras-chave do ano mais recente para identificar os tópicos emergentes;
7. Em seguida, segue uma etapa de interpretação dos resultados com o retorno à base para novas consultas utilizando as palavras-chave selecionadas como tópicos emergentes do tema em análise;
8. Um passo opcional, pode ser a visualização do espaço conceitual dos tópicos emergente. Para isso, a lista de nós e de arestas deve ser exportada para uma planilha, que será lida pelo software yEd (yWorks, 2021), que é um software livre para a edição de grafos. O espaço conceitual permitirá a interpretação dos conceitos relacionados ao tópico escolhido.
No próximo item serão apresentados dois exemplos de cada uma das etapas da abordagem proposta.
3. Exemplo de Aplicação da Abordagem Proposta
A pesquisa bibliográfica foi realizada na base Scopus utilizando a expressão de busca - education AND “learning assessment”, que retornou 3114 documentos publicados no período de 1967 a 2021. Neste resultado foram incluídos apenas os artigos publicados em periódicos, conferências e os do tipo revisão. Os metadados foram salvos no formato CSV. No próximo item será apresentada a evolução do tema e no seguinte, a identificação dos tópicos emergentes. Ambos os exemplos, utilizaram os dados desta pesquisa bibliográfica.
3.1 Evolução do Tema de Investigação
Para verificar o crescimento do tema foi utilizada a curva S. A lei do crescimento natural durante um período de tempo pode ser descrita através de períodos de nascimento, crescimento, maturidade, declínio e morte de qualquer sistema. Esse conjunto de períodos geralmente é chamado de ciclo de vida do sistema.
A "Curva S" é o termo genérico para qualquer uma das várias funções cumulativas de distribuição de probabilidade, que, quando representadas graficamente, parecem Ss inclinados. A curva começa plana e, em algum momento - no ponto de “decolagem” - a inclinação começa a aumentar a uma taxa crescente.
Em seguida, no ponto de inflexão, a inclinação começa a declinar a uma taxa crescente até ficar plana novamente, quando se aproxima do valor máximo da curva (Lezama-Nicolás, Rodríguez-Salvador, Río-Belver, & Bildosola, 2018).
Uma curva em forma de sino é geralmente aplicada como um modelo para representar a taxa de crescimento dentro de um período de tempo (Kucharavy & De Guio, 2011). O número cumulativo de "unidades" até qualquer ponto no tempo segue uma curva S, que se tornou um símbolo visual de crescimento cumulativo. A função matemática mais simples que produz este tipo de curva é chamada de logística. O significado essencial dessa função é: a taxa de crescimento é proporcional à quantidade de crescimento já realizada e à quantidade de crescimento restante a ser realizado.
A compreensão desse conceito permite obter um prognóstico prospectivo do crescimento de um determinado domínio temático. Assim, a quantidade acumulada de artigos publicados sobre um tema ao longo do tempo geralmente segue uma curva em formato de S. Esse padrão pode ser descrito em termos de regiões, que recebem diferentes denominações. Alguns autores identificam seis regiões, incluindo nascimento (na extrema esquerda) e morte (na extrema direita). Este estudo utiliza uma terminologia de quatro regiões de Chen, Chen e Lee (2010) e Ernst (1997). A primeira região, antes da decolagem, é chamada de emergente. A segunda região, de período de crescimento crescente, é a região de crescimento. O período de crescimento decrescente é a região de maturidade. O período final, quando a curva se torna plana em direção ao seu valor máximo, é chamado de região de saturação.
A Tabela 1 apresenta a distribuição do número de documentos por ano e o crescimento cumulativo do resultado da pesquisa na base Scopus. O resultado mostra que o tema está em crescimento.
Para estimar o restante da Curva S, foi realizada uma simulação no Loglet Lab (Burg, Schachter, Meyer, & Ausubel, 2017), observando-se que o tema começou a crescer por volta de 2010 e ainda está em ascensão, com o prognóstico de alcançar a saturação por volta de 2040.
3.2 Identificação dos Tópicos Emergentes
Os metadados dos resultados da pesquisa foram importados pelo VOSviewer. A rede de coocorrência de palavras-chave, incluindo o tesauro para o controle do vocabulário, com pelo menos 1 ocorrência e cada comunidade com pelo menos 200 nós, foi gerada. A rede possui 4201 nós, 12 comunidades e 12973 arestas.
A rede foi salva em formato GML e importada pelo Gephi. Após calcular as métricas da rede de coocorrência de palavras-chave, foi selecionado o Laboratório de Dados para a identificação das palavras-chave mais influentes na rede. A Tabela 2 apresenta a seleção das 15 palavras-chave com os maiores valores de centralidade de autovetor. O resultado mostra que as palavras-chave mais importantes são: higher education, e-learning e learning assessment.
Para identificar os tópicos emergentes, a tabela com os parâmetros da rede de coocorrência de palavras-chave, no Laboratório de Dados do Gephi, foi ordenada do nó mais recente para o mais antigo. A Tabela 3 apresenta o resultado para os tópicos emergentes. Todas as palavras-chave ocorreram em 2021 e possuem baixa influência na rede porque a centralidade de autovetor é muito baixa, além de poucas conexões com outros nós. É importante ressaltar que outros tópicos poderão ser identificados no ano de 2020.
Por exemplo, ao retornar à base Scopus e fazer uma pesquisa nos 3114 documentos com a palavra-chave reflection literacy, foi identificado apenas um artigo. Chan & Lee (2021) apresentaram uma revisão de literatura visando fornecer uma visão geral dos desafios de estimular a reflexão no ensino superior por meio de uma perspectiva multinível. Como resultado do estudo, elas propuseram um modelo multinível para coordenar esforços institucionais visando enfrentar os desafios da reflexão e sobre a qual um discurso compartilhado pode ser desenvolvido pelos principais interessados em promover a prática reflexiva no ensino superior.
Na nova consulta à base, pode ocorrer o retorno de um número maior de documentos. Nesse caso, deve-se verificar na opção “Keyword“ de filtros da base, a ocorrência da palavra-chave consultada. Por exemplo, utilizando a palavra-chave online collaborative learning, obtém-se 27 documentos. Ao filtrar na opção “Keyword”, ficam apenas 2 documentos, um de 2021 e outro de 2020. Zheng, Zhong, & Liu (2021) propuseram uma abordagem de feedback personalizado baseada em análises de aprendizagem e examinaram os efeitos da abordagem proposta na construção colaborativa de conhecimento. Wang, Wang, & Wu (2020) utilizaram a análise de redes epistêmicas de comportamentos interativos para avaliar a aprendizado de 131 estudantes em um ambiente de aprendizagem colaborativa online.
Por fim, a lista de nós e de arestas é exportada pelo Gephi, importada por uma planilha e lida pelo yEd. O software permite a seleção das 4.201 palavras-chave. Contudo, para sub-redes muito grandes, tipicamente maior do que 50 nós, não será possível a visualização. A Figura 2 apresenta a visualização dos conceitos relacionados com os tópicos emergentes knowledge retention e knowledge gain.
Em suma, a interpretação dos resultados dependerá da análise dos artigos recuperados pela expressão de busca contendo as palavras-chave emergentes.
4. Conclusões
Este artigo apresentou uma proposta de uma abordagem para a verificação da evolução de um tema de pesquisa e a identificação de tópicos emergentes. A abordagem se baseia numa pesquisa bibliográfica a partir da obtenção da curva S e da análise de redes de coocorrências de palavras-chave.
O exemplo apresentado partiu de uma pesquisa bibliográfica sobre a avaliação da aprendizagem. A primeira etapa mostrou como analisar a evolução de um campo de pesquisa utilizando a série histórica dos quantitativos de publicações anuais. Com base nos dados cumulativos destes quantitativos, pode-se verificar o estado atual e estimar quando haverá a saturação do tema.
A segunda etapa apresentou uma abordagem para identificar os tópicos emergentes a partir das palavras-chave mais recentes em uma rede de coocorrência de palavras-chave. O resultado mostrou que há necessidade de interpretar os resultados, porque algumas palavras-chave, apesar de serem recentes, podem não ser pertinentes ao campo investigado.
Como perspectivas futuras de pesquisa, sugere-se um aprofundamento na análise qualitativa dos artigos recuperados a partir das palavras-chave mais recentes para identificar as novidades. A utilização destas diversas ferramentas tem um elevado potencial para explorar a informação recolhida, de acordo com os objetivos da pesquisa e dando respostas estruturadas às questões de investigação.
Observando os resultados preliminares com elevado número de publicações é possível selecionar e delimitar os resultados escolhendo algumas das palavras-chave que façam mais sentido para o foco que se pretende obter.
Esta fase exploratória será mais produtiva quanto maior for o conhecimento sobre o tema, a competência para questionar os dados e a capacidade de explorar as ferramentas. Equipes de investigadores multidisciplinares, compostas por especialistas de diversas áreas e com experiência diversa, por certo irão obter resultados mais ricos e a sua interpretação e inferências irão permitir construir modelos conceptuais robustos.
A grande contribuição para a investigação qualitativa, foi disponibilizar um método para melhorar a precisão da recuperação de documentos de tópicos emergentes. O potencial de combinar métodos quantitativos e qualitativos pode trazer contribuições relevantes. A Outra contribuição é caracterizar o estado atual da evolução do tema pesquisado.