1. Introdução
O mapeamento científico tem uma longa tradição que começou com o trabalho de Small (1973) e de outros como Marshakova (1973) e Kessler (1963). Desde então, vários métodos foram propostos, como a análise de citações de periódicos, a análise de cocitações, o acoplamento bibliométrico e a análise de coocorrência de palavras. Com base na coocorrência de pares de palavras, este tipo de análise busca extrair os temas da ciência e detectar as suas relações diretamente com o conteúdo dos textos.
Um estudo de Ding, Chowdhury & Foo (2001) mostrou a viabilidade da análise de coocorrência de palavras como uma abordagem eficaz para extrair padrões e identificar tendências em grandes corpora onde os textos coletados são do mesmo domínio ou subdomínio e são divididos em quantidades aproximadamente equivalentes para diferentes períodos.
Besselaar & Heimeriks (2006) propuseram um método em que as palavras do título são utilizadas como indicadores do conteúdo de um tópico de pesquisa e as referências citadas como o contexto no qual as palavras obtêm seu significado. Esse método apresenta várias vantagens, como alta cobertura de publicações.
Ravikumar, Agrahari & Singh (2015) estudaram 959 artigos em texto completo para explorar a estrutura intelectual da cienciometria, no período de 2005-2010, usando mineração de textos e análise de coocorrência de palavras. As tendências e padrões da cienciometria, na revista Scientometrics, foram revelados medindo-se a força de associação de palavras-chave selecionadas que representam os conceitos e ideias produzidos no campo da cienciometria.
A análise de coocorrência de palavras (Callon, Courtial, Turner, & Bauin, 1983) é uma técnica de análise de conteúdo que usa as palavras em documentos para estabelecer relações e construir uma estrutura conceitual do domínio. A ideia subjacente ao método é que, quando as palavras frequentemente coocorrem em documentos, isso significa que os conceitos por trás dessas palavras estão intimamente relacionados. É o único método que utiliza o conteúdo real dos documentos para construir uma medida de similaridade, enquanto os demais conectam os documentos indiretamente por meio de citações ou coautorias.
O resultado da análise de coocorrência de palavras é uma rede de temas e suas relações que representam o espaço conceitual de um campo. Este mapa semântico ajuda a entender sua estrutura cognitiva (Börner, Chen, & Boyack, 2003). Uma série de mapas produzidos para diferentes períodos de tempo pode rastrear as mudanças neste espaço conceitual (Coulter, Monarch, & Konda, 1998). A análise de coocorrência de palavras pode ser aplicada a títulos de documentos, palavras-chave, resumos ou textos completos. A unidade de análise é um conceito, não um documento, autor ou periódico.
Diferentes maneiras de realizar análises bibliométricas têm sido propostas usando as métricas, layouts e recursos de visualização de análise de redes (AR). As métricas de AR nos permitem categorizar as redes bibliométricas. Em relação à topologia, Gan & Wang (2015) e Choi, Yi & Lee (2011) observaram que as redes de coocorrência de palavras-chave seguem uma distribuição de lei de potência ou Lei de Zipf. Assim, as redes que se enquadram na suposição de vinculação preferencial não têm escala, ou seja, novos nós tenderão a se conectar preferencialmente com aqueles altamente conectados. Assim, as palavras-chave altamente frequentes são mais prováveis de serem usadas junto com aquelas que foram recém-introduzidas.
Wood & Khan (2015) e Khan & Wood (2015) usaram diferentes medidas, tais como centralidades de grau, de intermediação e de autovetor em redes de coocorrência de palavras, ao analisarem artigos que tratam de negociações comerciais internacionais e domínios de gestão de tecnologia da informação, respectivamente. Lee et al. (2018) usaram as palavras-chave com alta centralidade para mostrar a estrutura geral da exploração espacial humana. Zhao, Mao, & Lu (2018) classificaram as palavras-chave com base em várias métricas de nós em redes de coocorrência de palavras de três disciplinas diferentes e estabeleceram a frequência das palavras-chave como um método eficaz para identificar temas importantes.
Mais recentemente, Luo, Dai, & Huang (2021) recuperaram 979 documentos no campo da visualização de informações do patrimônio cultural, entre 2000 e 2020, na base Web Of Science. Com as palavras-chave, como unidade de análise, e coocorrência, como tipo de análise, eles identificaram os tópicos de pesquisa com maiores destaques e os caminhos de evolução em diferentes períodos.
Em suma, a análise de coocorrência de palavras estuda as relações entre as palavras-chave usadas para revelar a estrutura e o desenvolvimento de cada área do conhecimento, pesquisa ou metodologia particular. Contudo não foram identificadas aplicações de análise de redes de coocorrência de palavras para o refinamento de pesquisas bibliográficas. Portanto, a questão de pesquisa explorada neste trabalho é: como usar a análise de redes de coocorrência de palavras-chave para refinar a pesquisa bibliográfica sobre um tema?
2. A proposta de Abordagem para Refinamento da Pesquisa Bibliográfica
Este trabalho tem como objetivo apresentar uma análise de coocorrência de palavras-chave para refinar a pesquisa bibliográfica de um tema. Para isso, está sendo proposta uma abordagem para alcançar este objetivo.
A abordagem proposta segue as seguintes etapas:
1. Realizar pesquisa bibliográfica definindo uma expressão de busca que atenda o foco da pesquisa;
2. Salvar os metadados em formato CSV, se a pesquisa for realizada na base Scopus, ou TXT, para a base Web of Science;
3. Importar os metadados pelo software VOSviewer (Van Eck & Waltman, 2021):
- Escolher a unidade de análise palavras-chave dos autores e o tipo de análise coocorrência;
- No mínimo de ocorrência de uma palavra-chave, selecionar uma quantidade que obtenha uma rede com mais de 1.000 palavras-chave1;
- Gerar a rede de coocorrência de palavras-chave;
- Construir o tesauro para o controle do vocabulário;
- Gerar a rede de coocorrência de palavras-chave com o tesauro; salvar a rede em formato GML;
4. Importar a rede no software Gephi (Bastian, Heymann, & Jacomy, 2009) e calcular as métricas de análise de redes - grau médio, classes de modularidade e centralidade de autovetor;
5. No Laboratório de Dados do Gephi selecionar a opção de arestas. A análise das arestas (pares de palavras-chave) indicará a combinação de termos para construir a expressão de busca para a nova pesquisa bibliográfica, que poderá ter as seguintes alternativas:
- Analisar os resultados das arestas com maiores pesos, que irão incluir as palavras-chave com maior grau na rede, e escolher os pares de palavras-chave pertinentes ao refinamento desejado2. Contudo, a construção da expressão de busca deve considerar o tema central da pesquisa. Caso o par de palavras-chave não inclua a expressão de busca que deu origem à pesquisa, esta deverá ser incluída com um conector AND;
- Escolher um conceito representado por uma palavra-chave e selecionar os pares de arestas que atendam refinamento desejado3;
6. Após a definição da alternativa acima, será construída uma nova expressão de busca combinando as palavras-chave de uma aresta com o operador lógico AND. Esta etapa será executada de forma recursiva, onde a nova expressão de busca será consultada na base bibliográfica e identificada a quantidade de documentos recuperados. Cada novo par de palavras-chave será combinado usando o operador lógico OR, conforme mostrado na Tabela 1 4 e consultado na base de pesquisa bibliográfica. A pesquisa poderá ser encerrada quando a quantidade de documentos recuperada alcançar a saturação, ou seja, o acréscimo de documentos for mínimo;
7. Após alcançar a saturação, os metadados da pesquisa bibliográfica serão salvos e importados pelo VOSviewer para gerar as redes desejadas e exportados em formato GML;
8. Importar o GML pelo Gephi, calcular as métricas de redes e extrair as informações necessárias à interpretação dos resultados.
No próximo item será apresentado um exemplo da abordagem proposta.
3. Exemplo de Aplicação da Abordagem Proposta
A pesquisa bibliográfica foi realizada na base Scopus utilizando a expressão de busca - “covid-19”, que retornou 80.264 documentos publicados do período de 2019 a 2021(fev). Neste resultado foram incluídos apenas os artigos publicados em periódicos, conferências e os do tipo revisão. Em seguida, fez-se um recorte na área de estudo das ciências sociais, que resultou em 10.965 documentos. Um segundo recorte foi realizado com a pesquisa do termo education, que resultou em 4.278 documentos.
Neste primeiro exemplo, foi escolhida a alternativa de analisar as arestas com os maiores pesos. Então, os metadados dos resultados da pesquisa foram salvos em formato CSV e importados pelo VOSviewer. A rede de coocorrência de palavras-chave, incluindo o tesauros para o controle do vocabulário, com pelo menos 2 ocorrências e cada comunidade com pelo menos 100 nós, foi gerada. Esta rede possui 1.770 nós, 6 comunidades e 10.319 arestas.
A rede foi salva em formato GML e importada pelo Gephi. Após calcular as métricas da rede de coocorrência de palavras-chave, foi selecionado o Laboratório de Dados e a opção de arestas. A Tabela 2 apresenta a seleção das 20 arestas com os maiores pesos. Como a rede é não direcionada, os nós de origem e destino não têm direção. Apenas representam as coocorrências das respectivas palavras-chave.
Em seguida, é construída a nova expressão de busca, que é apresentada na Tabela 3, para a pesquisa bibliográfica na base Scopus. Para a construção da nova expressão de busca, as arestas Nr 04, 09, 10, 12, 15, 18, 19 e 20 estão cobertas pela aresta 01. As arestas Nr 08, 13, 14, 16 e 17 serão cobertas pela expressão: covid-19 AND “distance learning/self instruction”. Como todos os pares de palavras-chave possuem o termo covid-19, inicialmente foi feita a pesquisa usando este termo, seleção dos tipos de documentos da consulta inicial e período de 2.019 a 2.021. Em seguida, foram incluídas as expressões de busca listadas na Tabela 3. O resultado alcançou a saturação na oitava iteração, com a recuperação de 4.244 documentos.
A construção da expressão de busca evidencia que o maior foco é na educação superior e nas modalidades de educação mediada pela tecnologia: educação a distância, aprendizado a distância, e-learning, educação on line, educação remota, ensino on line e auto-educação.
Os metadados da pesquisa foram salvos e lidos pelo VOSviewer. Foi gerada a rede de coocorrência de palavras-chave com o mínimo de 2 ocorrências, tesauros para o controle do vocabulário e cada cluster com o mínimo de 50 nós, resultando em 912 nós, 7 clusters e 4.703 arestas. A Figura 1 apresenta um mapa de densidade da rede de coocorrência de palavras-chave.
Como a palavra-chave covid-19 possui um grau alto, ela foi retirada para permitir a visualização de outros termos relevantes da pesquisa. Destacam-se as seguintes palavras-chave: higher education, distance education, online learning, distance learnimng/self-instruction, entre outras. A exploração da rede pode ser prosseguida com o cálculo das métricas de redes pelo Gephi e interpretação dos resultados.
A seguir, será mostrado um exemplo da segunda alternativa, onde a opção foi escolher um conceito representado por uma palavra-chave. Para este fim, foi escolhida a palavra-chave higher education, por ter grande influência nas duas redes apresentadas anteriormente. Como a rede é não direcionada, foram selecionadas 271 arestas contendo a palavra-chave escolhida, na origem ou no destino. Em seguida, foram selecionadas as 16 arestas com maiores pesos. A primeira aresta é o foco da pesquisa e definirá o subconjunto de referências que será a base do refinamento. Nesta seleção foram retiradas arestas contendo palavras isoladas ou relativas a disciplinas como: analytical chemistry, biochemistry, applications of chemistry, chemical engineering, attitude, aromatic compounds, etc. A Tabela 4 apresenta as 16 arestas com os maiores pesos.
Como o tema central da pesquisa é Covid-19 e os pares de palavras-chave possuem o termo higher education, foi feita a primeira consulta usando o termo covid-19, seleção dos tipos de documentos da consulta inicial e período de 2.019 a 2.021. A pesquisa resultou em 80.264 documentos. Em seguida, foi feito um recorte com a palavra-chave higher education, que resultou em 2768 documentos, mesmo resultado da Tabela 3.
Para o refinamento, foi construída uma nova expressão de busca à semelhança do que foi feito anteriormente. A Tabela 5 apresenta a construção da expressão de busca com a combinação das palavras-chave da tabela anterior. A pesquisa alcançou a saturação na décima quinta iteração, com a recuperação de 1523 documentos. Como a variação foi pequena, a pesquisa poderia ter sido encerrada na décima segunda iteração.
Pode-se observar que as palavras-chave e-learning, distance education, blended learning, ethics e educational technology apresentaram um aumento mais significativo no número de documentos recuperados na Tabela 5.
Os metadados dos 1.523 documentos resultantes da pesquisa foram salvos e lidos pelo VOSviewer. Foi gerada a rede de coocorrência de palavras-chave com o mínimo de 2 ocorrências, tesauros para o controle do vocabulário e cada cluster com o mínimo de 40 nós, resultando em 600 nós, 6 clusters e 3.337 arestas.
Os exemplos apresentados partiram de um tema atual que é a Covid-19 e analisou o espaço conceitual na área temática de Ciências Sociais, com um recorte em educação. Os exemplos revelaram que as modalidades de educação mediadas por tecnologia foram as mais relevantes. Como perspectivas futuras de pesquisa, sugere-se um aprofundamento na análise qualitativa dos artigos mais relevantes para identificar os aspectos que condicionaram estas opções e os respectivos resultados.
A Figura 2 apresenta um mapa de densidade da rede de coocorrência de palavras-chave. Como a palavra-chave covid-19 possui um grau alto, ela foi retirada para permitir a visualização de outros termos relevantes da pesquisa. Destacam-se as seguintes palavras-chave: higher education, distance education, online learning, e-learning, distance learnimng/self-instruction, entre outras. A exploração da rede pode ser prosseguida com o cálculo das métricas de redes pelo Gephi e interpretação dos resultados.
Os exemplos acima mostram caminhos possíveis para o refinamento de pesquisas bibliográficas. Outra possibilidade é a identificação de palavras-chave que podem delimitar um conceito. Por exemplo, a palavra-chave distance education pode compreender outros termos pertinentes ao conceito de educação a distância, tais como: online education, distance learning, online learning, distance learning/self-instruction, online teaching, distance teaching. Tudo dependerá da conceituação do tema e de sua delimitação para que o refinamento da pesquisa possa ser realizado com a análise das arestas de uma rede de coocorrência de palavras-chave.
4. Conclusões
Este artigo apresentou a proposta de uma abordagem para refinar uma pesquisa bibliográfica a partir da análise de uma rede de coocorrência de palavras-chave. Esta abordagem mostrou como identificar os pares de palavras-chave com maiores pesos na rede ou selecionar um determinado conceito e analisar as respetivas arestas.
Ao explorar um domínio temático, pode-se partir de uma pesquisa mais abrangente e empregar a rede de coocorrência de palavras-chave para identificar os conceitos relacionados pela análise dos nós e arestas. Ou seja, é uma alternativa e um complemento para estudos exploratórios sobre temas de pesquisa. A limitação inerente a termos selecionado só a base referencial Scopus pode ser ultrapassado por replicarmos este estudo exploratório para outras bases de dados como por exemplo WoS ou Scielo, para posteriormente observar as diferenças e semelhanças de modo a sintetizar uma visão geral sobre o tema em questão. Com os resultados obtidos, destes estudos a realizar no futuro, é possível apresentá-los a especialistas neste tema de modo a agregar valor a essa futura análise. Por outro lado será possível obter uma relevante e fulcral amostra de publicações que será objeto de análise de conteúdo que dará suporte a uma leitura crítica dessa literatura selecionada.