<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1645-9911</journal-id>
<journal-title><![CDATA[Tékhne - Revista de Estudos Politécnicos]]></journal-title>
<abbrev-journal-title><![CDATA[Tékhne]]></abbrev-journal-title>
<issn>1645-9911</issn>
<publisher>
<publisher-name><![CDATA[Instituto Politécnico do  Cávado e do Ave]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1645-99112009000200007</article-id>
<title-group>
<article-title xml:lang="pt"><![CDATA[Data Mining via Redes Neuronais Artificiais e Máquinas de Vectores de Suporte]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cruz]]></surname>
<given-names><![CDATA[Armando]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cortez]]></surname>
<given-names><![CDATA[Paulo]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Instituto Politécnico de Viseu Escola Superior de Tecnologia e Gestão de Lamego ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidade do Minho Departamento de Sistemas de Informação ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidade do Minho Centro Algoritmi ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2009</year>
</pub-date>
<numero>12</numero>
<fpage>99</fpage>
<lpage>118</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.pt/scielo.php?script=sci_arttext&amp;pid=S1645-99112009000200007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.pt/scielo.php?script=sci_abstract&amp;pid=S1645-99112009000200007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.pt/scielo.php?script=sci_pdf&amp;pid=S1645-99112009000200007&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="pt"><p><![CDATA[Este artigo pretende esclarecer quais as vantagens de dois modelos não lineares de Data Mining: as Redes Neuronais Artificiais (RNA) e as Máquinas de Vectores de Suporte (MVS). Em particular, pretende-se medir o desempenho destas técnicas quando aplicadas a tarefas de classificação e regressão, comparando-as com outras técnicas (i.e. Árvores de Decisão/Regressão). Assim, fez-se uma análise de ferramentas de software que implementam os modelos referidos, tendo-se escolhido duas aplicações de utilização livre (i.e. o ambiente R e o Weka) para conduzir as experiências efectuadas. Foram utilizados diversos problemas do mundo real, sendo que os resultados obtidos revelam que as MVS obtêm em geral melhores previsões, sendo seguidas pelas RNA.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[This paper pretends to infer about the advantages of two nonlinear Data Mining models: Artificial Neural Networks (ANN) and Support Vector Machines (SVM). In particular, the intention is to measure their performance when applied to classification and regression tasks, being compared with other techniques (i.e. Decision/Regression Trees). Thus, an analysis was performed over a wide range of software tools that implement the referred models. From this set, two open-source applications (i.e. R environment and Weka) where selected to conduct the experiments. Several real world problems where used as benchmarks. The results show that in general the SVM achieves better forecasts, followed by the ANN.]]></p></abstract>
<kwd-group>
<kwd lng="pt"><![CDATA[Descoberta de Conhecimento em Bases de Dados]]></kwd>
<kwd lng="pt"><![CDATA[Data Mining]]></kwd>
<kwd lng="pt"><![CDATA[Redes Neuronais Artificiais]]></kwd>
<kwd lng="pt"><![CDATA[Máquinas de Vectores de Suporte]]></kwd>
<kwd lng="pt"><![CDATA[Classificação]]></kwd>
<kwd lng="pt"><![CDATA[Regressão]]></kwd>
<kwd lng="en"><![CDATA[Knowledge Discovery from Databases]]></kwd>
<kwd lng="en"><![CDATA[Data Mining]]></kwd>
<kwd lng="en"><![CDATA[Artificial Neural Networks]]></kwd>
<kwd lng="en"><![CDATA[Support Vector Machines]]></kwd>
<kwd lng="en"><![CDATA[Classification]]></kwd>
<kwd lng="en"><![CDATA[Regression]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="center"><b><i>Data Mining</i> via Redes Neuronais Artificiais e Máquinas    de Vectores de Suporte</b></p>     <p align="center">Armando Cruz<a href="#a1">*</a>;Paulo Cortez<a href="#a2">**</a><a name="topa1"></a><a name="topa2"></a></p>     <p align="center"><a href="mailto:cruz.armando@clix.pt">cruz.armando@clix.pt</a>,    <a href="mailto:pcortez@dsi.uminho.pt">pcortez@dsi.uminho.pt</a></p>     <p align="center">(recebido em 7 de Novembro de 2008; aceite em 5 de Setembro    de 2009)</p>      <p>&nbsp;</p>     <p><b>Resumo.</b> Este artigo pretende esclarecer quais as vantagens de dois modelos    não lineares de Data Mining: as Redes Neuronais Artificiais (RNA) e as Máquinas    de Vectores de Suporte (MVS). Em particular, pretende-se medir o desempenho    destas técnicas quando aplicadas a tarefas de classificação e regressão, comparando-as    com outras técnicas (i.e. Árvores de Decisão/Regressão). Assim, fez-se uma análise    de ferramentas de software que implementam os modelos referidos, tendo-se escolhido    duas aplicações de utilização livre (i.e. o ambiente R e o Weka) para conduzir    as experiências efectuadas. Foram utilizados diversos problemas do mundo real,    sendo que os resultados obtidos revelam que as MVS obtêm em geral melhores previsões,    sendo seguidas pelas RNA.</p>      <p><b>Palavras-chave</b>: Descoberta de Conhecimento em Bases de Dados,  <i>Data    Mining</i>, Redes Neuronais Artificiais, Máquinas de Vectores de Suporte, Classificação,    Regressão.</p>     <p>&nbsp;</p>      <p><b>Abstract.</b> This paper pretends to infer about the advantages of two nonlinear Data Mining models: Artificial Neural Networks (ANN) and Support Vector Machines (SVM). In particular, the intention is to measure their performance when applied to classification and regression tasks, being compared with other techniques (i.e. Decision/Regression Trees). Thus, an analysis was performed over a wide range of software tools that implement the referred models. From this set, two open-source applications (i.e. R environment and Weka) where selected to conduct the experiments. Several real world problems where used as benchmarks. The results show that in general the SVM achieves better forecasts, followed by the ANN.</p>      <p><b>Keywords:</b> Knowledge Discovery from Databases, Data Mining, Artificial Neural Networks, Support Vector Machines, Classification, Regression.</p>      ]]></body>
<body><![CDATA[<p>&nbsp;</p>      <p>&nbsp;</p>      <p><b>1. Introdução</b></p>      <p>O interesse nas áreas da <b>Descoberta de Conhecimento em Bases de Dados (DCBD)</b> e de <b><i>Data Mining </i>(DM<i>)</i></b> emergiu devido aos avanços das Tecnologias de Informação e Comunicação (TIC), sendo que hoje em dia é fácil colectar, armazenar, processar e partilhar dados. Assim, tem-se assistido a um crescimento exponencial da quantidade de dados armazenados, sendo que muitos destes dados contêm informação valiosa (padrões ou tendências) que podem auxiliar a tomada de decisão (Turban et al., 2007). Este enorme volume e/ou complexidade de dados condiciona a extracção de conhecimento via técnicas estatísticas clássicas, bem como por seres humanos. Daí que a alternativa seja o uso de ferramentas de descoberta automática, ou de DM,  que permitem ultrapassar estas limitações, transformando dados em bruto em conhecimento de alto nível, de forma a auxiliar a tomada de decisão.</p>      <p>A DCBD pode ser definida como o processo de identificar padrões e/ou modelos, a partir de dados em bruto, que sejam novos, potencialmente úteis e compreensíveis (Fayyad et al., 1996). Trata-se de um processo interactivo e iterativo, no qual se distinguem etapas como: definição do domínio de aplicação; criação de um conjunto de dados alvo; limpeza e pré-processamento de dados; redução e projecção de dados; escolha e aplicação do método/algoritmo de DM mais adequado; interpretação dos padrões obtidos; e utilização e/ou documentação do conhecimento obtido. Assim, o DM refere-se à aplicação de algoritmos com vista à descoberta de padrões em dados já pré-processados, sendo que se estime que esta etapa ocupe só uma pequena parte (em termos de esforço) do processo de DCBD (10 a 15%). De referir que o termo DM é mais simples e sonante que DCBD, sendo que na prática ambos termos tendem a ser utilizados como sinónimos.</p>      <p>Existem diversos algoritmos de DM, cada um com as suas vantagens e desvantagens, sendo que a distinção é baseada em dois factores essenciais: a <b>estrutura de representação</b> (i.e. a forma do modelo) e o <b>método de optimização</b> (ou seja, como se ajustam os parâmetros internos do modelo aos dados). As <b>Redes Neuronais Artificiais (RNA)</b>, modelos conexionistas inspirados no funcionamento do cérebro humano, são uma técnica popular de DM, tendo sido utilizadas com ênfase crescente a partir de 1986, quando foi proposto o algoritmo de treino de retropropagação (Rumelhart et al., 1986). Por sua vez, as <b>Máquinas de Vectores de Suporte (MVS)</b><sup>[<a href="#1">1</a>]<a name="top1"></a></sup>, são mais recentes (Vapnik, 1995). Quer as RNA quer as MVS permitem efectuar uma modelação não linear de dados. Contudo, é apontada uma vantagem teórica às MVS em relação às RNA, pois existe uma garantia da obtenção de uma solução óptima. De facto, as MVS são consideradas um dos modelos de topo na área do DM (Wu et al., 2008).  </p>      <p>Pretende-se então, neste artigo esclarecer as vantagens e desvantagens das    RNA e MVS, quando aplicadas a tarefas de DM, comparando-as com outras técnicas    (e.g. Árvores de Decisão/Regressão). Em particular, será dado um maior destaque    à capacidade de previsão dos modelos.</p>     <p>&nbsp;</p>      <p><b>2. Análise de Ferramentas de <i>Data Mining</i></b></p>      <p><b>2.1 Perspectivas de Caracterização</b></p>      ]]></body>
<body><![CDATA[<p>No desenvolvimento de aplicações de <i>software</i> terão necessariamente que ser levados em consideração factores de decisão como o domínio da aplicação ou o âmbito da aplicação, a linguagem de programação a ser utilizada, a plataforma de sistema operativo em que funcionará, etc. Assim, as aplicações podem ser classificadas em diversas perspectivas, consoante as suas características técnicas e não só. Santos e Azevedo (2006) apontam várias possibilidades de caracterização. Começam por apontar a <b>linguagem de programação</b> a ser utilizada, e depois a <b>plataforma de sistema</b>, realçando que aplicações multi-plataforma são mais vantajosas. Também se pode caracterizar uma ferramenta pela sua: <b>escalabilidade</b>, <b>portabilidade</b>, <b>estado de desenvolvimento</b> e pela possibilidade de <b>integração</b> com outras aplicações. Para além destas características, são referidas ainda outras de natureza menos técnica como o <b>tipo de licenciamento</b> (<i>freeware</i>, <i>shareware</i>, <i>General Public Licence – <b>GNU</b></i>ou licença comercial), e o <b>tipo de aplicação</b>, distinguindo as aplicações de carácter académico (desenvolvidas com o intuito de investigação e criação de novas soluções e de protótipos), e as aplicações comerciais (mais orientadas para o suporte empresarial e a prestação de serviços). </p>      <p>Por sua vez, Goebel et al. (1999), apresentam um esquema de caracterização em três grupos: características gerais, conectividade a bases de dados e características de DM. O grupo <b>características gerais</b> contém factores tais como: o estado de desenvolvimento do produto; o tipo de licenciamento; a disponibilidade ou não de uma versão de demonstração (<i>Demo</i>); as arquitecturas suportadas (<i>stand alone</i>, <i>client/server</i> ou <i>parallel processing</i>); e os sistemas operativos para os quais a aplicação é disponibilizada. Na <b>conectividade a bases de dados</b> estão englobados: os formatos de dados reconhecidos pela aplicação; o tipo de conexão (<i>online, offline</i>), o número máximo de instâncias suportadas; o tipo de modelo de dados (relacional, orientado a objectos, em tabela); os tipos de atributos suportados (contínuos, discretos ou simbólicos); e os tipos de <i>queries</i>, característica esta relacionada com a interface (e.g. <i>Structered Query Language</i> - SQL, <i>Graphical User Interface</i> – GUI ou linguagem específica da aplicação). Finalmente, nas <b>características de DM</b>, incluem-se: as tarefas de descoberta, tais como pré-processamento, previsão, classificação, associação, segmentação, visualização e análise exploratória; a metodologia de descoberta, referindo-se às técnicas disponibilizadas (RNA, Árvores de Decisão/Regressão, etc.); e a interacção humana. Neste último factor, pretende-se medir qual o grau (maior ou menor) de necessidade de intervenção humana no processo (e.g. autónoma, guiada ou interactiva).</p>      <p>Mais recentemente, King (2004) definiu cinco categorias de características de <i>software</i> de DM: <b>capacidade</b>, que caracteriza e classifica o que uma ferramenta pode fazer; <b>facilidade de aprendizagem/utilização</b>; <b>interoperabilidade,</b> que caracteriza a possibilidade de integração com outras aplicações; <b>flexibilidade</b> para caracterizar as possibilidades de alteração de parâmetros críticos da ferramenta ao longo do processo; e a <b>precisão</b>.</p>      <p>Neste trabalho será utilizado uma caracterização semelhante à proposta por    Goebel et al. (1999), mas com algumas alterações. A primeira diz respeito ao    primeiro grupo, <b>características gerais</b>, ao qual será acrescentado o <i>site</i>    onde se pode encontrar a ferramenta. A segunda adaptação é no segundo grupo,    <b>conectividade a bases de dados</b>, que englobará apenas os formatos de dados    reconhecidos pela aplicação. A última alteração corresponde à divisão do último    grupo, <b>características de DM</b>, em dois grupos: <b>objectivos de DM</b>,    que engloba diversos tipos de tarefas que a ferramenta disponibiliza (e.g. classificação    ou regressão), e <b>técnicas de DM</b>, englobando os modelos de DM implementados.</p>     <p>&nbsp;</p>      <p><b>2.2 Ferramentas de <i>DM</i> mais utilizadas</b></p>      <p>Santos e Azevedo (2005) fazem a caracterização de uma série de ferramentas consideradas das mais utilizadas, embora neste estudo não seja referido um critério de selecção nem um suporte à sua escolha. Por outro lado, Goebel et al. (1999) não referem critérios de selecção, embora apresente diversos critérios de exclusão de ferramentas, tais como:</p>      <blockquote>        <p>&#183;&nbsp; funciona como servidor de informação para outras ferramentas de DM;</p>       <p>&#183;&nbsp; embora possua alguma possibilidade de ser usado para DM não foi desenvolvido      especificamente para tal (e.g. <i>Matlab</i>);</p>       ]]></body>
<body><![CDATA[<p>&#183;&nbsp; designado de DM, embora só sirva como ferramenta de visualização      (e.g. <i>Oracle Discoverer</i>); e</p>       <p>&#183;&nbsp; disponibilizado por companhias de consultadoria mas não constituindo      produtos de aplicação geral.</p> </blockquote>     <p>King (2004) reduz a selecção a catorze ferramentas por serem as que foram disponibilizadas    pelos fornecedores para a sua investigação e por usarem uma das seguintes técnicas:    Árvores de Decisão/Regressão, Indução de Regras, RNA ou Redes Polinomiais. </p>      <p>No sítio <u><a href="http://www.kdnuggets.com" target="_blank">www.kdnuggets.com</a></u><sup>[<a href="#2">2</a>]<a name="top2"></a></sup>    encontram-se os resultados de um inquérito alargado a utilizadores de DCBD<i>/</i>DM,    onde a questão principal era: “qual a ferramenta de <i>DM</i>/analítica que    utilizou em 2006?”<sup>[<a href="#3">3</a>]<a name="top3"></a></sup>. Embora    não tenha o rigor de um estudo estatístico (pode até ter sido adulterado por    companhias fornecedoras de <i>software</i>, e isso é reconhecido no portal),    foi considerado que seria interessante analisar os resultados obtidos (Figura    1), constatando-se que a maioria das ferramentas são referenciadas nos estudos    anteriores (e.g. <i>Clementine</i>). No entanto, existem diversas novas aplicações    (e.g. <i>Equbits</i>), não havendo, por isso, um consenso.</p>     <p>&nbsp;</p>     <p align="center"><b>Figura 1 – “Qual a ferramenta de DM/analítica que utilizou    em 2006?” (adaptado de www.kdnuggets.com).</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f1.jpg" width="634" height="407"></p>     
<p>&nbsp;</p>      <p><b>2.3 Critérios de Selecção das Ferramentas</b></p>      <p>Devido à falta de estudos com rigor científico sobre quais as ferramentas mais    utilizadas, optou-se por elaborar uma lista de todas as ferramentas conhecidas,    sem excepções, utilizando como referências: Santos e Azevedo (2005), Goebel    et al. (1999), King (2004),<a href="http://www.kdnuggets.com" target="_blank"> <u>www.kdnuggets.com</u></a>    e <u><a href="http://www.the-data-mine.com" target="_blank">www.the-data-mine.com</a></u>. Ao    todo, a lista contém um total de 159 ferramentas. Convém referir que este não    é um número inesperado dada a importância atribuída actualmente à área da DCBD/DM.</p>      ]]></body>
<body><![CDATA[<p> Como uma análise exaustiva de todas estas ferramentas se encontra fora do    âmbito deste trabalho, optou-se por excluir ferramentas que não tivessem ou    RNA ou MVS. Com este critério, a lista inicial foi reduzida para 36 ferramentas.    Estas ferramentas serão caracterizadas na próxima secção segundo a perspectiva    anteriormente referida.</p>     <p>&nbsp;</p>      <p><b>2.4 Caracterização das Ferramentas</b></p>      <p>Em seguida, é feita a caracterização das ferramentas seleccionadas recorrendo a tabelas e gráficos. Nas tabelas de caracterização de ferramentas (Tabelas 1 e 2), caracterizam-se as ferramentas seleccionadas para estudo segundo as <b>características gerais, o tipo de Sistema Operativo (Tipo de SO), e a conectividade a bases de dados</b>. As características gerais são as seguintes:</p>           <blockquote>        <p>&#183;<b>Versão:</b> final (F) ou beta (B);</p>       <p>&#183; <b>Licença:</b> comercial (C), <i>freeware</i> e <i>shareware</i>      (F) ou pública (P);</p>       <p>&#183; <b>Disponibilidade:</b> se é ou não disponibilizada uma versão de      demonstração (<i>Demo</i>) ou a ferramenta é totalmente operacional para <i>download</i>      (<i>Download</i>);</p>       <p>&#183; <b>Aplicação:</b> académica (A) ou comercial (C); e</p>       <p>&#183; <b>Arquitectura:</b> <i>Stand alone</i> (S), <i>Client/Server</i>      (C/S) ou Processamento Paralelo (PP).</p> </blockquote> </blockquote>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>    <p align="center"><b><a name="t1"></a><a href="#topt1">Tabela 1</a> – Caracterização    das ferramentas segundo as características gerais.</b></p>     <p align="center"><b><img src="/img/revistas/tek/n12/n12a07t1.jpg" width="649" height="1025"></b></p>     
<p align="center">&nbsp;</p>     <p align="center"><b>Tabela 2 – Caracterização das ferramentas segundo as técnicas    de DM.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t2.jpg" width="596" height="545"></p>      
<p>&nbsp;</p>      <p>A Tabela 1 classifica, também, as ferramentas segundo o sistema operativo suportado, podendo ser o <i>Windows</i>, <i>Unix</i> (inclui também o Linux), <i>Mac OS</i>, ou <i>Outro</i> (qualquer outra plataforma de suporte da ferramenta). Convém referir que não serão distinguidas as versões dos sistemas operativos. Esta tabela mostra ainda, a <b>conectividade a bases de dados</b> das ferramentas. O tipo <i>ASCII </i>inclui vários formatos próprios das ferramentas e ficheiros de dados separados por tabulações (<i>tab</i>) ou por vírgula (também conhecido por formato CSV). Os outros tipos correspondem aos mais representativos, havendo o tipo <i>Outros</i> que inclui formatos de bases de dados menos utilizados. Na Tabela 2 caracterizam-se as ferramentas segundo as técnicas de DM disponibilizadas pelas ferramentas. As RNA são classificadas em <i>Multilayer Perceptrons</i> (MLP), <i>Radial Basis Functions</i> (RBF), <i>Self Organizating Maps</i> (SOM) e uma classe (NN) que engloba outros tipos de redes neuronais e ferramentas cujo tipo de rede não é especificado. A caracterização das ferramentas engloba também as técnicas de MVS (SVM) e Árvores de Decisão/Regressão. Ainda na Tabela 2 especificam-se as ferramentas segundo os objectivos de DM implementados: <b>Classificação</b>, <b>Regressão</b>, <b>Previsão</b>, e <b>Segmentação</b>.</p>      <p>Por observação directa da Tabela 1 pode verificar-se que a maioria das ferramentas    é disponibilizada na versão final e numa versão <i>demo</i>, ou então, na versão    totalmente funcional para <i>download</i>. No que diz respeito ao tipo de licença,    verifica-se que a maioria é do tipo comercial (Figura 2).</p>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="center"><b>Figura 2  – Caracterização das ferramentas segundo o tipo    de licença.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f2.jpg" width="429" height="226"></p>     
<p>&nbsp;</p>     <p>Por observação da Figura 3 verifica-se que, embora as ferramentas de aplicação    exclusiva na área académica se destaquem, as ferramentas de aplicação exclusivamente    comercial e as ferramentas de aplicação mista estão em maioria. Também as ferramentas    do tipo <i>Stand alone</i> se salientam por figurarem em maior número (Figura    4).</p>     <p>&nbsp;</p>     <p align="center"><b>Figura 3  – Caracterização das ferramentas segundo a aplicação.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f3.jpg" width="423" height="191"></p>     
<p align="center">&nbsp;</p>     <p align="center"><b>Figura 4  – Caracterização das ferramentas segundo a arquitectura.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f4.jpg" width="393" height="210"></p>     
]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>A <a name="topt1"></a><a href="#t1">Tabela 1</a> mostra que o sistema operativo    que mais ferramentas suporta é o <i>Windows</i>, sendo que cerca de metade das    ferramentas suportam somente esta plataforma. Tal não é surpreendente uma vez    que o <i>Windows</i> domina claramente o mercado mundial dos sistemas operativos    de uso pessoal. Verifica-se pelo gráfico da Figura 5 que também o <i>Unix </i>e    o <i>Macintosh</i> são sistemas suportados em exclusivo por algumas ferramentas,    embora tenham pouca expressão.</p>     <p>&nbsp;</p>      <p align="center"><b>Figura 5  – Caracterização das ferramentas segundo o(s) sistema(s)    operativo(s) suportado(s).</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f5.jpg" width="407" height="196"></p>     
<p>&nbsp;</p>     <p>Na <a href="#t1">Tabela 1</a> mostra-se ainda a conectividade das ferramentas,    sendo esta tabela complementada pela Figura 6, onde se apresenta um gráfico    com a distribuição das ferramentas pelos vários tipos de conectividade a bases    de dados. Claramente o tipo mais comum é o <i>ASCII</i>, no entanto, os tipos    <i>ODBC</i>, <i>MY SQL</i> e <i>MS Excel</i> também têm expressão significativa.    No gráfico da Figura 7 pode-se ver a distribuição das ferramentas pelas diversas    técnicas que implementam. As RNA são as mais representadas, mas o número de    ferramentas que implementam apenas RNA é pouco superior ao número de ferramentas    que implementam apenas MVS. No gráfico da Figura 8 está patente a distribuição    dos vários tipos de RNA. Pode-se verificar que só há ferramentas a implementar    exclusivamente uma técnica na classe <i>NN</i> e <i>SOM</i>, mas como para a    classe <i>NN</i> não foi possível esclarecer o tipo de RNA implementado, fica    em aberto a possibilidade de haver algumas que implementem exclusivamente redes    do tipo <i>MLP</i> ou <i>RBF</i>. A Figura 9 apresenta um gráfico com a distribuição    das técnicas pelas ferramentas analisadas. Constata-se que as ferramentas que    implementam exclusivamente RNA ou MVS são quase metade. Além disso, as aplicações    que implementam RNA, MVS e Árvores de Decisão/Regressão (estando assim habilitadas    para fazer uma comparação proposta neste trabalho), não chegam a um quarto do    número total de ferramentas.</p>     <p>&nbsp;</p>          <p align="center"><b>Figura 6  – Conectividade das ferramentas.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f6.jpg" width="420" height="174"></p>     
]]></body>
<body><![CDATA[<p align="center"><b>&nbsp;</b></p>     <p align="center"><b>Figura 7  – Distribuição das ferramentas pelas várias técnicas    que implementam</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f7.jpg" width="480" height="185"></p>     
<p align="center">&nbsp;</p>     <p align="center"><b>Figura 8  – Distribuição das ferramentas pelos tipos de RNA    que implementam</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f8.jpg" width="477" height="182"></p>     
<p align="center">&nbsp;</p>     <p align="center"><b> Figura 9 – Distribuição das técnicas pelas ferramentas analisadas.         </b> </p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07f9.jpg" width="466" height="222"></p>       
<p><b>&nbsp;</b></p>       ]]></body>
<body><![CDATA[<p>Na Figura 10 apresenta-se a distribuição de ferramentas pelos vários objectivos.      Note-se que só a <b>classificação</b> tem ferramentas exclusivas.</p>       <p>&nbsp;</p>       <p align="center"><b>Figura 10  – Distribuição das ferramentas pelos objectivos    de DM  que implementam.</b></p>           <p align="center"><img src="/img/revistas/tek/n12/n12a07f10.jpg" width="353" height="190"></p>        
<p>&nbsp;</p>         <p><b>3. Experiências</b></p>        <p>Visto haver uma enorme oferta de ferramentas de DM, naturalmente tem que se    proceder a uma selecção de modo a tornar viável uma comparação de técnicas.    Os critérios de escolha da ferramenta passam pelo facto da mesma ter que implementar    RNA, MVS e Árvores aplicáveis à classificação e à regressão<sup><a href="#4">4</a><a name="top4"></a></sup>.    A escolha recai sobre as ferramentas R e WEKA. A ferramenta R tem uma interface    via linha de comandos (RCDT, 2008), enquanto que a ferramenta Weka (Witten e    Frank, 2005) utiliza um <b><i>Graphic User Interface </i>(GUI)</b>. Implementa    as técnicas das RNA, MVS e Árvores de Decisão/Regressão, podendo estas ser aplicadas    tanto à classificação como à regressão. Ambas têm uma licença não comercial    (<i>freeware</i>). </p>     <p>&nbsp;</p>      <p><b>3.1 Dados Utilizados</b></p>         <p>Os conjuntos de dados foram retirados do repositório UCI Asuncion e Newman,    2007). Neste repositório público, encontram-se cerca de uma centena de dados    disponibilizados por fontes governamentais e universidades (entre outras), para    serem utilizados livremente em investigação. De notar que este repositório tem    sido deveras utilizado, a nível mundial, pela comunidade da Aprendizagem Automática/DM    para testar algoritmos (Soares, 2003). Além disso, estes dados encontram-se    praticamente prontos para o processo de DM, isto é, necessitam de pouco trabalho    de pré-processamento. Na escolha dos 14 conjuntos de dados (<i>datasets</i>)    procurou-se escolher somente problemas que se adequassem à classificação ou    à regressão. Também existiu o cuidado de escolher dados com características    variadas, ou seja, com diferentes dimensões (entre menos de 200 instâncias até    mais de 2000 exemplos), passando por valores em falta e atributos variados.    Nos parágrafos seguintes estão descritos em pormenor os problemas que foram    utilizados nas experiências. Os primeiros sete destinam-se à classificação,    sendo que os restantes sete à regressão. Os problemas utilizados para classificação    estão resumidos na Tabela 3. Os atributos de entrada são descritos como numéricos    (num), binários (bin) e nominais (nom). Na tabela consta ainda, o número de    instâncias (Nº Inst.), e o método de validação utilizado (10-<i>fold Cross-validation</i>    –CV<sup>[<a href="#5">5</a>]<a name="top5"></a></sup>, ou <i>holdout Percentage    Split</i> – PS<sup>[<a href="#6">6</a><a name="top6"></a>]</sup>). A Tabela    4 resume os problemas de regressão, separando-os também segundo o método de    validação utilizado para a estimação do desempenho do algoritmo.</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>      <p align="center"><b>Tabela 3 – Sumário dos conjuntos de dados utilizados em classificação.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t3.jpg" width="571" height="291"></p>     
<p align="center">&nbsp;</p>     <p align="center"><b>Tabela 4 – Sumário dos conjuntos de dados utilizados em regressão.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t4.jpg" width="569" height="246"></p>     
<p>&nbsp;</p>     <p><b>3.2 Classificação/Regressão com RNA e MVS no Weka</b></p>      <p>A interface utilizada para as experiências foi o <i>Experimenter </i>já que    é possível escolher várias tarefas e técnicas a serem testadas numa única experiência.    As experiências foram efectuadas em quatro partes, duas para classificação e    duas para regressão. Em cada caso fez-se a separação segundo o método de validação    (i.e. uma parte com o 10-<i>fold Cross-validation</i> , e outra com o <i>holdout    Percentage Split</i>). Cada parte, ainda, foi repetida 20 vezes (<i>runs</i>).    A parametrização das técnicas utilizou os valores por omissão.</p>     <p>&nbsp;</p>      ]]></body>
<body><![CDATA[<p><b>3.3 Classificação/Regressão com RNA e MVS no ambiente</b> </p>      <p>Para a realização das experiências com o R, utilizaram-se os <i>packages nnet</i>, <i>e1071</i> e <i>tree</i>. As experiências foram divididas em quatro partes, tal como no WEKA. Também foram repetidas 20 vezes. E ainda, optou-se pela utilização da parametrização por omissão. No entanto, o <i>package</i> de RNA exige que o parâmetro <i>size</i> (número de neurónios intermédios do MLP) seja definido pelo utilizador. Idealmente, este parâmetro deveria ser escolhido através de uma selecção de modelos, onde se testariam diversos valores, escolhendo-se a rede que apresentasse o melhor valor num conjunto de validação. Tal procedimento resultaria em melhores resultados de previsão, contudo exige recursos computacionais mais elevados. Dado que o Weka utiliza por omissão um valor fixo de neurónios intermédios, e para ter uma comparação mais justa, aqui optou-se também pelo uso de valor fixo: 4 neurónios intermédios. Trata-se de um valor que permite criar uma RNA de reduzida dimensão e que, por isso, é menos propícia ao fenómeno de sobre ajustamento: i.e., perda de capacidade de generalização. Após algumas experiências preliminares, nos parâmetros <i>range</i> e <i>decay</i> foram utilizados os valores de 0,2 e 5E-4.</p>      <p>No R, a utilização das técnicas é feita à custa de linha de comandos, tal como    já foi dito. Assim, torna-se necessário criar código que faça a leitura dos    dados, implemente a forma de validação (<i>k-fold cross-validation</i> ou <i>percentage    split</i>), crie o modelo utilizando uma das técnicas, e faça o teste do modelo    e cálculo de uma métrica sobre os resultados do teste. Assim, foi desenvolvido    um código R, que implementa a validação <i>10-fold ou percentage split</i> de    66%, para as diversas técnicas utilizadas.</p>     <p>&nbsp;</p>      <p><b>4. Análise dos Resultados</b></p>      <p>As Tabelas 5 e 6 resumem os resultados obtidos (média e respectivo desvio padrão)    da aplicação das técnicas de DM em classificação e regressão. No primeiro caso,    foi utilizado como métrica de erro a <b>percentagem de instâncias correctamente    classificadas (PCC)</b>. Portanto, quanto maior for o valor do avaliador melhor    é a avaliação do modelo. Quanto à regressão, foi utilizada a medida <b><i>Root    Relative Squared Error </i>(RRSE)</b>, em percentagem (Witten e Frank, 2005).    Esta métrica compara o erro quadrático obtido pelo algoritmo com o erro obtido    pela previsão simples da média dos valores. Assim, quanto menor for o seu valor,    melhor será o algoritmo. Acrescenta-se também a Tabela 7, que apresenta por    técnica, o número de vezes que obteve o melhor resultado, o número de vezes    que obteve o segundo melhor resultado e o número de vezes que ficou em último    lugar. Para além disso, será utilizada uma análise comparativa adicional, onde    se traduz em pontuação os valores obtidos na Tabela 7, ou seja, admite-se que    o 1º lugar corresponde a três pontos, o 2º a dois e o 3º a um ponto. A Tabela    8 apresenta o correspondente <i>ranking</i>, onde se pode observar que as MVS    obtêm o primeiro lugar, seguidas das<i> </i>RNA e finalmente pelas Árvores de    Decisão/Regressão. </p>     <p>&nbsp;</p>     <p align="center"><b>Tabela 5 – Resumo dos resultados obtidos em classificação    (valores de PCC).</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t5.jpg" width="566" height="180"></p>     
<p align="center">&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="center"><b>Tabela 6 – Resumo dos resultados obtidos em regressão (valores    de RRSE).</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t6.jpg" width="567" height="180"></p>     
<p align="center">&nbsp;</p>     <p align="center"><b>Tabela 7 – Ranking das técnicas.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t7.jpg" width="569" height="111"></p>     
<p align="center">&nbsp;</p>     <p align="center"><b>Tabela 8 – Ranking por pontuação.</b></p>     <p align="center"><img src="/img/revistas/tek/n12/n12a07t8.jpg" width="437" height="86"></p>     
<p align="center">&nbsp;</p>         <p >De realçar que para o mesmo algoritmo (e.g. MVS) existem por vezes diferenças entre o desempenho obtido com as ferramentas Weka e R (Tabelas 5 e 6). Tais diferenças são explicadas por duas razões. A primeira tem a ver com o facto que embora se tratem dos mesmos modelos (i.e. RNA, MVS, Árvores), cada ferramenta tem a sua própria implementação ao nível dos algoritmos de aprendizagem. Assim, é possível por exemplo que o algoritmo de árvores utilizado pelo R é baseado no CART, enquanto que o Weka utiliza o algoritmo C4.5. A segunda razão, tem a ver com a parametrização dos algoritmos. Cada modelo tem um conjunto de parâmetros (e.g. neurónios intermédios da RNA) que afectam o desempenho final, sendo que cada ferramenta tem heurísticas/procedimentos distintos para atribuir valores a esses parâmetros.</p>      ]]></body>
<body><![CDATA[<p>Para cada algoritmo, também foi medido o esforço computacional, em termos de    tempo de execução exigido pelo processador. Em termos médios e para ambas as    ferramentas analisadas, as árvores apresentam-se como a técnica de aprendizagem    mais rápida (0.1 segundos). De seguida surgem as MVS, exigindo um maior esforço    computacional (8.5 segundos), sendo que em último lugar surgem as RNA (54 segundos).    De facto, estas últimas revelaram uma elevada exigência computacional, especialmente    para conjuntos de dados de elevada dimensão.</p>         <p>&nbsp;</p>          <p><b>5. Conclusão</b></p>      <p>Pretendeu-se avaliar qual a qualidade, em termos de previsão, obtida por duas técnicas não lineares, as RNA e MVS, comparando-as com Árvores de Decisão/Regressão. Estas técnicas contêm diversos parâmetros, bem como variações do algoritmo de procura do modelo óptimo, que afectam o seu desempenho final, sendo que existem diversas implementações conforme o tipo de ferramenta que se utiliza. Por exemplo, a aplicação Weka contém vários algoritmos que implementam RNA ou Árvores de Decisão/Regressão. Ora, o utilizador comum (não especializado), terá dificuldades em tomar escolhas, tendendo a aceitar os parâmetros/algoritmos sugeridos por estas ferramentas. Contudo, existem largas dezenas de ferramentas de DM, sendo que cada uma apresenta um conjunto distinto de técnicas. Optou-se somente por, numa primeira fase, efectuar uma análise geral às ferramentas que disponibilizam RNA ou MVS, constatando-se que actualmente existem pelo menos 36 ferramentas com estas características. Este elevado número é um bom indicador de que há um elevado interesse no uso de RNA e MVS em aplicações de DM. </p>      <p>Para além desta análise geral, também se efectuaram um conjunto de experiências, tendo-se utilizado duas ferramentas: o Weka e o R. Os resultados obtidos em diversos problemas do mundo real, revelam as MVS como a melhor técnica de DM em previsão, sendo que as Árvores de Classificação/Regressão obtêm os piores resultados. No entanto, a melhoria das MVS é conseguida à custa de um maior esforço computacional, quando comparadas com as Árvores de Decisão/Regressão. Tal facto é deveras relevante, principalmente quando o domínio de aplicação der origem quantidades de dados de elevada dimensão. </p>      <p>Há que referir que os resultados foram obtidos com as técnicas configuradas com os valores de omissão e por isso não requerendo conhecimentos especializados por parte do utilizador. Tal facto contradiz de certo modo o argumento de que as RNA e/ou MVS são de difícil utilização. De modo algo surpreendente, os resultados obtidos também contradizem a necessidade de selecção de modelos e noção que o desempenho das RNA e MVS é mais sensível a uma correcta escolha dos seus hiper-parâmetros (e.g. número de nós internos da RNA ou parâmetros do kernel da MVS), do que no caso das Árvores de Decisão/Regressão. Contudo, há que realçar que uma cuidada selecção de modelos (não efectuada neste estudo) iria, de modo muito provável, produzir ainda melhores desempenhos para as RNA e MVS.</p>      <p>Este estudo foi iniciado em 2007, sendo que por isso não inclui ferramentas recentes que na altura não estavam disponíveis, como o ambiente de <i>open source</i> RapidMiner (RME, 2009). Contudo, há que referir que ambas as ferramentas testadas (Weka e R) continuam a ser populares hoje em dia, conforme pode ser verificado pelos inquéritos recentes do portal KDnuggets (2008) e da Rexer Analytics (2008). Importa também referir que existem outras limitações, nomeadamente: </p>      <blockquote>        <p>&#183; Testaram-se apenas 7 problemas de classificação e 7 tarefas de regressão,      não existindo garantias que estes problemas, embora variados, correspondam      ao que se espere encontrar no mundo real;</p>       <p>&#183; Foram utilizados os conjuntos de dados originais conforme disponibilizados      no repositório UCI, ou seja, já pré-processados, não existindo preocupações      com as fases de pré-processamento (e.g. selecção de dados, transformação de      variáveis, substituição de valores omissos);</p>       ]]></body>
<body><![CDATA[<p>&#183; Foram somente analisadas duas métricas de avaliação das técnicas:      a capacidade de previsão e o tempo. Não foram analisados outras dimensões      como: facilidade de compreensão dos modelos, ou a novidade e utilidade do      conhecimento adquirido.</p> </blockquote>     <p>Em termos de trabalho futuro, tencionamos abordar diversas destas limitações,    tais como a análise da ferramenta RapidMiner ou a elaboração de um inquérito    com rigor estatístico sobre a opinião de utilizadores comuns acerca das ferramentas    de DM mais utilizadas.</p>     <p>&nbsp;</p>      <p><b>Agradecimentos</b></p>      <p>Este trabalho foi suportado pelo projecto FCT </p>     <p>&nbsp;</p>     <p><b>Referências</b></p>      <p>Asuncion, A. and Newman, D. (2007). UCI Machine Learning Repository, University of California, Irvine, School of Information and Computer Sciences, <a href="http://archive.ics.uci.edu/ml/" target="_blank">http://archive.ics.uci.edu/ml/</a>.</p>      <p>Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, S., and Uthurusamy, R. (1996). Advances in Knowledge Discovery and Data Mining, MIT Press.</p>      <!-- ref --><p>Goebel M. and Gruenwald L. (1999). A Survey of Data Mining and Knowledge Discovery Software Tools, ACM SIGKDD Explorations Newsletter, 1(1):20-33, ACM.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000152&pid=S1645-9911200900020000700001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><p>KDnuggets (2008). KDnuggets: Polls: Data Mining Software, <a href="http://www.kdnuggets.com/polls/2008/data-mining-software-tools-used.htm" target="_blank">http://www.kdnuggets.com/polls/2008/data-mining-software-tools-used.htm</a>, May.</p>      <p>King, D. (2004). Numerical Machine Learning, Technical Report CS 4803B, Georgia Technology College of Computing.</p>      <p>R Development Core Team (2008), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, <a href="http://www.r-project.org/" target="_blank">http://www.R-project.org</a>, ISBN: 3-900051-07-0.</p>      <p>Rexer, K. (2008). Second Annual Data Miner Survey, Rexer Analytics.</p>      <p>Rumelhart, D., Hinton, G., Williams, R. (1986). Learning Internal Representations by Error Propagation, In Rulmelhart and McClelland (Eds.), Parallel Distributed Processing: Explorations in the  Microstructures of Cognition, MIT Press, Cambridge MA, pp. 318-362.</p>      <p>Santos, M. F. e Azevedo, C. (2005).  Data Mining, Descoberta de Conhecimento em Bases de Dados, FCA – Editora de Informática.</p>      <p>Soares, C. (2003), Is the UCI Repository Useful for Data Mining?, In F. Pires and S. Abreu (Eds.), Progress in Artificial Intelligence, 11th Portuguese Conference on Artificial Intelligence, Lecture Notes in Artificial Intelligence 2902, pp 209-223.</p>      <p>Turban, E., Sharda, R., Aronson, J., King, D (2007). Business Intelligence – A managerial approach, Pearson Prentice-Hall, NY, USA.</p>      <p>Vapnik V. (1995). The Nature of Statistical Learning Theory, Springer-Verlag, New York.</p>      <p>Witten, I. and Frank, E. (2005), Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, 2nd Ed., San Francisco, CA, Morgan Kaufmann.</p>      ]]></body>
<body><![CDATA[<p>Wu, X., Kumar, V., Ross, Quinlan, J., Gosh, J., Yang, Q., Motoda, H., MacLachlan, G., Ng, A., Liu, B., Yu, P., Zhou, Z., Steinbach, M., Hand, D., Steinberg, D. (2008). Top 10 algorithms in data mining, Knowledge Information Systems, 14:1-37.</p>      <p>RapidMiner Enterprise (2009). RapidMiner Community Edition, <a href="http://rapid-i.com/" target="_blank">http://rapid-i.com/</a></p>      <p>&nbsp;</p>     <p><b>Notas</b></p>     <p><sup>[<a href="#top1">1</a>]<a name="1"></a></sup> Do inglês <i>Support Vector    Machines (SVM)</i>.</p>     <p><sup>[<a href="#top2">2</a>]<a name="2"></a></sup>Trata-se de um portal que    agrega informação a nível mundial relacionada com a DCBD/DM, incluindo software,    casos de estudo, notícias, sondagens, etc.</p>     <p><sup>[<a href="#top3">3</a>]<a name="3"></a></sup> Este estudo foi iniciado    em 2007, sendo que nessa altura somente estava disponível o inquérito de 2006.</p>     <p><sup>[<a href="#top4">4</a>]<a name="4"></a></sup> Aqui a preocupação era escolher    um algoritmo de DM que fosse popular para ter uma base de comparação com as    RNA e MVS. Embora pudessem ter sido escolhido outros algoritmos (e.g. k-nearest    neighbor), neste estudo escolheram-se as árvores de decisão/regressão, dado    que são actualmente muito utilizadas (Rexer 2008).</p>     <p><sup><a name="5"></a>[<a href="#top5">5</a>]</sup> Validação cruzada com 10    desdobramentos. Este método é mais lento do que a divisão em casos de treino/teste,    pelo que será utilizado somente nos conjuntos de dados de menor dimensão.</p>     <p><sup><a name="6"></a>[<a href="#top6">6</a>]</sup> Separação simples em casos    de treino (66%) e teste (33%), com amostragem aleatória.</p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>          <p><b>Notas Curriculares</b></p>      <p><b><a name="a1"></a><a href="#topa1">*</a>Armando Cruz</b>, Licenciado em Engenharia    Electrotécnica pela Universidade de Trás-os-Montes e Alto Douro, Mestre em Sistemas    de Informação pela Universidade do Minho. É assistente no Instituto Politécnico    de Viseu, Escola Superior de Tecnologia e Gestão de Lamego, desde 2001. </p>      <p><b><a name="a2"></a><a href="#topa2">**</a>Paulo Cortez</b> (PhD) é Professor    Auxiliar do Departamento de Sistemas de Informação e investigador integrado    do centro Algoritmi, Universidade do Minho, onde desenvolve actividades de investigação    nas áreas do Business Intelligence, Data Mining e Inteligência Artificial. Actualmente    é editor associado da revista científica Neural Processing Letters, tendo também    participado em 7 projectos de I&amp;D (dos quais foi líder em 2).  Tem dezenas    de publicações, incluindo artigos nas revistas Journal of Heuristics, Neurocomputing    e Decision Support Systems (ver <a href="http://www3.dsi.uminho.pt/pcortez" target="_blank">http://www3.dsi.uminho.pt/pcortez</a>).</p>       ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Goebel]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Gruenwald]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Survey of Data Mining and Knowledge Discovery Software Tools]]></article-title>
<source><![CDATA[ACM SIGKDD Explorations Newsletter]]></source>
<year>1999</year>
<volume>1</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>20-33</page-range><publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
