<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1646-9895</journal-id>
<journal-title><![CDATA[RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação]]></journal-title>
<abbrev-journal-title><![CDATA[RISTI]]></abbrev-journal-title>
<issn>1646-9895</issn>
<publisher>
<publisher-name><![CDATA[AISTI - Associação Ibérica de Sistemas e Tecnologias de Informação]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1646-98952019000400004</article-id>
<article-id pub-id-type="doi">10.17013/risti.34.29-43</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Descubrimiento de Conocimiento en Historias Clínicas mediante Minería de Texto]]></article-title>
<article-title xml:lang="en"><![CDATA[Knowledge Discovery in Medical Records through Text Mining]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Carrascal]]></surname>
<given-names><![CDATA[Ana Isabel Oviedo]]></given-names>
</name>
<xref ref-type="aff" rid="A1"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cotte]]></surname>
<given-names><![CDATA[David Sanguino]]></given-names>
</name>
<xref ref-type="aff" rid="A2"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Arango]]></surname>
<given-names><![CDATA[Natalia Andrea Restrepo]]></given-names>
</name>
<xref ref-type="aff" rid="A1"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Vélez]]></surname>
<given-names><![CDATA[Andrés Felipe Patiño]]></given-names>
</name>
<xref ref-type="aff" rid="A1"/>
</contrib>
</contrib-group>
<aff id="AA1">
<institution><![CDATA[,Universidad Pontificia Bolivariana  ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="AA2">
<institution><![CDATA[,Hospital San Vicente Fundación  ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>10</month>
<year>2019</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>10</month>
<year>2019</year>
</pub-date>
<numero>34</numero>
<fpage>29</fpage>
<lpage>43</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.pt/scielo.php?script=sci_arttext&amp;pid=S1646-98952019000400004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.pt/scielo.php?script=sci_abstract&amp;pid=S1646-98952019000400004&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.pt/scielo.php?script=sci_pdf&amp;pid=S1646-98952019000400004&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Las instituciones clínicas presentan una alta generación de datos no estructurados tanto en el registro de procedimientos en texto libre por parte del personal médico, como por las imágenes y videos generados por las ayudas diagnósticas. En este trabajo se plantea un proceso de descubrimiento de conocimiento en el texto no estructurado de las historias clínicas del área de traumatología del Hospital San Vicente Fundación mediante minería de texto. Para el estudio se aplicaron técnicas de preparación de texto como eliminación de palabras no relevantes, sustitución de términos, eliminación de acentos y derivación de palabras. Respecto a los procesos de minería se aplicaron técnicas de aprendizaje supervisado y no supervisado como árboles de decisión, regresión logística, k-vecinos más cercanos, clustering jerárquico y reglas de asociación. El resultado obtenido es la conformación de un modelo de las palabras más relevantes en los registros clínicos del Hospital en el área de traumatología.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The clinical institutions generate a large amount of unstructured databoth in the registration of procedures in free text by medical staff, and by the images and videos generated by diagnostic aids. This paper proposes a process of knowledge discovery in the unstructured text of the medical records of the trauma area of the San Vicente Foundation Hospital through text mining. Text preparation techniques were applied such as elimination of non-relevant words, substitution of terms, elimination of accents and derivation of words. Regarding mining processes, supervised and unsupervised learning techniques were applied such as decision trees, logistic regression, nearest k-neighbors, hierarchical clustering and association rules. The result obtained is the conformation of a model of the most relevant words in the clinical records of the Hospital in the area of traumatology.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Minería de texto]]></kwd>
<kwd lng="es"><![CDATA[minería de datos de la salud]]></kwd>
<kwd lng="es"><![CDATA[procesamiento del lenguaje natural]]></kwd>
<kwd lng="en"><![CDATA[Text mining]]></kwd>
<kwd lng="en"><![CDATA[health data mining]]></kwd>
<kwd lng="en"><![CDATA[natural language processing]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font size="2"><b>ART&Iacute;CULOS</b></font></p>     <p><font size="4"><b>Descubrimiento de Conocimiento en   Historias Clínicas mediante Minería de Texto</b></font></p>     <p><font size="3"><b>Knowledge Discovery in Medical Records through Text Mining </b></font></p>     <p><b>Ana Isabel Oviedo Carrascal<sup>1</sup>, David Sanguino Cotte<sup>2</sup>, Natalia Andrea Restrepo Arango<sup>1</sup>, Andrés Felipe Patiño Vélez<sup>1</sup></b></p>     <p><sup>1</sup> Universidad Pontificia Bolivariana, Circular 1 No. 70-01, 050031, Medellín, Colombia, <a href="mailto:ana.oviedo@upb.edu.co">ana.oviedo@upb.edu.co</a>, <a href="mailto:nataliaandrear@gmail.com">nataliaandrear@gmail.com</a>, <a href="mailto:patino.andres@gmail.com">patino.andres@gmail.com</a></p>     <p><sup>2</sup> Hospital San   Vicente Fundación, Calle 64 No. 51D-154, 050010, Medellín, Colombia, <a href="mailto:david.sanguino@sanvicentefundacion.com">david.sanguino@sanvicentefundacion.com</a></p> <hr/>     <p>&nbsp;</p>     <p><b>RESUMEN</b></p>     <p>Las instituciones clínicas    presentan una alta generación de datos no estructurados tanto en el    registro de procedimientos en texto libre por parte del personal médico,   como por las imágenes y videos generados por las ayudas diagnósticas. En este   trabajo se plantea un proceso de descubrimiento de conocimiento en el   texto no estructurado de las historias clínicas del área de traumatología del   Hospital San Vicente Fundación mediante minería de texto. Para el estudio se   aplicaron técnicas de preparación de texto como eliminación de palabras no   relevantes, sustitución de términos, eliminación de acentos y derivación de   palabras. Respecto a los procesos de minería se aplicaron técnicas de   aprendizaje supervisado y no supervisado como árboles de decisión, regresión   logística, k-vecinos más cercanos, clustering jerárquico y reglas de   asociación. El resultado obtenido es la conformación de un modelo de las palabras más relevantes   en los registros clínicos del Hospital en el área de traumatología.</p>      <p><b>Palabras-clave</b>: Minería de texto; minería de datos de la salud; procesamiento del lenguaje natural.</p> <hr/>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><b>ABSTRACT</b></p>     <p>The clinical institutions   generate a large amount of unstructured databoth in the registration of   procedures in free text by medical staff, and by the images and videos   generated by diagnostic aids. This paper proposes a process of knowledge   discovery in the unstructured text of the medical records of the trauma area of the San Vicente Foundation Hospital through text mining. Text preparation   techniques were applied such as elimination of non-relevant words,   substitution of terms, elimination of accents and derivation of words.   Regarding mining processes, supervised and unsupervised learning techniques   were applied such as decision trees, logistic regression, nearest k-neighbors,   hierarchical clustering and association rules. The result obtained is the   conformation of a model of the most relevant   words in the clinical records   of the Hospital in the area of traumatology.</p>      <p><b>Keywords: </b>Text mining; health data mining; natural language processing.</p> <hr/>     <p>&nbsp;</p>     <p><b>1.  Introducción</b></p>      <p>Análisis mundiales muestran que cerca del 80% de la información en las organizaciones se encuentra almacenada como datos no estructurados, los cuales requieren procesos de organización interna para la generación automática de conocimiento (Kharrazi et al., 2018). Entre los datos no estructurados se encuentra el texto libre, el cual requiere procesos avanzados de analítica y de procesamiento de lenguaje natural para descubrir conocimiento relevante.</p>      <p>La minería de texto puede  entenderse como un área interdisciplinaria utilizada para encontrar conocimiento útil a partir de documentos de texto no estructurado, mediante la aplicación de métodos que incluyen técnicas de procesamiento de lenguaje natural, recuperación de información, aprendizaje automático, estadística, lingüística computacional, además de aquellos métodos aplicados a la minería de datos convencional. La minería de texto es similar a la minería de datos en el sentido de que se hacen exploraciones en grandes cantidades de información para extraer nuevo conocimiento. La diferencia radica en que, mientras la minería de datos se enfoca en datos estructurados, la minería de texto se enfoca en datos no estructurados, por lo que se hace necesario el uso de técnicas adicionales que permitan un adecuado procesamiento de lenguaje natural (Sukanya &amp; Biruntha, 2012) (Otsuka &amp; Matsushita, 2012).</p>      <p>La minería de texto es aplicable a todos los procesos en los que se involucre el lenguaje escrito, lo cual abre las posibilidades a prácticamente todos los procesos humanos, como medicina, mercadeo, educación, idiomática, internet, etc. El caso de las instituciones clínicas en particular es de alta generación de datos no estructurados, debido a la naturaleza de los procesos que allí se tienen, puesto que el personal médico registra procedimientos mediante redacción de texto libre, además de las imágenes generadas por las ayudas diagnósticas. El conocimiento oculto en estos datos tiene un alto potencial para las instituciones clínicas respecto al mejoramiento de la calidad de sus servicios, que hoy en día se ven medidos en indicadores de gestión como índice de mortandad, días promedio de estancia de los pacientes y egresos por cama, entre otros (Hospital San Vicente Fundación, 2017).</p>      <p>La minería de texto ha sido ampliamente utilizada en la salud para el estudio de diferentes enfermedades. En (Kushima &amp; Nikama, 2012) se realizó un trabajo de minería de texto sobre los registros médicos realizados por enfermeras y doctores para los pacientes con hepatitis crónica en el Hospital Universitario de Miyazaki en Japón, con el propósito de explotar síntomas similares. En (Pereira &amp; Agostinho, 2013) se propone un proceso automático de clasificación para diagnósticos de epilepsia, mediante la aplicación de la técnica de k-vecinos más cercanos permitiendo mapear los códigos de las enfermedades de acuerdo al estándar preestablecido por ICD-9 (Clasificación Estadística Internacional de Enfermedades y Problemas Relacionados con la Salud). En (Vijayakrishnan &amp; Stewart, 2014) se encuentra una investigación en la que se aplica minería de texto para la detección temprana de las señales y síntomas de fallas cardíacas, dentro de pacientes participantes en programas de salud preventiva. En (Karystianis et al., 2015) se usaron 56 mil prescripciones de medicamentos para la atención primaria escritas en texto libre, las cuales fueron analizadas con reglas de diccionario y composición léxica que permitieron la estructuración de datos. En (Lucini et al., 2017) se aplican métodos de minería de texto para predecir futuras hospitalizaciones y altas utilizando registros médicos tempranos del departamento de emergencias. En (Judd, 2018) se analiza el texto de registros médicos electrónicos para definir las opciones de tratamiento para pacientes con dolor lumbar, usando la herramienta clínica cTAKES (<i>NLP Apache Clinical Text Analysis and Knowledge Extraction System</i>), el algoritmo de aprendizaje automático utiliza siete años de notas clínicas extraídas del médico de atención primaria para clasificar el patrón de dolor de espalda de 20 pacientes.</p>      ]]></body>
<body><![CDATA[<p>De la revisión de la literatura se   puede inferir que la minería de datos tiene un gran potencial para el   diagnóstico temprano de enfermedades, perfilamiento de pacientes, generación de   historia clínica, búsqueda de información y variables de interés en   investigación médica, entre otros (Oviedo &amp; Sánchez, 2017). Entre los retos   para el sector está el hecho que los datos médicos son complejos y difíciles de   analizar, por lo que se debe trabajar en estandarizar la terminología médica   para aplicar procesos de minería de textos que generen datos de alta calidad   para obtener resultados óptimos desde los procesos de minería (Sun et al., 2018).</p>      <p>Con el objetivo de aportar en el descubrimiento de conocimiento en historias clínicas, en este artículo se realiza un estudio de los registros clínicos de pacientes de traumatología del Hospital Universitario San Vicente Fundación mediante minería de texto, como apoyo al análisis de las palabras utilizadas en los diagnósticos del área.</p>      <p>El Hospital Universitario San Vicente Fundación es una de las principales instituciones hospitalarias de Colombia, siendo una institución privada sin ánimo de lucro que presta servicios de salud con énfasis en la atención del paciente de alta complejidad. La unidad de Urgencias Adultos es uno de los principales servicios que ofrece el Hospital a la comunidad, en el cual se brindan servicios de primeros auxilios, cirugía y unidad de cuidado intensivo. Esta unidad, es considerada como el primer centro de atención de trauma del país, siendo la principal puerta de entrada de los pacientes, con un 96% del total de los 85.000 pacientes que en promedio atiende el Hospital durante cada año. El 26% de los casos atendidos en urgencias se debe a trauma, área en la cual se centra el presente proyecto.</p>      <p>En el Hospital, el proceso de documentación de la historia clínica se realiza de dos maneras: una estructurada, en donde se almacenan los datos básicos del paciente, los tratamientos y procedimientos realizados, además de los medicamentos que recibe; otra no estructurada, donde se redacta de manera libre los acontecimientos médicos del paciente por cada ingreso al hospital, técnicamente cada ingreso recibe el nombre de &#8220;episodios&#8221;. La evolución médica de un episodio es consignada de forma transaccional, generando una serie de documentos por medio de texto libre donde se diligencian los campos: SUBJETIVO, OBJETIVO, ANÁLISIS Y PLAN. El campo SUBJETIVO almacena lo que dice el paciente, el campo OBJETIVO almacena lo que el médico encuentra en el paciente al examinarlo, el campo ANALISIS almacena lo que el médico piensa según su criterio y el campo PLAN almacena el tratamiento que debe seguir el paciente según el criterio del médico.</p>      <p>En el presente trabajo se desarrolla un modelo de palabras para el área de traumatología del Hospital San Vicente Fundación, analizando los campos SUBJETIVO, OBJETIVO, ANÁLISIS y PLAN de las historias clínicas mediante técnicas de minería de texto.</p>     <p><b>2.  Materiales y Métodos</b></p>      <p>En esta sección se describe la metodología CRISP-DM usada en el proceso de minería, se detallan los datos analizados y se presenta el diseño de los modelos analíticos desarrollados en este trabajo para el descubrimiento de conocimiento en historias clínicas del Hospital San Vicente Fundación.</p>        <p><b>2.1.  Metodología CRISP-DM para el proceso de minería de datos</b></p>      <p>CRISP-DM (<i>CRoss-Industry Standard Process for Data Mining</i>) es una metodología de circulación libre, destacada por su rigurosidad y completitud a través de 6 fases: entendimiento del negocio, entendimiento de los datos, preparación de los datos, modelado, evaluación y despliegue (Wirth &amp; Hipp, 2000).</p>      <p>El entendimiento del negocio se centra en la comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial, formalizando el objetivo de desarrollar un modelo de palabras para el área de traumatología del Hospital San Vicente Fundación, analizando las historias clínicas mediante técnicas de minería de texto. El entendimiento de los datos realiza una aproximación estadística de la información, realizando un perfilamiento de los campos analizados de las historias clínicas correspondientes al diagnóstico según el código CIE-10 y los campos de texto libre SUBJETIVO, OBJETIVO, ANÁLISIS y PLAN. La preparación de datos es una de las fases más importantes y con frecuencia es la que más tiempo requiere para realizar actividades como limpieza y transformación de los datos, que en este trabajo requiere la aplicación de técnicas de procesamiento de lenguaje natural. El modelado involucra la aplicación de técnicas de aprendizaje de máquinas que den solución al problema planteado. La evaluación utiliza métricas para determinar si los resultados del modelado cumplen los criterios de calidad esperados, requiriendo una comprensión de los objetivos del negocio. Finalmente, el despliegue consiste en utilizar los nuevos conocimientos generados para implementar acciones en la organización.</p>        ]]></body>
<body><![CDATA[<p><b>2.2. Datos analizados</b></p>      <p>Los datos analizados corresponden a 19.078 pacientes, 30.958 episodios, 174.474 documentos y 351.627 registros de traumatología en un año seleccionado por el Hospital. En la <a href="#t1">Tabla 1</a> se especifican los atributos seleccionados para el estudio de las historias clínicas de los pacientes de traumatología.</p>     <p>&nbsp;</p>    <p align="center"><a name="t1"></a><img src="/img/revistas/rist/n34/n34a04t1.jpg"/></p>    
<p>&nbsp;</p>     <p>El diagnóstico es la variable objetivo considerada en este estudio, ya que se plantea la creación de un modelo de palabras para cada código CIE-10. Los diagnósticos con mayor cantidad de registros asociados se presentan en la <a href="#t2">tabla 2</a>.</p>     <p>&nbsp;</p>    <p align="center"><a name="t2"></a><img src="/img/revistas/rist/n34/n34a04t2.jpg"/></p>    
<p>&nbsp;</p>     <p>Las variables de tipo texto fueron sometidas a un proceso de preparación conocido como &#8220;Bolsa de Palabras&#8221;, en el cual se crea un diccionario con todas las palabras disponibles en el conjunto de documentos y se representan por medio de una matriz de términos. Esta representación ignora el orden en el cual aparecen las palabras y sólo tienen en cuenta la frecuencia de aparición (Cummins et al., 2018).</p>      ]]></body>
<body><![CDATA[<p>En el enfoque de &#8220;Bolsa de Palabras&#8221; se aplica un proceso de limpieza a los campos tipo texto conformado por 7 pasos:</p>      <p>&#8226;  Eliminación de registros con campos nulos.</p>      <p>&#8226;  Eliminación de caracteres especiales (tabulaciones, caracteres no imprimibles), signos de puntuación, números y espacios múltiples.</p>      <p>&#8226;  Eliminación de artículos y preposiciones (stop words).</p>      <p>&#8226;  Sustitución de sinónimos y acrónimos, los cuales fueron extraídos con el apoyo del Manual de Normas y Procedimientos en Trauma (Martiniano, Restrepo, &amp; Múnera, 2016), el cual es un libro de referencia tanto en la facultad de medicina de la Universidad de Antioquia como en el Hospital para la formación en el área de trauma. Se realizaron un total de 45.886 sustituciones de términos.</p>      <p>&#8226;  Eliminación de acentos para evitar problemas ortográficos mediante la sustitución de los acentos del idioma español correspondientes a los siguientes caracteres {á, é, í, ó, ú, ñ, ü}, siendo sustituidos respectivamente por su respectiva letra sin acento {a, e, i, o, u, n, u}.</p>      <p>&#8226;  Eliminación de palabras no relevantes para el área ya que se presentan constantemente en todos los registros como {&#8220;paciente&#8221;, &#8220;anos&#8221;, &#8220;dias&#8221;, &#8220;ahora&#8221;, &#8220;manejo&#8221;, &#8220;buena&#8221;, &#8220;manana&#8221;, &#8220;medico&#8221;, &#8220;mas&#8221;, &#8220;adecuada&#8221;, &#8220;dia&#8221;, &#8220;ayer&#8221;, &#8220;debe&#8221;, &#8220;aun&#8221;, &#8220;ademas&#8221;, &#8220;hoy&#8221;, &#8220;pte&#8221;}.</p>      <p>&#8226;  Reducción de las palabras a sus raíces (stemming): este proceso permite reemplazar las palabras &#8220;niña&#8221; y &#8220;niño&#8221; simplemente por la raíz &#8220;niñ&#8221; y así eliminar la variabilidad de las palabras.</p>      <p>Finalmente, después de ser limpiado el texto es representado de forma numérica por medio de la frecuencia de aparición de las palabras en cada documento. Algunos pasos adicionales para limpiar el texto implican eliminar las palabras que tiene una frecuencia muy baja (se encuentran en muy pocos documentos) y las palabras que tienen una frecuencia muy alta (están en casi todos los documentos).</p>        <p><b>2.3. Modelos analíticos</b></p>      ]]></body>
<body><![CDATA[<p>Una vez preparado el texto y representado de forma numérica por la frecuencia de las palabras, se aplican técnicas de minería de datos para el descubrimiento de información relevante. En la minería de datos se desarrollan principalmente dos tipos de análisis: predictivos y descriptivos. El análisis predictivo permite analizar datos futuros, prediciendo tanto valores categóricos (clasificación) como numéricos (regresión) por medio de técnicas de aprendizaje supervisado de máquinas. Algunos algoritmos supervisados son árboles de decisión, máquinas de soporte vectorial, naive bayes, redes neuronales, k vecinos más cercadnos y regresiones. Por su parte, el análisis descriptivo permite descubrir conocimiento en los datos actuales por medio de agrupaciones, reglas de asociación y selección de factores aplicando técnicas de aprendizaje no supervisado de máquinas. Algunos algoritmos no supervisados son k-means, clustering jerárquico, a priori, entre otros (Oviedo, Vélez, &amp; Oviedo, 2015).</p>      <p>Para encontrar el modelo de palabras usadas en traumatología, se aplicaron tanto análisis predictivos como descriptivos, creando 5 modelos analíticos. Las técnicas empleadas fueron seleccionadas según la revisión bibliográfica sobre minería de texto aplicada a datos de la salud.</p>      <p>&#8226;  Modelo 1 - Palabras más frecuentes en el área de traumatología: tiene por objetivo encontrar un ranking de las palabras más comúnmente utilizadas en el área de traumatología mediante la frecuencia de aparición de cada término.</p>     <p>&#8226;  Modelo 2 - Segmentación de los episodios para encontrar similitudes en los traumas según las palabras: tiene por objetivo buscar similitudes entre los diferentes tipos de traumas según las palabras empleadas por los médicos mediante el algoritmo de clúster jerárquico aglomerativo.</p>      <p>&#8226;  Modelo 3 - Encontrar las palabras más utilizadas en cada tipo de trauma: tiene como objetivo encontrar las palabras más utilizadas por los médicos en cada tipo de trauma, mediante el algoritmo predictivo de árbol de decisión.</p>      <p>&#8226; Modelo 4 - Analizar la ocurrencia conjunta de las palabras en los diferentes tipos de trauma: tiene por objetivo buscar las co-ocurrencias de las palabras teniendo en cuenta los diferentes tipos de trauma, mediante el algoritmo descriptivo apriori.</p>      <p>&#8226;  Modelo 5 - Predecir el tipo de trauma según las palabras ingresadas por el médico: tiene por objetivo realizar una predicción del tipo de trauma de un episodio, teniendo en cuenta las palabras utilizadas por el médico y las variables estructuradas de la base de datos.</p>     <p><b>3.  Resultados</b></p>      <p>Los experimentos se realizaron con la herramienta R, debido a su enfoque estadístico con una base analítica flexible y confiable para la informática. A continuación, se reportan los resultados de los modelos analíticos.</p>        <p><b>3.1. Modelo 1 - Palabras más frecuentes en el área de traumatología</b></p>      ]]></body>
<body><![CDATA[<p>Después de preparar el texto, se calcula la frecuencia de aparición de cada palabra. La <a href="#f1">Figura 1</a> presenta la nube de palabras después del proceso de preparación de los campos tipo texto, donde el tamaño de la palabra corresponde a la frecuencia de aparición en los registros. Las palabras se aprecian incompletas debido al proceso de reducción de raíces (<i>stemming</i>) aplicado en la preparación de datos.</p>     <p>&nbsp;</p>    <p align="center"><a name="f1"></a><img src="/img/revistas/rist/n34/n34a04f1.jpg"/></p>    
<p>&nbsp;</p>     <p>Mediante un histograma de frecuencias se verifican las palabras más comunes en el conjunto de datos: evolución, fractura, derecho, trauma, estable, quemadura, continúa, izquierdo, clínico, momento.</p>        <p><b>3.2. Modelo 2 - Segmentación de los episodios para encontrar similitudes en los traumas</b></p>      <p>A la matriz de frecuencias de las palabras se aplicó un clúster jerárquico aglomerativo, el cual realiza una matriz de distancias que es posible visualizar mediante un dendograma. Para este método no es necesario indicar la cantidad de grupos, sino que se traza una línea horizontal que corta la gráfica y agrupa las palabras por las jerarquías que quedan en la parte inferior. A partir de las relaciones vistas en el dendograma se eligieron cuatro clústeres, como se aprecia en la <a href="#f2">Figura 2</a> correspondientes a: (1) lesiones en los miembros superiores e inferiores ocasionados por accidentes de tránsito, (2) lesiones por quemaduras, (3) seguimientos clínicos y (4) seguimientos donde se encuentran involucradas observaciones referentes a la circulación sanguínea.</p>     <p>&nbsp;</p>    <p align="center"><a name="f2"></a><img src="/img/revistas/rist/n34/n34a04f2.jpg"/></p>    
<p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><b>3.3. Modelo 3 - Encontrar las palabras más utilizadas en cada tipo de trauma</b></p>      <p>A la matriz de frecuencia de las palabras se aplica el algoritmo &#8220;<i>Recursive Partitioning And Regression Trees</i>&#8221; de árboles de decisión, para hacer una predicción del tipo de trauma según las palabras de la historia clínica. Para la evaluación de este método, se separó el conjunto de entrenamiento del conjunto de prueba con una división aleatoria 70%-30% respectivamente. En el conjunto de prueba, se calculan las medidas de matriz de confusión, precisión, cobertura y área ROC.</p>      <p>La variable objetivo a predecir   corresponde a 23 grupos de diagnósticos de la norma CIE-10, así que se   realizaron 23 clasificaciones binomiales, obteniendo un árbol de predicción para cada código   CIE-10. En la <a href="#f3">Figura 3</a> se presentan los árboles para los dos primeros códigos CIE-10, donde un   color azul fuerte en las hojas de los árboles indica que sí pertenece al tipo   de trauma evaluado, mientras que un color muy claro significa que no pertenece al tipo de trauma. En cada nodo, adicionalmente se indica el porcentaje de los datos que recibe la predicción.</p>     <p>&nbsp;</p>    <p align="center"><a name="f3"></a><img src="/img/revistas/rist/n34/n34a04f3.jpg"/></p>    
<p>&nbsp;</p>      <p>Los otros 21 árboles no se presentan en el documento.</p>        <p>Según los árboles de decisión, las palabras más relevantes de los 10 primeros traumas del código CIE-10 se presentan en la <a href="#t3">tabla 3</a>.</p>     <p>&nbsp;</p>    <p align="center"><a name="t3"></a><img src="/img/revistas/rist/n34/n34a04t3.jpg"/></p>    
]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><b>3.4. Modelo 4 - Analizar la ocurrencia de las palabras en los diferentes tipos de trauma</b></p>      <p>Después de realizar la preparación de datos, los episodios son representados en vectores binarios que indican la presencia de las palabras en los documentos. Posterior a la representación se aplica el algoritmo apriori, el cual busca las co-ocurrencias de las palabras, es decir las palabras que aparecen de forma conjunta en los diagnósticos de trauma. El método se evalúa mediante la confianza de las reglas. En la <a href="#f4">Figura 4</a> se presentan algunas reglas de asociación entre las palabras. Se evidencia un bajo nivel de co-ocurrencia para las palabras analizadas, la gran mayoría de ellos con valores inferiores al 20%. La confianza más alta se presenta con las palabras &#8220;quemadura&#8221; y &#8220;profunda&#8221;, indicando que el 57% de las veces que ocurre la palabra &#8220;quemadura&#8221;, está acompañada de &#8220;profunda&#8221;.</p>     <p>&nbsp;</p>    <p align="center"><a name="f4"></a><img src="/img/revistas/rist/n34/n34a04f4.jpg"/></p>    
<p>&nbsp;</p>     <p><b>3.5. Modelo 5 - Predecir el tipo de trauma según las palabras ingresadas por el médico</b></p>      <p>La predicción del tipo de trauma según las palabras empleadas por los médicos fue realizada mediante tres métodos: árbol de decisión, regresión logística y clasificador de vecinos cercanos. Para evaluar los métodos se aplicó una división aleatoria del 70% para los datos de entrenamiento y 30% para los datos de prueba.</p>      <p>El desempeño de los métodos puede apreciarse gráficamente en la <a href="#f5">Figura 5</a> que presenta el área ROC para la predicción de los 23 tipos de trauma.</p>     <p>&nbsp;</p>    ]]></body>
<body><![CDATA[<p align="center"><a name="f5"></a><img src="/img/revistas/rist/n34/n34a04f5.jpg"/></p>    
<p>&nbsp;</p>     <p>Según los resultados de la <a href="#f5">Figura 5</a>, el método de predicción seleccionado es la regresión   logística, ya que presenta mayor valor en el área ROC. El procedimiento para realizar la predicción se presenta a continuación:</p>      <p>&#8226;  Se ingresa el texto del episodio y se realiza el proceso de depuración de texto.</p>      <p>&#8226;  Posteriormente se construye la matriz de términos del texto ingresado.</p>      <p>&#8226;  Se aplica el método de predicción.</p>      <p>Para el caso de prueba, se ingresó el siguiente texto: &#8220;masculino raza negra edad actualmente hospitalizado intoxicacion causticos consecuencia misma quemaduras tracto gastrointestinal hallazgo incidental tac contr&#8221;. Obteniendo los resultados para cada uno de los grupos de trauma, tal como se muestra en la <a href="#t4">tabla 4</a>. El tipo de trauma al que pertenece el texto según la predicción, es el que tiene mayor puntaje en la tabla de probabilidad. También puede ocurrir, que un texto esté relacionado con varios traumas y esto puede ser útil a los médicos en el momento del diagnóstico. Para el ejemplo, en la <a href="#t4">tabla 4</a> se presentan ordenados de mayor a menor probabilidad, los resultados del algoritmo predictor donde los grupos con mayor probabilidad están relacionados con intoxicaciones por ingestión de sustancias, seguido por grupos relacionados con quemaduras.</p>     <p>&nbsp;</p>    <p align="center"><a name="t4"></a><img src="/img/revistas/rist/n34/n34a04t4.jpg"/></p>    
<p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p><b>4.  Discusión</b></p>      <p>A continuación, se presenta la discusión de resultados de los modelos analíticos.</p>        <p><b>4.1. Palabras más frecuentes en el área de traumatología</b></p>      <p>Según su frecuencia de aparición en los episodios, las 10 palabras más utilizadas en los diagnósticos son: Evolución, Fractura, Derecho, Trauma, Estable, Quemadura, Continúa, Izquierdo, Clínico, Momento.</p>      <p>De estas palabras puede apreciarse que {evolución, estable, continúa, clínico, momento} son palabras asociadas al seguimiento del paciente, mientras que las palabras {fractura, derecho, trauma, quemadura, izquierdo} son palabras asociadas al diagnóstico.</p>        <p><b>4.2. Segmentación de los episodios para encontrar similitudes en los traumas según las palabras</b></p>      <p>Por medio de un clustering jerárquico aglomerativo se encontraron 4 grupos, los cuales se describen a continuación.</p>      <p>&#8226;  Cluster 1: Lesiones en los miembros superiores e inferiores ocasionados por accidentes de tránsito</p>      <p>&#8226;  Cluster 2: Lesiones por quemaduras</p>      <p>&#8226;  Cluster 3: Seguimientos clínicos</p>      ]]></body>
<body><![CDATA[<p>&#8226;  Cluster 4: Seguimientos con observaciones sobre circulación sanguínea</p>        <p><b>4.3.Encontrar las palabras más utilizadas en cada tipo de trauma</b></p>      <p>La creación de los 23 modelos predictivos para cada tipo de trauma según el código CIE10 permite identificar aquellas palabras relevantes para predecir dichos tipos de trauma, a diferencia del primer modelo realizado donde se seleccionaron las palabras por la frecuencia de aparición. A continuación, se listan algunas de las palabras seleccionadas por los 23 experimentos de predicción: Quemadura, Fractura, Curación, Tránsito, Intoxicación, Cervical, Rodilla, Pie, Fistula, Muñón, Mano, Radio, Lesión, Tibia, Fémur, Tobillo, entre otras.</p>        <p><b>4.4.Analizar la ocurrencia conjunta de las palabras en los diferentes tipos de trauma</b></p>      <p>Los resultados encontrados con este modelo analítico concuerdan con los experimentos anteriores, donde las reglas de asociación para las palabras {Evolución, Continúa, Estable, Clínico, Cirugía, Dolor} parecen estar relacionadas a seguimientos de pacientes; mientras que las reglas descritas para las palabras {Fractura, Trauma, Derecha, Izquierda, Quemadura, Diagnóstico, Antecedente} son reglas que por sus palabras asociadas parecen estar relacionadas con documentos en donde se diagnóstica al paciente. Estos resultados sugieren como trabajo futuro crear modelos de palabras por separado para las expresiones textuales de los pacientes y las expresiones médicas.</p>        <p><b>4.5. Predecir el tipo de trauma según las palabras ingresadas por el médico</b></p>      <p>De los resultados encontrados, se aprecia que la predicción con mejor desempeño corresponde a los grupos de diagnóstico relacionados con quemaduras, luego de estos se tienen los grupos relacionados con traumatismos en las extremidades y en la cadera con un desempeño aceptable. Por último, con menor desempeño los predictores para los diagnósticos relacionados con traumatismos en cabeza, tórax, abdomen y partes del cuerpo no especificadas.</p>      <p>El bajo desempeño de los predictores en los grupos diagnósticos relacionados con traumatismos en cabeza, tórax y abdomen, puede estar relacionado con las múltiples complicaciones que se presentan en los órganos ubicados en estas partes de cuerpo, lo cual genera términos dispersos a lo largo de todos los registros y por ende los algoritmos no logran crear relaciones entre ellos.</p>      <p>El bajo desempeño de los predictores en los grupos diagnósticos de los grupos G1, G2, G10 y G11, puede deberse a que son grupos que abarcan complicaciones muy generales, presentándose el mismo fenómeno descrito en el párrafo anterior. Además, la generalidad de estos grupos de diagnóstico les permite ser usados para clasificar de manera poco específica los pacientes en su ingreso al área de traumatología. Los grupos mencionados corresponden a las siguientes clasificaciones de trauma: (G1) traumatismos que afectan múltiples regiones del cuerpo; (G2) traumatismos de parte no especificada del tronco, miembro o región del cuerpo; (G10) Otros efectos y los no especificados de causas externas; y (G11) Algunas complicaciones precoces de traumatismos.</p>     <p><b>5.  Conclusiones</b></p>      ]]></body>
<body><![CDATA[<p>Con los modelos analíticos desarrollados con las historias clínicas del Hospital San Vicente Fundación, fue posible identificar el modelo de palabras usado en el área de traumatología, identificando:</p>      <p>&#8226;  Las palabras más usadas en el conjunto global de documentos.</p>      <p>&#8226;  Cuatro grupos de traumas que usan palabras muy similares.</p>      <p>&#8226; Las palabras asociadas a diferentes tipos de traumas.</p>      <p>&#8226;  Las palabras que ocurren de forma conjunta.</p>      <p>&#8226; La predicción de tipo de trauma según las palabras del médico.</p>      <p>Para mejorar el desempeño de los modelos analíticos se plantea como sugerencia ampliar el diccionario de sinónimos y acrónimos para realizar una mejor limpieza de los datos. Adicionalmente, se sugiere realizar un ejercicio de extracción de los números presentes en los campos de texto, buscando construir gráficas evolutivas de variables médicas importantes que no se registran en los campos estructurados. Por ejemplo, índices de gravedad en trauma, frecuencia cardiaca, presión arterial, saturación de oxígeno, temperatura corporal, etc.</p>     <p>&nbsp;</p>     <p><b>REFER&Ecirc;NCIAS</b> </p>     <!-- ref --><p>Cummins, N., Amiriparian, S., Ottl, S., Gerczuk, M.,   Schmitt, M., &amp; Schuller, B. (2018). Multimodal Bag-of-Words for cross   domains sentiment analysis. <i>En 2018 IEEE International Conference on     Acoustics, Speech and Signal Processing (ICASSP)</i>, 4954-4958. DOI: <a href="https://dx.doi.org/10.1109/ICASSP.2018.8462660" target="_blank"> 10.1109/ICASSP.2018.8462660</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007148&pid=S1646-9895201900040000400001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Hospital San Vicente Fundación (2017). Hospital Universitario San Vicente Fundación - Indicadores. Recuperado de: <a href="http://hospitaluniversitario.sanvicentefundacion.com/documentos/HU_Indicadores_Resultado.pdf" target="_blank">http://hospitaluniversitario.sanvicentefundacion.com/documentos/HU_Indicadores_Resultado.pdf</a> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007150&pid=S1646-9895201900040000400002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Judd, M. (2018). A Medical Decision Support Tool Using    Text-mining Techniques with Electronic Medical Records. <i>In Inquiry@ Queen&#8217;s Undergraduate Research Conference Proceedings.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007151&pid=S1646-9895201900040000400003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></i></p>      <!-- ref --><p>Karystianis, G., Sheppard, T., Dixon, W.G., &amp; Nenadic, G. (2015). Modelling and extraction of variability in free-text medication prescriptions from an anonymised primary care electronic medical record research database. <i>BMC Medical Informatics and Decision Making</i>, <i>16</i>(1), 18.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007153&pid=S1646-9895201900040000400004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Kharrazi, H., Anzaldi, L.J., Hernandez, L., Davison, A., Boyd, C.M., Leff, B., &amp; Weiner, J.P. (2018). The value of unstructured electronic health record data in geriatric syndrome case identification. <i>Journal of the American Geriatrics Society</i>, 66(8), 1499-1507. DOI: <a href="https://dx.doi.org/10.1111/jgs.15411" target="_blank">10.1111/jgs.15411</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007155&pid=S1646-9895201900040000400005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>Kushima, M.A., &amp; Nikama, T. (2012). Text Data Mining of the Electronic Medical   Record of the Chronic Hepatitis Patient. <i>En International multiconference of engineers and computer scientists</i>, 1, Hong Kong.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007157&pid=S1646-9895201900040000400006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      ]]></body>
<body><![CDATA[<!-- ref --><p>Lucini, F.R., Fogliatto, F.S., DaSilveira, G.J., Neyeloff, J.L., Anzanello, M.J., Kuchenbecker, R.D.S., &amp; Schaan, B.D. (2017). Text mining approach to predict hospital admissions using early medical records from the emergency department. <i>International journal of medical informatics</i>, 100, 1-8. DOI: <a href="https://dx.doi.org/10.1016/j.ijmedinf.2017.01.001" target="_blank">10.1016/j.ijmedinf.2017.01.001</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007159&pid=S1646-9895201900040000400007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Martiniano, J., Restrepo, J., &amp; Múnera, A. (2016). <i>Manual de normas y procedimientos en trauma</i>. Medellín: Editorial Universidad de Antioquia.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007161&pid=S1646-9895201900040000400008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Otsuka, N., &amp; Matsushita, M. (2014). Constructing knowledge using exploratory text mining. <i>En Joint 7th International Conference on and Advanced Intelligent Systems (ISIS)</i>, 15th International Symposium, Kitakyushu, 1392-1397. DOI: <a href="https://dx.doi.org/10.1109/SCIS-ISIS.2014.7044806" target="_blank">10.1109/SCIS-ISIS.2014.7044806</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007163&pid=S1646-9895201900040000400009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Oviedo, A., &amp; Sanchez, S. (2017). Minería de datos de la salud: Sistema de votación de técnicas analíticas para identificar los factores que influyen en la realización de cirugías estéticas. <i>Revista Politecnica, </i>13, 43-52. DOI: <a href="https://dx.doi.org/10.33571/rpolitec" target="_blank"> 10.33571/rpolitec</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007165&pid=S1646-9895201900040000400010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Oviedo, A., Velez, G., &amp; Oviedo, E. (2015). Minería de datos: aportes y tendencias en el servicio de salud de ciudades inteligentes. <i>Revista Politecnica</i>, 11, 111-120. DOI: <a href="https://dx.doi.org/10.33571/rpolitec" target="_blank">10.33571/rpolitec</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007167&pid=S1646-9895201900040000400011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      ]]></body>
<body><![CDATA[<!-- ref --><p>Pereira, L.R., &amp; Agostinho, M. (2013). ICD9-based Text Mining Approach to Children Epilepsy Classification. <i>Procedia Technology</i>, 9, 1351-1360. DOI: <a href="https://dx.doi.org/10.1016/j.protcy.2013.12.152" target="_blank"> 10.1016/j.protcy.2013.12.152</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007169&pid=S1646-9895201900040000400012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Sukanya, M., &amp; Biruntha, S. (2012). Techniques on text mining. <i>En 2012 IEEE International Conference on Advanced Communication Control and Computing Technologies (ICACCCT)</i>, 267-271. DOI: <a href="https://dx.doi.org/10.1109/ICACCCT.2012.6320784" target="_blank">10.1109/ICACCCT.2012.6320784</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007171&pid=S1646-9895201900040000400013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Sun, W., Cai, Z., Li, Y., Liu, F., Fang, S., &amp; Wang, G. (2018). Data processing and text mining technologies on electronic medical records: a review. <i>Journal of healthcare engineering</i>. DOI: <a href="https://dx.doi.org/10.1155/2018/4302425" target="_blank">10.1155/2018/4302425</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007173&pid=S1646-9895201900040000400014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Vijayakrishnan, R.S., &amp; Stewart, W.F. (2014). Prevalence of Heart Failure Signs and Symptoms in a Large Primary Care Population Identified Through the Use of Text and Data Mining of the Electronic Health Record. <i>Journal of Cardiac Failure</i>, 20(7), 459-464. DOI: <a href="https://dx.doi.org/10.1016/j.cardfail.2014.03.008" target="_blank">10.1016/j.cardfail.2014.03.008</a>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007175&pid=S1646-9895201900040000400015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <!-- ref --><p>Wirth, R., &amp; Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. <i>En Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining</i>, 29-39.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1007177&pid=S1646-9895201900040000400016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p>Recebido/Submission: 13/06/2019 </p>     <p>Aceita&ccedil;&atilde;o/Acceptance: 29/08/2019</p>         ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cummins]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
<name>
<surname><![CDATA[Amiriparian]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Ottl]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Gerczuk]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Schmitt]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Schuller]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multimodal Bag-of-Words for cross domains sentiment analysis]]></article-title>
<source><![CDATA[2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)]]></source>
<year>2018</year>
<page-range>4954-4958</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<collab>Hospital San Vicente Fundación</collab>
<source><![CDATA[Hospital Universitario San Vicente Fundación - Indicadores]]></source>
<year>2017</year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Judd]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Medical Decision Support Tool Using Text-mining Techniques with Electronic Medical Records]]></article-title>
<source><![CDATA[Inquiry@ Queen’s Undergraduate Research Conference Proceedings]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Karystianis]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Sheppard]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Dixon]]></surname>
<given-names><![CDATA[W.G.]]></given-names>
</name>
<name>
<surname><![CDATA[Nenadic]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Modelling and extraction of variability in free-text medication prescriptions from an anonymised primary care electronic medical record research database]]></article-title>
<source><![CDATA[BMC Medical Informatics and Decision Making]]></source>
<year>2015</year>
<volume>16</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>18</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kharrazi]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Anzaldi]]></surname>
<given-names><![CDATA[L.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Hernandez]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[Davison]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Boyd]]></surname>
<given-names><![CDATA[C.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Leff]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[Weiner]]></surname>
<given-names><![CDATA[J.P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The value of unstructured electronic health record data in geriatric syndrome case identification]]></article-title>
<source><![CDATA[Journal of the American Geriatrics Society]]></source>
<year>2018</year>
<volume>66</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>1499-1507</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kushima]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Nikama]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Text Data Mining of the Electronic Medical Record of the Chronic Hepatitis Patient]]></article-title>
<source><![CDATA[International multiconference of engineers and computer scientists,]]></source>
<year>2012</year>
<publisher-loc><![CDATA[Hong Kong ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lucini]]></surname>
<given-names><![CDATA[F.R.]]></given-names>
</name>
<name>
<surname><![CDATA[Fogliatto]]></surname>
<given-names><![CDATA[F.S.]]></given-names>
</name>
<name>
<surname><![CDATA[DaSilveira]]></surname>
<given-names><![CDATA[G.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Neyeloff]]></surname>
<given-names><![CDATA[J.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Anzanello]]></surname>
<given-names><![CDATA[M.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Kuchenbecker]]></surname>
<given-names><![CDATA[R.D.S.]]></given-names>
</name>
<name>
<surname><![CDATA[Schaan]]></surname>
<given-names><![CDATA[B.D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Text mining approach to predict hospital admissions using early medical records from the emergency department]]></article-title>
<source><![CDATA[International journal of medical informatics]]></source>
<year>2017</year>
<volume>100</volume>
<page-range>1-8</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martiniano]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Restrepo]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Múnera]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Manual de normas y procedimientos en trauma]]></source>
<year>2016</year>
<publisher-loc><![CDATA[Medellín ]]></publisher-loc>
<publisher-name><![CDATA[Editorial Universidad de Antioquia]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Otsuka]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
<name>
<surname><![CDATA[Matsushita]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Constructing knowledge using exploratory text mining]]></article-title>
<source><![CDATA[Joint 7th International Conference on and Advanced Intelligent Systems (ISIS), 15th International Symposium]]></source>
<year>2014</year>
<page-range>1392-1397</page-range><publisher-loc><![CDATA[Kitakyushu ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Oviedo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Sanchez]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Minería de datos de la salud: Sistema de votación de técnicas analíticas para identificar los factores que influyen en la realización de cirugías estéticas]]></article-title>
<source><![CDATA[Revista Politecnica]]></source>
<year>2017</year>
<volume>13</volume>
<page-range>43-52</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Oviedo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Velez]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Oviedo]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Minería de datos: aportes y tendencias en el servicio de salud de ciudades inteligentes]]></article-title>
<source><![CDATA[Revista Politecnica]]></source>
<year>2015</year>
<volume>11</volume>
<page-range>111-120</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pereira]]></surname>
<given-names><![CDATA[L.R.]]></given-names>
</name>
<name>
<surname><![CDATA[Agostinho]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[ICD9-based Text Mining Approach to Children Epilepsy Classification]]></article-title>
<source><![CDATA[Procedia Technology]]></source>
<year>2013</year>
<volume>9</volume>
<page-range>1351-1360</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sukanya]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Biruntha]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Techniques on text mining]]></article-title>
<source><![CDATA[2012 IEEE International Conference on Advanced Communication Control and Computing Technologies (ICACCCT)]]></source>
<year>2012</year>
<page-range>267-271</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sun]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[Cai]]></surname>
<given-names><![CDATA[Z.]]></given-names>
</name>
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
<name>
<surname><![CDATA[Liu]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Fang]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Data processing and text mining technologies on electronic medical records: a review]]></article-title>
<source><![CDATA[Journal of healthcare engineering]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vijayakrishnan]]></surname>
<given-names><![CDATA[R.S.]]></given-names>
</name>
<name>
<surname><![CDATA[Stewart]]></surname>
<given-names><![CDATA[W.F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Prevalence of Heart Failure Signs and Symptoms in a Large Primary Care Population Identified Through the Use of Text and Data Mining of the Electronic Health Record]]></article-title>
<source><![CDATA[Journal of Cardiac Failure]]></source>
<year>2014</year>
<volume>20</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>459-464</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wirth]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Hipp]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[CRISP-DM: Towards a standard process model for data mining]]></article-title>
<source><![CDATA[Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining]]></source>
<year>2000</year>
<page-range>29-39</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
