Ejercicio de extracción de palabras clave y frases importantes

Siguiente: Detección de genes Subir: Minería de datos biológicos Anterior: Minería de datos biológicos Índice de Materias

Ejercicio de extracción de palabras clave y frases importantes

En este ejercicio vamos a trabajar con dos conjuntos de datos separados.

El primero consta de 426 resúmenes o abstracts de artículos científicos devueltos por PubMed con la consulta 'CRP + coli + regulation', que podéis encontrar en el archivo CRP_coli_regulation_PubMed.txt.

El segundo es este artículo completo gb-2000-1-2-research0004.xml en formato XML, estraído de BioMedCentral, una de las editoriales que están publicando artículos científicos de libre acceso.

Vuestro trabajo consiste en escribir código Perl que:

extraiga la frecuencia de las palabras que aparezcan en este cuerpo de información, preferentemente eliminando del análisis las palabras comunes que no son informativas como artículos o preposiciones.
extraiga las frases completas.
ordene por importancia las frases extraídas por su riqueza en palabras.
si es posible, el programa deberá ser capaz de leer archivos XML.

Siguiente: Detección de genes Subir: Minería de datos biológicos Anterior: Minería de datos biológicos Índice de Materias

Bruno Contreras Moreira 2007-06-15