Siguiente: Detección de genes
Subir: Minería de datos biológicos
Anterior: Minería de datos biológicos
Índice de Materias
En este ejercicio vamos a trabajar con dos conjuntos de datos separados.
El primero consta de
426 resúmenes o abstracts de artículos científicos devueltos por
PubMed
con la
consulta 'CRP + coli + regulation', que podéis encontrar en el archivo
CRP_coli_regulation_PubMed.txt.
El segundo es este artículo completo
gb-2000-1-2-research0004.xml
en formato XML, estraído de
BioMedCentral, una de
las editoriales que están publicando artículos científicos de libre acceso.
Vuestro trabajo consiste en escribir código Perl que:
- extraiga la frecuencia de las palabras que aparezcan en este cuerpo de información,
preferentemente eliminando del análisis las palabras comunes que no son informativas como
artículos o preposiciones.
- extraiga las frases completas.
- ordene por importancia las frases extraídas por su riqueza en palabras.
- si es posible, el programa deberá ser capaz de leer archivos XML.
Siguiente: Detección de genes
Subir: Minería de datos biológicos
Anterior: Minería de datos biológicos
Índice de Materias
Bruno Contreras Moreira
2007-06-15