Siguiente: Proyecto de trabajo por grupos: manipulación Subir: Otras aplicaciones de Perl en bioinformática Anterior: Ejercicio de extracción de palabras clave Índice de Materias

Detección de genes

La detección de genes es quizás la tarea más importante del procesamiento de los datos generados por un proyecto de secuenciación. De hecho, las predicciones de genes, correctas o equivocadas, son la base para casi todo el trabajo experimental que se haga después de alcanzar una versión medianamente estable del genoma.

La tarea de localizar genes es complicada y muy costosa, sobre todo por el tamaño de los datos implicados y por la dificultad de distinguir la señal del ruido acumulado en los genomas. En eucariotas se complica todavía más por los enormes genomas que tienen, por la cantidad de secuencias basura que aparentemente no tienen una función biológica y por la presencia de intrones. En otras palabras, es todo un mundo al que podéis iniciaros en www.genefinding.org. Por lo que he visto, Perl no se utiliza demasiado en este campo por razones de eficiencia. Dado el coste computacional del problema, se prefieren lenguajes como C/C++.

Sin embargo, para efectos de este curso, podemos hacer una aproximación un tanto basta al problema desde Perl, aprovechando sus fortalezas en el tratamiento de cadenas. El algoritmo que os propongo consiste en 4 pasos:

buscar marcos abiertos de lectura (ORFS) en una secuencia de ADN
traducir la secuencia de cada ORF
buscar secuencias similares a cada ORF con BLAST
devolver los orfs que tengan secuencias similares de confianza con longitudes similares

Siguiente: Proyecto de trabajo por grupos: manipulación Subir: Otras aplicaciones de Perl en bioinformática Anterior: Ejercicio de extracción de palabras clave Índice de Materias

Bruno Contreras Moreira 2007-06-15