Cómo preparar una base de datos de secuencias para BLAST

Siguiente: Cómo hacer una búsqueda BLAST contra Subir: Alineamientos locales y BLAST Anterior: Alineamientos locales y BLAST Índice de Materias

Cómo preparar una base de datos de secuencias para BLAST

¿Qué es una base de datos de secuencias? En este contexto es un conjunto de secuencias que representa un universo dentro del cual buscaremos secuencias similares a nuestra secuencia problema, con el fin de hacer inferencia biológica.

Programas como BLAST asumen que la composición de nuestro universo de secuencias no se desvía de las frecuencias de fondo de aminoácidos o nucleótidos en todas las proteínas conocidas. Estas frecuencias de fondo son importantes para estimar las estadísticas de los alineamientos generados. Si estas frecuencias cambian las estadísticas cambiarán y, por tanto, es posible obtener alineamientos con puntuaciones artificalmente altas o bajas.

Por esta razón es habitual que el primer paso a la hora de preparar una base de datos de secuencias es filtrar las regiones con composiciones atípicas, de baja complejidad (low complexity en inglés) . En ocasiones estas regiones de baja complejidad pueden ser biológicamente de gran interés y deberemos decidir si nos conviene filtrarlas o no. Pero en general es buena idea hacerlo. Aquí usaremos el programa SEG para ello (Wootton & Federhen, 1996), que podéis descargar de aquí .

En cualquier caso, deberemos formatear y preprocesar nuestro conjunto de secuencias para usarlo como base de datos de secuencias. Podemos usar compilaciones de secuencias estándares, como las del NCBI, o crear nuestras propias bases de datos. Para ello deberemos utilizar el programa formatdb, incluido en el subdirectorio bin de BLAST. Si tecleamos $ formatdb - el programa nos muestra unas breves instrucciones de cómo invocarlo.

Este programa permite formatear un archivo de secuencias (en formato FASTA por defecto) y convertirlo en una base de datos de secuencias contra la que podemos buscar por medio de alineamientos locales. La sintaxis más sencilla para un conjunto de secuencias de proteína sería:
$ formatdb -i secuencias.fas
donde el contenido de secuencias.fas sería algo así como:

>sp|P0ACJ8|CRP_ECOLI Catabolite gene activator Escherichia coli.
MVLGKPQTDPTLEWFLSHCHIHKYPSKSTLIHQGEKAETLYYIVKGSVAVLIKDEE...
>sp|P29281|CRP_HAEIN Catabolite gene activator Haemophilus influenzae.
MSNELTEIDEVVTSSQEEATQRDPVLDWFLTHCHLHKYPAKSTLIHAGEDA...
>sp|O05689|CRP_PASMU Catabolite gene activator Pasteurella multocida.
MQTTPSIDPTLEWFLSHCHIHKYPSKSTLIHAGEKAETLYYLIKGSVAVLVKDEDGKEMI...

Tras ejecutar $ formatdb -i secuencias.fas obtenemos una serie de archivos que son los que BLAST usará propiamente para hacer búsquedas contra esta base de datos. Si el archivo de secuencias es grande entonces esta tarea puede tardar un rato. El trabajo de formatdb en realidad consiste en convertir las secuencias originales en binario e indexarlas de forma que al hacer una búsqueda con BLAST se acelere considerablemente el proceso.

Siguiente: Cómo hacer una búsqueda BLAST contra Subir: Alineamientos locales y BLAST Anterior: Alineamientos locales y BLAST Índice de Materias

Centro de Ciencias Genómicas/UNAM, México 2006-7