¿Qué es una base de datos de secuencias? En este contexto es un conjunto de secuencias que representa un universo dentro del cual buscaremos secuencias similares a nuestra secuencia problema, con el fin de hacer inferencia biológica.
Programas como BLAST asumen que la composición de nuestro universo de secuencias no se desvía de las frecuencias de fondo de aminoácidos o nucleótidos en todas las proteínas conocidas. Estas frecuencias de fondo son importantes para estimar las estadísticas de los alineamientos generados. Si estas frecuencias cambian las estadísticas cambiarán y, por tanto, es posible obtener alineamientos con puntuaciones artificalmente altas o bajas.
Por esta razón es habitual que el primer paso a la hora de preparar una base de datos de secuencias es filtrar las regiones con composiciones atípicas, de baja complejidad (low complexity en inglés) . En ocasiones estas regiones de baja complejidad pueden ser biológicamente de gran interés y deberemos decidir si nos conviene filtrarlas o no. Pero en general es buena idea hacerlo. Aquí usaremos el programa SEG para ello (Wootton & Federhen, 1996), que podéis descargar de aquí .
En cualquier caso, deberemos formatear y preprocesar nuestro conjunto de secuencias para usarlo
como base de datos de secuencias. Podemos usar compilaciones de secuencias estándares, como
las del NCBI, o crear nuestras propias
bases de datos. Para ello deberemos utilizar el programa
formatdb
,
incluido en el subdirectorio
bin
de BLAST. Si tecleamos
$ formatdb -
el programa nos muestra unas breves instrucciones
de cómo invocarlo.
Este programa permite formatear un archivo de secuencias (en formato FASTA por defecto) y
convertirlo en una base de datos de secuencias contra la que podemos buscar por medio de alineamientos
locales. La sintaxis más sencilla para un conjunto de secuencias de proteína sería:
$ formatdb -i secuencias.fas
donde el contenido de
secuencias.fas
sería algo así como:
>sp|P0ACJ8|CRP_ECOLI Catabolite gene activator Escherichia coli. MVLGKPQTDPTLEWFLSHCHIHKYPSKSTLIHQGEKAETLYYIVKGSVAVLIKDEE... >sp|P29281|CRP_HAEIN Catabolite gene activator Haemophilus influenzae. MSNELTEIDEVVTSSQEEATQRDPVLDWFLTHCHLHKYPAKSTLIHAGEDA... >sp|O05689|CRP_PASMU Catabolite gene activator Pasteurella multocida. MQTTPSIDPTLEWFLSHCHIHKYPSKSTLIHAGEKAETLYYLIKGSVAVLVKDEDGKEMI...
Tras ejecutar $ formatdb -i secuencias.fas
obtenemos una serie de archivos que son
los que BLAST usará propiamente para hacer búsquedas contra esta base de datos. Si el archivo
de secuencias es grande entonces esta tarea puede tardar un rato. El trabajo de
formatdb
en realidad consiste en convertir las secuencias originales en binario
e indexarlas de forma que al hacer una búsqueda con BLAST se acelere considerablemente
el proceso.