Siguiente: Práctica
Subir: Manejo avanzado de la consola UNIX/linux
Anterior: Redireccionamiento de entrada y salida.
Índice de Materias
sort
Ordena las líneas de un archivo.
Algunas opciones:
- -k columna por la cual se quiere ordenar
- -u elimina líneas repetidas
- -r ordenamiento descendente
- -n ordena numéricamente
Ejemplos:
- Ordenar por nombre del gene:
$ sort -k3 ECK12.gene > l
- Ordenar por posición del gene en el cromosoma:
$ sort -k4 -n l | more
- Obtener la lista de TFs sin repeticiones:
$ cut -f1 NetWorkSet.txt | sort -u | more
cut
Extrae campos seleccionados de cada línea de un archivo.
Algunas opciones:
- -c especifica los caracteres a cortar de la línea
- -f especifica los campos a cortar de la línea (-f1; -f1,4,7; -f1-3,8; -f3-; -f-3)
- -d define el caracter por el que se delimitan los campos, tabulador por defecto
Ejemplos:
- Extraer el bnumber y el nombre del gene:
$ cut -f2,3 ECK12.gene
- Extraer el nombre del gene y su categoria funcional:
$ cut -f3,8 ECK12.gene
- Extraer el codon de inicio de los genes:
$ cut -f3 genes_db.GeneSeq.txt | cut -c1-3 | more
- Extraer el codon de término de los genes:
$ cut -f3 genes_db.GeneSeq.txt | perl -ne 'if ($_ =~ /(...)$/) { print "$1\n"; }' - | more
uniq
Reporta o filtra líneas consecutivas repetidas.
Algunas opciones:
- -c precede a cada línea el número de veces que la línea se repite.
- -d elimina las líneas que no estan repetidas
- -u elimina las líneas repetidas
Ejemplos:
- Obtener la lista de TFs:
$ cut -f1 NetWorkSet.txt | sort | uniq | more
- total de genes en el strand forward (5-3´) y reverse:
$cut -f6 ECK12.gene | sort | uniq -c
grep
Busca un patrón en un archivo e imprime las lineas donde el patrón fue encontrado.
Algunas opciones:
- -i insensible a mayúsculas o minúsculas
- -w palabra completa
Ejemplos:
- Obtener las genes regulados por LexA:
$ grep -w LexA NetWorkSet.txt | cut -f4 | sort -u
- Obtener los reguladores que regulan a sodA :
$ grep -w sodA NetWorkSet.txt | cut -f1 | sort -u
sed
Es un editor de textos, Veamos como ejemplo como substituir los simbolos + - +- por activador, represor y dual:
$ sed 's/+-/dual/; s/+/activator/; s/\-/repressor/;' NetWorkSet.txt | more
perl
Practical Extraction and Report Language
Algunas opciones en linea de comando:
- -n asume un ciclo 'while (<>) ... ' desde el inicio del programa
- -p asume un ciclo como -n pero imprime tambien la línea
- -e lineas del programa
- -a autosplit,
$_
es almacenado en @F
Veamos algunos ejemplos que manipulan Feature maps en este formato:
- map name (eg: gene name),
- feature type (site, ORF),
- identifier(ex: GATA_box, Abf1_site) ,
- strand (D for Direct, R for Reverse),
- start position (may be negative) ,
- end position (may be negative)
- Poder pintar los genes usando la herramienta feature-map, crear el formato
requerido usando el archivo ECK12.gene
$ perl -a -ne 's/reverse/R/; s/forward/F/; print "$F[2]\tORF\t$F[1]\t$F[5]\t$F[3]\t$F[4]\n";' ECK12.gene >Escherichia_coli_K12.genes
- Genes cuya posicion se encuentre en el intervalo 2000000 - 3000000.
$ perl -a -ne ' if(($F[3]>=2000000) && ($F[3]>=3000000)) { print; } ' ECK12.gene | wc
- Obtener los operones de los genes regulados por LexA
$ grep -w LexA NetWorkSet.txt | cut -f4 | sort -u | infer-operon -org Escherichia_coli_K12 -return operon
Siguiente: Práctica
Subir: Manejo avanzado de la consola UNIX/linux
Anterior: Redireccionamiento de entrada y salida.
Índice de Materias
Centro de Ciencias Genómicas/UNAM, México 2006-7