Programmi di bioinformatica 2FastA
E’ un programma GCG che
cerca similarità di sequenza tra una sequenza data (sequenza query) e un
gruppo di sequenze (una lista di sequenze o un intero database). La
ricerca di sequenze simili viene fatta attraverso tre passaggi successivi.
Il primo passo della
ricerca può essere visto come una serie di confronti del tipo dot-plot
tra la sequenza query ed ognuna delle
sequenze della lista o del database. Vengono selezionate tutte le sequenze
che hanno un numero minimo di corte sequenze a sequenze della query. La
lunghezza della minima sequenza identica è detta word ed è uno dei
parametri in input del programma, in poche parole vengono cercate corte
sequenze di aminoacidi identiciche. Il
primo passaggio della ricerca serve quindi solo a selezionare i migliori
candidati per un confronto più accurato (punteggio init1 nell’output).
Il
secondo passaggio implica che le sequenze
selezionate con il primo passaggio vengano confrontate con la sequenza
query utilizzando una matrice di sostituzione, che consente di valutare
sostituzioni conservative e non e anche serie di residui identici più
corti della word scelta inizialmente. In questo confronto, ognuna delle
sequenze selezionate nel primo passaggio viene rivalutata ed ad ogni
sequenza viene assegnato un punteggio
(init n).
Nel
terzo passaggio, FastA determina se i
segmenti di similarità determinati nei primi due passaggi possono venire
uniti in segmenti più lunghi. Solo regioni non sovrapposte possono essere
unite. Per ogni coppia di sequenze, un solo punteggio, il più alto, viene
assegnato al miglior allineamento valutato nei tre passaggi successivi.
Tale punteggio è presente nell’output (e elevato alla..). Infine, il
miglior segmento di similarità tra la sequenza query e ognuna delle
sequenze in cui viene effettuata la ricerca viene identificato,
utilizzando una procedura di allineamento. Il punteggio
dell’allineamento è riportato come opt nel file di output. E’
importante ricordare che i
programmi GCG possono accettare in input file
di nomi di files (al
posto di banche dati) cioè file in cui ogni riga è stata ricavata per es
con stringsearch oppure dove ogni sequenza è stata generata con pico. Il
nome del file con la lista dei nomi di files deve essere sempre preceduto
dal simbolo @.
Con le matrici di sostituzione però si fa sempre un’approssimazione ma
comunque è possibile usufruire del gran numero di matrici disponibili nei
programmi GCG. Per acceder ad una nuova matrice si passa attraverso
genhelp, si va in datafiles e da qui a scoring matrices dopodiché la si
modifica e la si prende con fetch,una volta presa la matrice e modificata
è possibile utilizzare la nuova matrice rilanciando il programma con
l’opzione map –matrix= nuova matrice. Con questo programma comunque
per ogni aminoacido della sequenza la sua sostituzione ha uguale peso, invece in una
proteina ci sono aminoacidi che è importante conservare come ad esempio quelli
del sito attivo ed altri che sono meno importanti. Pileup
E’ un programma che serve
per formare gli allineamenti multipli (a differenza di FastA che utilizza
una singola sequenza). L’allineamento multiplo è molto importante perché
permette di individuare i residui che non variano. Pile
up accetta in input file di nomi di files (questo tipo di file vanno
sempre preceduti dal simbolo @),
l’estensione che si ottiene in output per l’allineamento multiplo è
del tipo nomefile.msf. Per fare l’allineamento multiplo vengono usate
tutte le sequenze che gli do (ovvero quelle all’interno del file di nomi
di files). La sequenza che presenta il grado di similarità con le altre
sequenze viene posta in cima al file in output ed al di sotto di essa
vengono poste quelle che gli somigliano di più e così via. In output si
ottengono 3 cose ma noi con il nostro pc ne possiamo visualizzare solo due
di cui una è la lista delle sequenze nell’allineamento mentre l’altra
è l’allineamento stesso, alla terza è associabile un albero
filogenetico (dove proteine simili saranno più vicine tra loro). Tale
file di output è prodotto in
un formato Post script che è un formato di stampa non visualizzabile con
questi pc.
|
|
|
|