Programmi di bioinformatica 2

FastA E’ un programma GCG che cerca similarità di sequenza tra una sequenza data (sequenza query) e un gruppo di sequenze (una lista di sequenze o un intero database). La ricerca di sequenze simili viene fatta attraverso tre passaggi successivi. Il primo passo della ricerca può essere visto come una serie di confronti del tipo dot-plot tra la sequenza query ed ognuna delle sequenze della lista o del database. Vengono selezionate tutte le sequenze che hanno un numero minimo di corte sequenze a sequenze della query. La lunghezza della minima sequenza identica è detta word ed è uno dei parametri in input del programma, in poche parole vengono cercate corte sequenze di aminoacidi identiciche. Il primo passaggio della ricerca serve quindi solo a selezionare i migliori candidati per un confronto più accurato (punteggio init1 nell’output).    Il secondo passaggio implica che le sequenze selezionate con il primo passaggio vengano confrontate con la sequenza query utilizzando una matrice di sostituzione, che consente di valutare sostituzioni conservative e non e anche serie di residui identici più corti della word scelta inizialmente. In questo confronto, ognuna delle sequenze selezionate nel primo passaggio viene rivalutata ed ad ogni sequenza viene assegnato un  punteggio (init n).    Nel terzo passaggio, FastA determina se i segmenti di similarità determinati nei primi due passaggi possono venire uniti in segmenti più lunghi. Solo regioni non sovrapposte possono essere unite. Per ogni coppia di sequenze, un solo punteggio, il più alto, viene assegnato al miglior allineamento valutato nei tre passaggi successivi. Tale punteggio è presente nell’output (e elevato alla..). Infine, il miglior segmento di similarità tra la sequenza query e ognuna delle sequenze in cui viene effettuata la ricerca viene identificato, utilizzando una procedura di allineamento. Il punteggio dell’allineamento è riportato come opt nel file di output. E’ importante ricordare  che i programmi GCG possono accettare in input file di nomi di files (al posto di banche dati) cioè file in cui ogni riga è stata ricavata per es con stringsearch oppure dove ogni sequenza è stata generata con pico. Il nome del file con la lista dei nomi di files deve essere sempre preceduto dal simbolo @. Con le matrici di sostituzione però si fa sempre un’approssimazione ma comunque è possibile usufruire del gran numero di matrici disponibili nei programmi GCG. Per acceder ad una nuova matrice si passa attraverso genhelp, si va in datafiles e da qui a scoring matrices dopodiché la si modifica e la si prende con fetch,una volta presa la matrice e modificata è possibile utilizzare la nuova matrice rilanciando il programma con l’opzione map –matrix= nuova matrice. Con questo programma comunque per ogni aminoacido della sequenza la sua sostituzione ha uguale peso, invece in una proteina ci sono aminoacidi che è importante conservare come ad esempio quelli del sito attivo ed altri che sono meno importanti.

Pileup E’ un programma che serve per formare gli allineamenti multipli (a differenza di FastA che utilizza una singola sequenza). L’allineamento multiplo è molto importante perché permette di individuare i residui che non variano. Pile up accetta in input file di nomi di files (questo tipo di file vanno sempre preceduti dal simbolo @), l’estensione che si ottiene in output per l’allineamento multiplo è del tipo nomefile.msf. Per fare l’allineamento multiplo vengono usate tutte le sequenze che gli do (ovvero quelle all’interno del file di nomi di files). La sequenza che presenta il grado di similarità con le altre sequenze viene posta in cima al file in output ed al di sotto di essa vengono poste quelle che gli somigliano di più e così via. In output si ottengono 3 cose ma noi con il nostro pc ne possiamo visualizzare solo due di cui una è la lista delle sequenze nell’allineamento mentre l’altra è l’allineamento stesso, alla terza è associabile un albero filogenetico (dove proteine simili saranno più vicine tra loro). Tale file di output è prodotto  in un formato Post script che è un formato di stampa non visualizzabile con questi pc.

 

 

Indietro

Avanti