Programmi
di bioinformatica
3
Simplify
E’ un programma che
trasforma una sequenza proteica in una sequenza semplificata sostituendo i
residui con quello rappresentante la classe a cui appartiene il residuo.
L’output che si ottiene presenta un’estensione del tipo nomefile.sim.
La sequenza che noi diamo deve essere appropriatamente formattata con il
programma reformat. Motifs
E’ un programma che ci
permette di ricavare informazioni su una proteina utilizzando una proteina
non nota e confrontandola con una banca dati di pattern della proteina a
funzione nota (cerca pattern presenti nella sequenza data con la banca
dati di PROSITE
). La banca dati PROSITE è sostanzialmente un file di testo e la si può
scaricare con fetch prosite.patterns. Uso dei profili
Nel caso di una
ricerca in banca dati effettuata con FastA, una singola sequenza viene
confrontata con tutte le sequenze del database di confronto. Nel confronto
tra le sequenze query e tutte le sequenze del database vengono usate delle
matrici di sostituzione, ma ogni residuo nel confronto ha un peso pari a
quello di tutti gli altri. Sappiamo invece che ci sono residui che devono
essere assolutamente conservati per garantire una struttura stabile e una
funzione ad una determinata proteina, e residui che potrebbero essere
sostituiti da altri senza che la struttura o la funzione della proteina ne
risultino compromessi. Non possiamo conoscere quali residui siano cruciali
e quali no se conosciamo solo la sequenza della proteina, ma se riusciamo
ad avere informazioni sulle caratteristiche delle sequenze di più
proteine della stessa famiglia (che abbiano la stessa funzione) potremmo
valutare l’importanza dei singoli residui in modo dipendente dalla loro
posizione nella sequenza. Tutto questo è possibile proprio utilizzando i
programmi per l’allineamento delle sequenze (come pileup) ed oltre ad
ottenere informazioni su quali residui siano conservati e quali no da un
allineamento multiplo possiamo anche ottenere
informazioni sulle regioni della sequenza
in cui è possibile accettare inserzioni o delezioni (si tratterà
presumibilmente di loops di lunghezza variabile). Tutte le informazioni di
questo tipo derivabili da un allineamento multiplo di sequenze possono
essere codificate in un profilo o PSSM (Positin Specific Scoring Matrix).
Nel profilo ricavato da un allineamento multiplo abbiamo che nella prima
colonna è riportata la sequenza consensus del profilo stesso. Ovvero
viene riportato il residuo più conservato in ognuna delle colonne
dell’allineamento multiplo da cui è stato generato il profilo. La prima
riga del profilo allegato corrisponde alla prima colonna
dell’allineamento multiplo in tabella, dove viene sempre conservata la
metionina. Nelle 20 colonne successive, vengono riportati valori relativi
ad ognuno dei 20 aa, ricavati da una matrice di sostituzione considerando
la frequenza con cui i diversi residui compaiono nelle colonne
dell’allineamento multiplo. Nel caso della prima riga del nostro
profilo, il valore più alto è quello corrispondente proprio alla
metionina( vedi lucido prof). Le ultime due colonne del profilo riportano
i valori di gap penalty e gap extension penalty da assegnare nel
confronto. Si noti che i valori possono variare posizione per posizione
(cosa che non era prevista in programmi tipo bestfit o fastA) e in
particolare sono alti e costanti in tutte le posizioni dell’allineamento
in cui non sono state messe in evidenza inserzioni o delezioni, mentre
sono più bassi in corrispondenza delle posizioni dell’allineamento in
cui sono state messe in evidenza inserzioni o delezioni. Profilemake
è in grado di generare
un profilo da una singola sequenza proteica oppure da un allineamento
multiplo (generato con pileup). Per ottenere un profilo di un allineamento
basta lanciare il programma profilemake e poi quando viene chiesto il file
dare nomefile.msf {*} (in genere questo file lo otteniamo dopo aver
utilizzato pileup), quest’ultimo simbolo serve per far capire che è un
file di allineamento multiplo. L’output che otteniamo ha un’estensione
del tipo nomefile.prf.
|
|
|
|