Programmi di bioinformatica 3

Simplify E’ un programma che trasforma una sequenza proteica in una sequenza semplificata sostituendo i residui con quello rappresentante la classe a cui appartiene il residuo. L’output che si ottiene presenta un’estensione del tipo nomefile.sim. La sequenza che noi diamo deve essere appropriatamente formattata con il programma reformat.

Motifs E’ un programma che ci permette di ricavare informazioni su una proteina utilizzando una proteina non nota e confrontandola con una banca dati di pattern della proteina a funzione nota (cerca pattern presenti nella sequenza data con la banca dati di PROSITE ). La banca dati PROSITE è sostanzialmente un file di testo e la si può scaricare con fetch prosite.patterns.

Uso dei profili Nel caso di una ricerca in banca dati effettuata con FastA, una singola sequenza viene confrontata con tutte le sequenze del database di confronto. Nel confronto tra le sequenze query e tutte le sequenze del database vengono usate delle matrici di sostituzione, ma ogni residuo nel confronto ha un peso pari a quello di tutti gli altri. Sappiamo invece che ci sono residui che devono essere assolutamente conservati per garantire una struttura stabile e una funzione ad una determinata proteina, e residui che potrebbero essere sostituiti da altri senza che la struttura o la funzione della proteina ne risultino compromessi. Non possiamo conoscere quali residui siano cruciali e quali no se conosciamo solo la sequenza della proteina, ma se riusciamo ad avere informazioni sulle caratteristiche delle sequenze di più proteine della stessa famiglia (che abbiano la stessa funzione) potremmo valutare l’importanza dei singoli residui in modo dipendente dalla loro posizione nella sequenza. Tutto questo è possibile proprio utilizzando i programmi per l’allineamento delle sequenze (come pileup) ed oltre ad ottenere informazioni su quali residui siano conservati e quali no da un allineamento multiplo possiamo anche ottenere informazioni sulle regioni della sequenza in cui è possibile accettare inserzioni o delezioni (si tratterà presumibilmente di loops di lunghezza variabile). Tutte le informazioni di questo tipo derivabili da un allineamento multiplo di sequenze possono essere codificate in un profilo o PSSM (Positin Specific Scoring Matrix). Nel profilo ricavato da un allineamento multiplo abbiamo che nella prima colonna è riportata la sequenza consensus del profilo stesso. Ovvero viene riportato il residuo più conservato in ognuna delle colonne dell’allineamento multiplo da cui è stato generato il profilo. La prima riga del profilo allegato corrisponde alla prima colonna dell’allineamento multiplo in tabella, dove viene sempre conservata la metionina. Nelle 20 colonne successive, vengono riportati valori relativi ad ognuno dei 20 aa, ricavati da una matrice di sostituzione considerando la frequenza con cui i diversi residui compaiono nelle colonne dell’allineamento multiplo. Nel caso della prima riga del nostro profilo, il valore più alto è quello corrispondente proprio alla metionina( vedi lucido prof). Le ultime due colonne del profilo riportano i valori di gap penalty e gap extension penalty da assegnare nel confronto. Si noti che i valori possono variare posizione per posizione (cosa che non era prevista in programmi tipo bestfit o fastA) e in particolare sono alti e costanti in tutte le posizioni dell’allineamento in cui non sono state messe in evidenza inserzioni o delezioni, mentre sono più bassi in corrispondenza delle posizioni dell’allineamento in cui sono state messe in evidenza inserzioni o delezioni.

Profilemake è in grado di generare un profilo da una singola sequenza proteica oppure da un allineamento multiplo (generato con pileup). Per ottenere un profilo di un allineamento basta lanciare il programma profilemake e poi quando viene chiesto il file dare nomefile.msf {*} (in genere questo file lo otteniamo dopo aver utilizzato pileup), quest’ultimo simbolo serve per far capire che è un file di allineamento multiplo. L’output che otteniamo ha un’estensione del tipo nomefile.prf.

Indietro

Avanti