7 gennaio 2021

L'ottimalità del codice genetico


Immaginate di prendere una scala a pioli e di torcerla attorno al suo asse di simmetria centrale, ne otterreste una a chiocciola: tale è la struttura in 3D del DNA, con i portanti laterali che così vengono a a formare due eliche una di fronte all’altra (e per questo le chiameremo in seguito ‘semi-eliche’, in giallo nella figura). I pioli o gradini sono di due tipi differenti e debbono essere pensati perpendicolari alle due semi-eliche laterali portanti e sono composti da due parti complementari (dette basi azotate) (2) che sono: la Adenina (indicata con A) che si accoppia unicamente con la Timina (indicata con T) e la Guanina (indicata con G) che si unisce unicamente con la Citosina (indicata con C). 

Quindi i pioli possono essere solo di tipo A+T (o T+A) oppure C+G (o G+C).

Una caratteristica notevole di questa struttura, oltre alla sua semplicità, è il fatto che guardando anche solo una delle due semi-eliche si sa con certezza la composizione della semi-elica opposta, in quanto se un semi-piolo della prima è T allora quello complementare, accoppiato ad esso e che si trova nell’altra semi-elica, è sicuramente A (le due semieliche vengono identificate una con l'etichetta 5'-3' e l'altra con 3'-5'). Questo permette, quando è necessario, la duplicazione del DNA o la scrittura dell’mRNA, senza possibilità di errori, almeno in linea di principio.

Se guardiamo la successione dei semi-pioli nella stessa semi-elica (ed è come se guardassimo nello stesso tempo la successione complementare nell’altra) ci accorgiamo che è quindi una sequela apparentemente casuale di nucleotidi che formano una parola lunghissima, ad esempio tipo AGTCCAAATTGCCT... (nel DNA umano questa ‘parola’ è lunga in totale 3,2 miliardi di lettere). Questa sequenza è come se fosse una lunga ricetta che contiene le istruzioni per costruire ogni parte dell’essere vivente e come farla funzionare, e molte cose di essa non sono state ancora comprese.

La lingua in cui è scritta questa ricetta segue determinate regole, così come accade con le regole grammaticali e sintattiche di qualunque altra lingua. Questo insieme di lettere, parole e regole costituisce il codice.

Un codice è essenzialmente un linguaggio fatto di simboli (tipo le lettere), e di regole per costruire parole dotate di significato e con esse un discorso (3).

Perché il codice funzioni occorre prima di tutto fare la ‘codifica’, cioè è necessario che si creino le parole e i simboli e si decida di associarli a ben determinati oggetti o azioni e  poi si deve insegnare tale codice a chi lo deve usare.

Quest’ultima fase, relativamente alla lingua madre, per noi è stata espletata dai genitori che quando eravamo piccoli ci hanno insegnato il significato delle parole e le regole dell’esprimerci. Da notare che le ‘parole’ sono composte da simboli elementari che per il linguaggio umano sono le lettere dell’alfabeto.

Siccome i computer ‘capiscono’ essenzialmente numeri, per poter dialogare con essi è stato creato un codice ‘elementare’ e di base che ha associato ad ogni lettera o simbolo del nostro linguaggio un ben determinato numero che il computer può ‘leggere’. Un esempio è il codice ASCII, che associa ad ognuno dei numeri sistemati in una tabella delle lettere o dei simboli ortografici del nostro alfabeto o anche le azioni elementari che si rendono necessarie per l’elaborazione, tipo ‘vai a capo’ o ‘cancella’, ‘taglia’, ‘copia’ ecc.

Nell’alfabeto del linguaggio umano una lettera è un simbolo grafico che possiamo scrivere o leggere, ad esempio la ‘B’.

Nel computer una lettera è il contenuto numerico di un byte, ed è composto da una fila ordinata di 8 bit, ogni bit del valore 1 o 0, e non è altro che un piccolo magnete rivolto o con Nord verso l’alto (cioè 1) o con Nord rivolto verso il basso (cioè 0) (4).

Nel DNA una lettera è un 'nucleotide', formato da una  base azotata,  ad esempio indicata con la 'A', che sta per 'Adenina', ed  è quella che forma il semi-piolo  (attaccata a un gruppo fosfato e un desossiribosio che insieme formano formano un pezzo delle eliche laterali a cui la base è legata).

Abbiamo quindi il primo livello di corrispondenza: ad una struttura materiale di un determinato tipo seppur minima (vocale o consonante scritta, contenuto del byte composto da 8 bit, nucleotide) è associato un simbolo che diciamo ‘lettera’ del nostro codice. 

Il passo successivo è la costruzione di ‘parole’ sensate, cioè le aggregazioni di queste lettere a cui viene associato uno significato stabilito: ad esempio nel nostro linguaggio italiano possiamo avere la parola formata dalle quattro lettere in fila (c,a,s,a) che significa appunto ‘casa’ , oppure nel linguaggio del computer la quaterna “99, 97, 110, 101” che è il contenuto numerico di una fila di 4 byte e che, secondo il codice ASCII, indica la nostra parola ‘cane’, oppure nel DNA un 'codone', cioè 3 basi successive nella stessa semi-elica, come ad esempio  'CTG'  (Citosina, Timina,  Guanina) che indica l’amminoacido ‘Leucina’.

Siccome proprio perché nel DNA ad ogni nucleotide deve esserne accoppiato uno complementare, per potere avere una catena che renda possibile in maniera semplice e a prova di errori la copiatura, il sistema o ‘alfabeto’ del codice genetico deve essere composto da coppie tipo ‘positivo e negativo’ e perciò da un numero pari di ‘lettere’ quindi: o binario (con una sola coppia di 'lettere' e quindi con solo due simboli tipo 0 e 1, e che è quello usato nei computer), o quaternario (con due coppie, e quindi con quattro lettere diverse, tipo la coppia Nord e Sud e la coppia Est e Ovest oppure, come avviene nel DNA, la coppia A (Adenina) e T (Timina), e la coppia C (Citosina) e G (Guanina) ), oppure il più complicato senario (con tre possibili coppie e quindi con sei simboli).

Siccome i composti che debbono essere formati sono delle proteine, cioè delle catene i cui anelli sono amminoacidi scelti solo tra i 20 essenziali, nasce la necessità di dare a questi 20 sostanze di base un nome riconoscibile, e occorre indicare anche alcune operazioni elementari quali ‘stop’ e ‘avvio’ e inoltre cercare di limitare il più possibile gli errori di ‘montaggio’, cioè evitare per quanto possibile di scambiare o confondere un amminoacido con un altro che porterebbe alla costruzione di una proteina non funzionale. Ciò comporta che debbono essere usati più dei soli 20 ‘nomi’, e infatti nel codice genetico ce ne sono 64.

Se nel sistema binario si vuole formare un nome con una sola ‘lettera’ (un bit), visto che possono essere utilizzati solo ‘0’ oppure ‘1’, si ottengono solamente due possibili nomi diversi (appunto 0 e 1). Se si utilizzano due lettere di seguito, si potranno formare solo quattro nomi diversi (infatti 2x2 = 4 e sono precisamente 00, 01, 10, 11), se si utilizzano sei lettere, si possono formare 64 ‘nomi’ differenti (infatti 2x2x2x2x2x2 = 2 elevato alla 6 = 64). Nel sistema quaternario i 64 nomi diversi si possono formare invece con solo 3 lettere (infatti sono 4x4x4 = 4 elevato alla 3 = 64), nel sistema senario una doppietta (6x6) farebbe 36 nomi, troppo pochi, mentre una tripletta (6x6x6) farebbe 216 nomi, decisamente troppi visto che ne necessitano solo 64.

Si nota perciò che nel binario si ha una facilità di scelta tra soli due simboli (0 e 1), e quindi con meno possibilità di errore, ma si ha un uso maggiore di materia-energia in quanto si debbono formare parole di 6 lettere, mentre nel senario dovendo scegliere tra 6 simboli c’è più possibilità di errore ma c’è comunque bisogno di parole con 3 lettere per poterne avere 64 di tipo diverso, quindi con lo stesso ‘spreco’ energetico del quaternario. 

Ecco perché in natura è stato ‘scelto’ il sistema di codifica quaternario: esso rappresenta una via di mezzo tra sicurezza e risparmio di energia, perché usando un alfabeto di quattro lettere (A, T, C, G) anziché sei, permette una codifica con meno errori e quindi più semplice e sicura rispetto al senario, e utilizzando solo 3 lettere (ad esempio 'CTG' ) anziché 6 per formare le parole necessarie, permette meno spreco di materia e energia (il 67% in meno) rispetto al sistema binario: quindi a conti fatti risulta il codice ottimale tra quelli possibili.

Dunque il nostro sistema di codifica del DNA è quaternario. Per riasumere: è formato da un ‘alfabeto’ di quattro ‘lettere’ o ‘simboli’ che sono molecole organiche dette ‘basi azotate’ (e precisamente A, T, C, G, dalle iniziali delle ‘basi’ a cui si riferiscono cioè ‘Adenina’, ‘Timina’, ‘Citosina’ e ‘Guanina’) con cui vengono formate dei ‘nomi’ composti da 3 lettere consecutive, detti ‘codoni’, che di solito indicano un amminoacido (ad esempio ‘TCC’,  sta per l’amminoacido ‘Serina’. Da notare che la terzina di basi è il nome dell’amminoacido, non è l’amminoacido!). Per quanto detto prima sulla necessità di limitare gli errori, alcuni amminoacidi sono indicati con più nomi (però sempre di tre ‘lettere’):  alcuni ne hanno ben sei, ad esempio la leucina con una delle terne equivalenti CTT, CTC , CTA, CTG, TTA, TTG (che diventano CUU, CUC , CUA, CUG, UUA, UUG nell'RNA perchè la T viene sostituita con U) mentre altri ne hanno cinque, chi quattro e così via, e solo un paio vengono indicati con un solo ‘nome’ (sono la metionina e il triptofano). Esistono anche codoni,  come ‘ATG’, che indicano l’inizio della ‘costruzione’ o della ‘codifica’ della proteina e altri lo ‘Stop’ della codifica, come ‘TAG’ oppure ‘TAA’ .

Si nota anche che vengono usate tutte le 64 triplette possibili, e quando c’è ridondanza, le terne differiscono solo per l’ultima lettera e questo permette di evitare o comunque rendere più difficili gli errori di identificazione dell’amminoacido, tenuto conto che durante la lettura della tripletta lo sbaglio più frequente è proprio quello sulla lettura dell’ultima lettera. Per cui ad esempio se la tripletta è  CTT che si ritrova nell'mRNA come CUU, e che rappresenta la Leucina, viene letta durante la sintesi della proteina come CUG, scambiando quindi la U con la G, l’amminoacido ‘chiamato’  è sempre la Leucina (5).

Questa struttura a semi-pioli complementari attaccati, permette di eseguire in maniera semplice, rapida e ingegnosa almeno due operazioni fondamentali nel DNA: la sua duplicazione, cioè la costruzione di una sua copia identica e la ‘trascrizione’ di mRNA.

Durante la duplicazione il DNA viene aperto come una cerniera lampo dall’enzima elicasi, e mentre le due eliche complementari così ottenute vengono man mano separate da altri ulteriori enzimi, l’enzima DNA-polimerasi si occupa di inserire le rispettive basi complementari ai semi-pioli di ognuna delle due eliche: ad esempio se trova il semi-piolo G accoppierà quello C, se invece trova A attaccherà T e così via. Alla fine da un solo esemplare di DNA se ottengono due copie identiche, ognuna delle quali è composta con una semi-elica di quello di partenza e l'altra semi-elica creata con questo meccanismo.

Durante la trascrizione si viene a formare l'mRNA (detto 'RNA messaggero'), che è una specie di ricetta, copiata da zone ben definite del DNA dette ‘geni’, che contiene le istruzioni per costruire la proteine da passare ai ‘ribosomi’, che sono macchine molto complesse situate dentro la cellula ma fuori dal nucleo, quello in cui invece risiede il DNA .

Per costruire un mRNA adatto a formare una determinata proteina, il DNA viene aperto nella zona in cui c’è il gene che riguarda quella proteina e l’enzima RNA-polimerasi, come succedeva per il DNA-polimerasi, appaia ad ogni ‘semi-piolo’ della semi-elica che funziona da matrice (la 3'-5') quello complementare, con l’unica differenza rispetto al caso della duplicazione che al posto della Timina (T) viene usato l’Uracile (U). Finita la copia della parte che interessa, questa si stacca divenendo così una macromolecola di mRNA che esce dal nucleo e si reca in un ribosoma dove verrà letta e dove,  mediante il raffinato processo di 'sintesi proteica', verrà formata la proteina a cui si riferisce (ho spiegato un po' più in dettaglio come viene fatta tale sintesi in questo precedente post).

A questo punto viene spontanea la domanda: come è stato possibile che tutto ciò si sia formato con piccoli processi di variazioni ‘a caso’ e di successive selezioni?

L’evoluzionismo darwiniano è nato in un’epoca in cui la genetica era praticamente sconosciuta. Ma ora, man mano che si scoprono sempre più cose complicate nella microbiologia, una posizione prettamente ‘casualista’ sulla formazione di tutto ciò è ancora ragionevolmente sostenibile?

Nel prossimo post affronterò il problema dell’estrema improbabilità della nascita casuale dell’informazione che è alla base dell’organizzazione e del funzionamento della cellula vivente.

(continua)

_______________________________

Note e crediti

(1) la Figura  è presa da "mons.wikimedia.org/w/index.php?curid=20370741"

(2) sono particolari molecole composte da Ossigeno, Idrogeno, Carbonio e Azoto attaccate a due altre molecole che costituiscono le parti degli assi laterali portanti e che sono uno zucchero detto deossiribosio e a un gruppo contenente fosforo

(3) Ad esempio in quello che usiamo tutti i giorni per comunicare abbiamo la parola tipo ‘tavolo’, che indica quell’oggetto fatto di legno e quattro gambe su cui sono appoggiato per scrivere (attenzione la parola ‘indica’ il tavolo ma non ‘è’ il tavolo!) e ‘sedia’ che indica l’oggetto fatto in certo modo su cui sono seduto, oppure il verbo ‘siediti’ che è l’invito ad eseguire l’azione del sedersi e la frase può essere del tipo ‘siediti in quella sedia di fronte al tavolo’.

(4) In informatica, siccome bisogna utilizzare un linguaggio che possa essere ‘compreso’ dal computer, si è scelto il sistema binario, e ognuna delle due possibili ‘lettere’ (0 oppure 1, ovvero polo Nord e polo Sud della cella-magnete elementare che registra il segnale) si chiama ‘bit’. Una sequenza o ‘parola’ di 8 bit si chiama byte. Sono possibili 2 elevato alla 8 byte, cioè 256 byte differenti (fra l’altro 4 bit formano un semi-byte e il suo contenuto numerico, che va da 0 a 16, permette di identificarlo, per cui usando il sistema a base 16, o esadecimale (le cui 16 cifre vengono indicate con 0, 1, 2, 3,...9, A, B, C, D, E, F), si può esprimere con due soli simboli il contenuto di 8 bit, e perciò ad esempio ‘9C’ indica che nel primo semibyte è presente il 9, cioè 1001 e nel secondo semibyte c’è il 12 cioè 1100 . Una delle codifiche che è stata utilizzata inizialmente è quella a 7 bit del codice ASCII che è fatto da 128 simboli differenti,

(5) Inoltre nello scambio di un amminoacido con un altro l’errore più grave è quello di sostituire un amminoacido idrofilo con uno idrofobo, ma si è scoperto che amminoacidi idrofili hanno nomi che differiscono tra loro di solo due lettere e così quelli idrofobi, per cui diventa più improbabile l’errore di scambio tra idrofilo e idrofobo durante la decodifica

(6) le informazioni sul confronto tra i diversi codici, binario, quaternario, senario, le ho tratte dal seguente testo la cui lettura consiglio a chi vuole approfondire:

R. Junker-S. Scherer – Evoluzione – un trattato critico – Gribaudi 2007 

Per ulteriori approfondimenti su struttura DNA e RNA e funzionamento della cellula si può consultare:

Curtis-Barnes – Invito alla biologia. Zanichelli 2009

 

4 commenti:

  1. D.N. Mi permetto di riassumere, essendo il riassunto inutile per chi già sa ma utile forse per chi sta imparando come stanno le cose.

    Le lettere molecolari di cui si serve la cellula sono quattro: A T C G (Adenina, Timina, Citosina, Guanina)

    Le parole che utilizza la cellula per "allineare" gli aminoacidi sono formate da tre delle quattro lettere molecolari disponibili e, così stando le cose, la matematica insegna che le parole usate sono quindi 4x4x4=64. Per brevità elenco le 16 parole comincianti per A (ciò equivale a: le 16 triplette che cominciano con l'adenina) e l'aminoacido che "chiamano ad allinearsi"(rif. Moruzzi, Rossi, Rabbi Principi di Biochimica 1970):
    AAA, AAG: aminoacido Lisina
    AAC, AAU: aminoacido Asparagina
    ACA, ACG, ACC, ACU: aminoacido Treonina
    AGA, AGG: aminoacido Arginina
    AGC, AGU: aminoacido Serina
    AUA, AUC, AUU: aminoacido Isoleucina
    AUG: aminoacido Metionina

    Si capisce che un aminoacido può essere "chiamato ad allinearsi" da triplette diverse, ma anche che a ogni tripletta corrisponde un solo aminoacido: quindi il linguaggio ha più parole dello stretto necessario ma è chiaro.

    In un linguaggio le parole in giusta successione costituiscono una frase, nella cellula la frase necessaria alla quale si arriva è la proteina costituita sempre dagli stessi aminoacidi nello stesso ordine (dipendente dalle triplette presenti nell'acido nucleico e dal loro ordine).

    Ricordo ancora l'enzima ATP sintetasi di cui avevo consigliato di vedere qualche video su youtube: il funzionamento dell'enzima dipende dal fatto che è costituito proprio da quegli aminoacidi allineati in quell'ordine. La struttura dell'enzima oggi si è capito che in definitiva è codificata in un linguaggio fatto da quattro lettere molecolari e da parole di tre lettere (le triplette).

    Dunque, ho cercato di riassumere sperando di favorire maggior consapevolezza da parte dei non addetti ai lavori quando il prof. Canto trarrà le conclusioni sulla questione: caso o progetto?



    RispondiElimina
  2. D.N. Volevo essere chiaro e sintetico, invece chi mi legge può dirmi che sono confuso. Cerco di rimediare.

    Il DNA utilizza le lettere molecolari A T C G (Adenina, Timina, Citosina, Guanina).
    L'RNA, nel quale il DNA viene trascritto, è sintetizzato utilizzando le lettere molecolari A U C G (Adenina, Uracile, Citosina, Guanina).

    E poiché è l'RNA che "chiama gli aminoacidi ad allinearsi" le 64 parole (ciascuna di tre lettere molecolari) corrispondenti ai vari aminoacidi contengono la lettera molecolare U mentre manca la T, cosa che nel mio post precedente non era spiegato.

    Viva la sintesi, ma non a scapito della chiarezza. Mi scuso.

    RispondiElimina
    Risposte
    1. È così. E già che ci sono volevo sottolineare che i 'nomi' degli amminoacidi che ho fornito io sono quelli dei corrispondenti codoni della semielica 5'-3' del DNA, che è la complementare della semielica 3'-5' da cui viene copiato l'RNA. In pratica quindi ci sono le T, mentre nell'RNA ci stanno le U al posto delle T.

      Elimina
    2. Tutto questo è nato dalla esigenza del discorso: quando ho introdotto i 'nomi' stavo parlando infatti dei codoni di DNA e non avevo ancora parlato dell' RNA

      Elimina

Non verranno pubblicati interventi fuori tema o con semplici rimandi con link