4 Poglavlje - Staniƒni Genomi

Poglavlje 4

Poglavlje 4

Organizacija i sekvence staninih genoma

Sloenost eukariotskih genoma

Kromosomi i kromatin

Sekvence itavih genoma

KLJUNI POKUS: Otkrie introna

KLJUNI POKUS: Humani genom

Kao genetiki materijal, DNA daje nacrt za usmjeravanje svih staninih aktivnosti kao i za odreivanje plana razvoja viestaninih organizama. Razumijevanje strukture i funkcije gena prema tome je od fundamentalne vanosti za razumijevanje molekularne biologije stanice. Razvoj metoda kloniranja gena predstavljao je najvaniji korak prema ovom cilju jer je omoguio znanstvenicima seciranje sloenih eukariotskih genoma kao i prouavanje funkcije eukariotskih gena. Kontinuirano napredovanje tehnologije rekombinantne DNA dovelo nas je sada do uzbudljivog trenutka odreivanja redoslijeda parova baza itavih genoma to omoguuje novi pristup deifriranju genetike osnove ponaanja stanice.

Kao to je izloeno u Poglavlju 3, poetna primjena tehnologije rekombinantne DNA bila je usmjerene na izolaciju i analizu pojedinih gena. Unutar posljednjih nekoliko godina, globalniji pristup sekvenciranja itavih genoma doveo je do sekvenciranja kompletnih genomskih redoslijeda mnogih bakterija, kvasca, nekolicine biljnih i ivotinjskih vrsta te ovjeka. Potpune sekvence staninih genoma dale su bogatu etvu informacija, meu kojima su i otkria mnogih do sada nepoznatih gena. Od rezultata projekata sekvenciranja genoma oekuje se da e itav niz godina stimulirati budua istraivanja u molekularnoj i staninoj biologiji te da e imati znaajan utjecaj na nae razumijevanje i terapiju bolesti u ovjeka.


Genomi veine eukariota vei su i sloeniji od prokariotskih (Slika 4.1.). Veliina eukariotskih genoma nije sama po sebi iznenaujua, budui da bi se i oekivalo da se u sloenijim organizmima nalazi vie gena. Ipak, izgleda da veliina genoma nije u razmjeru sa genetskom sloenou. Na primjer, genomi dadevnjaka i ljiljana sadre vie od deset puta veu koliinu DNA od ljudskog genoma, pa ipak posve je jasno da ovi organizmi nisu deset puta sloeniji od ljudskog.

Ovaj prividni paradoks tumai se otkriem da genomi veine eukariontskih stanica ne sadre samo funkcionalne gene ve i velike koliine DNA sekvenci koje ne kodiraju proteine. Razlika u veliini izmeu genoma dadevnjaka i ovjeka dakle vie odraava razliku u veoj koliini nekodirajuih sekvenci nego li u veem broju gena u dadevnjaka. Prisustvo velike koliine nekodirajuih sekvenci jest ope svojstvo genoma sloenih eukariota. Iz toga slijedi da tisuu puta vea duljina ljudskog genoma u usporedbi sa onim u E. coli nije uzrokovana samo veim brojem ljudskih gena. Za ljudski genom se pretpostavlja da sadri 30.000-40.000 gena- samo 10 puta vie nego li onaj E. coli. Prema tome, veliki dio sloenosti eukariotskih genoma rezultat je velike koliine nekolicine razliitih tipova nekodirajuih sekvenci koje ine veinu DNA u stanicama viih eukariota.

Introni i egzoni

Prema molekularnoj terminologiji gen se moe definirati kao dio DNA koji se eksprimira u vidu funkcionalnog produkta i to bilo u obliku RNA (npr. ribosomske i transportne RNA) bilo u obliku polipeptida. Neke od nekodirajuih DNA u eukariota ubrajaju se u duge DNA slijedove koji lee u prostorima izmeu gena (spacer sekvence ili sekvence razmaka). Meutim, unutar veine eukariotskih gena takoer se nalaze velike koliine nekodirajuih DNA sekvenci. Takvi geni imaju podijeljenu strukturu u kojima su segmenti kodirajuih sekvenci (egzoni) razdvojeni pomou nekodirajuih sekvenci (introni) (slika 4.2). itav gen se prepisuje u dugaku RNA molekulu, a onda se introni odstranjuju procesom prekrajanja (prema engl. splicing) tako da samo egzoni ostaju ukljueni u molekulu RNA. Iako introni nemaju nikakvu poznatu ulogu, oni predstavljaju znaajan dio DNA u genomima viih eukariota.

Introni su po prvi put neovisno otkriveni 1977. godine u laboratorijima Phillipa Sharpa i Richarda Robertsa prilikom istraivanja replikacije adenovirusa u kultiviranim humanim stanicama. Adenovirus predstavlja koristan model za prouavanje genske ekspresije zato to genom ovog virusa sadri samo oko 3,5x 104 parova baza kao i zato to se u zaraenim stanicama proizvode velike koliine mRNA adenovirusa. Jedan od pristupa koritenih za karakterizaciju adenovirusne mRNA iao je preko odreivanja smjetaja odgovarajuih virusnih gena promatranjem RNA-DNA hibrida elektronskim mikroskopom. Budui da se RNA-DNA hibridi mogu razlikovati od jednolanane DNA, mogu se odrediti poloaji RNA prijepisa na DNA molekuli. Zaudo, ovakvi eksperimenti otkrili su da se adenovirusne mRNA ne hibridiziraju samo sa jednim podrujem virusne DNA (Slika 4.3). Umjesto toga, pojedina molekula mRNA hibridizira se s nekolicinom odvojenih podruja virusnog genoma. Iz toga slijedi da adenovirusna mRNA ne odgovara neprekidnom prijepisu DNA kalupa; zapravo, mRNA se sklapa iz nekolicine razliitih blokova sekvenci koji potjeu iz razliitih dijelova virusne DNA. Kasnije se pokazalo da se to odvija uz pomo prekrajanja RNA (prema engl. RNA splicing) o emu e se detaljno raspravljati u Poglavlju 6.

Ubrzo nakon otkria introna u adenovirusa, primjeena je slina pojava u kloniranim genima eukariotskih stanica. Na primjer, elektronsko-mikroskopska analiza RNA-DNA hibrida i naknadno sekvenciranje kloniranih genomskih DNA i cDNA ukazali su na to da je kodirajua regija mijeg (-globinskog gena (koji kodira ( podjedinicu hemoglobina) prekinuta dvama intronima koji se odstranjuju prekrajanjem (Slika 4.4). Intronsko-egzonska struktura mnogih eukariotskih gena prilino je komplicirana, a koliina DNA u intronskim sekvencama esto je vea od one u egzonima. Sekvenca ljudskog genoma ukazuje na to da prosjean humani gen sadri otprilike 9 egzona, da je isprekidan sa 8 introna i rasporeen na oko 30.000 parova baza (30 kilobaza ili kb) genomske DNA. Openito egzoni ine samo oko 2 kb, pa prema tome vie od 90% prosjenog humanog gena ine introni.

Introni su prisutni u veini gena sloenih eukariota, iako ne predstavljaju univerzalnu pojavu. Na primjer, introni nedostaju u skoro svim histonskim genima pa je prema tome jasno da introni nisu potrebni za funkcioniranje gena u eukariotskim stanicama. Takoer treba dodati da introni nisu naeni ni u veini gena jednostavnih eukariota kao to kvasci. Nasuprot tome, introni jesu prisutni u nekim rijetkim genima prokariota. Prisutnost ili odsutnost introna prema tome ne predstavlja apsolutnu razliku izmeu prokariotskih i eukariotskih gena iako su introni daleko ei u viih eukariota (biljaka i ivotinja) gdje na njih otpada znatan dio cjelokupne genomske DNA.

Veina introna ne odreuje sintezu nekog staninog proizvoda, iako postoji mali broj introna koji kodiraju funkcionalne RNA ili proteine. Ipak, introni igraju vanu ulogu u kontroli genskog izraaja. Na primjer, prisutnost introna omoguava da se egzoni nekog gena mogu spajati u razliite kombinacije to rezultira sintezom razliitih proteina na temelju jednog te istog gena. Ovaj proces naziva se alternativno prekrajanje (prema engl. alternative splicing) (Slika 4.5.), a budui da se zbiva esto u genima sloenih eukariota, smatra se vanim za poveanje repertoara funkcije 30.000- 40.000 gena ljudskog genoma.

Za introne se takoer misli da su odigrali vanu ulogu u evoluciji olakavajui rekombinaciju izmeu regija za kodiranje proteina (egzona) razliitih gena- procesom koji je poznat pod imenom egzonsko mijeanje (prema engl. exon shuffling). Egzoni esto kodiraju funkcionalno razliite proteinske domene, pa bi rekombinacija meu intronima razliitih gena rezultirala novim genima koji sadre nove kombinacije sekvenci za kodiranje proteina.

U skladu s ovom hipotezom, prouavanja posveena sekvenciranju pokazala su da su neki geni egzonske kimere izvedene od nekolicine gena, a to predstavlja direktni dokaz da novi geni mogu nastati rekombinacijom izmeu intronskih sekvenci.

O evolucijskom porijeklu introna postoje kontroverzna stajalita. Postoji mogunost da su introni bili prisutni rano u evoluciji, prije odvajanja prokariotskih i eukariotskih stanica. Prema ovoj hipotezi, introni su igrali vanu ulogu u poetnom sklapanju sekvenci za kodiranje proteina u drevnih predaka dananjih stanica. Nakon toga, introni su se postupno gubili iz veine gena prokariota i jednostavnijih eukariota (npr. kvasaca) kao odgovor na evolucijsku selekciju koja je davala prednost brzoj replikaciji, pa je to dovelo do bolje protonosti u genomima tih organizama. Meutim, kako brza dioba ne predstavlja prednost u viih organizama, introni su se zadrali u njihovim genomima. S druge strane, introni su moda nastali kasnije tijekom evolucije kao rezultat ugradnje DNA sekvenci u gene koji su se prethodno formirali kao kontinuirane sekvence za kodiranje proteina. Mijeanje gena je onda vjerojatno moralo igrati vanu ulogu u daljnjoj evoluciji gena u viih eukariota iako nije bilo vano za poetno sklapanje kodirajuih sekvenci prije evolucijskog odvajanja prokariotskih i eukariotskih stanica.

Ponovljene DNA sekvence

Introni daju svoj veliki doprinos veliini genoma viih eukariota. U ljudi, na primjer, introni iznose otprilike 25% ukupne genomske DNA. Ipak, jedan jo vei dio sloenih eukariotskih genoma sastoji se od visoko ponovljenih nekodirajuih DNA sekvenci. Ove sekvence, koje su ponekad zastupljene stotinama tisua kopija po genomu, prvi su pronali Roy Britten i David Kohne za vrijeme prouavanja brzine reasocijacije denaturiranih fragmenata stanine DNA (Slika 4.6). Denaturirani lanci DNA hibridiziraju se jedan s drugim (reasociraju) ponovo stvarajui dvostruku uzvojnicu (vidi sliku 3.25). Budui da je reasocijacija DNA uzvojnice bimolekularna reakcija (dva razdvojena lanca moraju se sudariti jedan s drugim ne bi li se hibridizirali), brzina reasocijacije ovisi o koncentraciji DNA lanaca. Kada se pustilo denaturirane fragmente DNA E. coli da se meusobno hibridiziraju, sva DNA jednoliko se reasocirala kao to bi se i oekivalo da je u genomu svaka DNA sekvenca prisutna samo jednom. Ipak, reasocijacija fragmenata DNA izdvojenih iz stanica sisavaca pokazala je posve dugaiju sliku. Otprilike 50% DNA fragmenata reasociralo se brzinom predvienom za sekvence koje su prisutne samo jednom u genomu, a ostatak se reasocirao puno bre nego to bi se oekivalo. Ovi rezultati protumaili su se time da u genomu neke sekvence postoje u vie kopija pa se zbog toga reasociraju puno bre od sekvenci koje su prisutne samo jednom. Ovi pokusi su posebno ukazali na to da se priblino 50% DNA sisavaca sastoji od visoko ponovljenih sekvenci, od kojih su neke ponovljene ak105 do 106 puta.

Daljnje analize, koje su svoj vrhunac doivjele sekvenciranjem itavih genoma, identificirale su nekoliko vrsta ovakvih visoko ponovljenih sekvenci (Tablica 4.1). Jedna od tih vrsti, koja spada meu repetitivne sekvence nazvane ponavljanja jednostavnih sekvenci (prema engl. simple-sequence repeats), sastoji se od uzastopno ponovljenih nizova nekoliko tisua kopija kratkih sekvenci duine od 1 do 500 nukleotida. Na primjer, jedan tip ponavljanja jednostavnih sekvenci u Drosophilae sastoji se od uzastopnih ponavljanja jedinice od sedam nukleotida ACAAACT. Zbog njihovog jedinstvenog sastava, mnoge ponovljene jednostavne DNA mogu se izdvojiti iz ostatka genomske DNA ravnotenim centrifugiranjem u gradijentima gustoe CsCl. Gustoa DNA odreena je sastavom baza, pa sekvence bogate AT bazama posjeduju manju gustou nego li sekvence bogate GC bazama. Zbog toga, jednostavna sekvenca bogata AT bazama smjeta se u gradijentima CsCl u podruju manje gustoe od velike veine genomske DNA Drosophilae (Slika 4.7). Budui da ovakve ponovljene sekvence ine prugu u obliku satelita odvojenih od glavne pruge DNA, esto se o njima govori kao o satelitnim DNA. Ove sekvence ponavljaju se na milijune puta u genomu pa ine oko 10% DNA u veine viih eukariota. Ponavljanja jednostavnih sekvenci ne prepisuju se i ne predstavljaju funkcionalnu genetiku informaciju. Neka ipak igraju vanu ulogu u strukturiranju kromosoma, o emu e se raspravljati u slijedeem odlomku ovog poglavlja.

Ostale ponovljene DNA sekvence prije su ratrkane po genomu nego li nakupljene u obliku uzastopnih ponavljanja. Ovi razbacani ponovljeni elementi najvie doprinose veliini genoma inei otprilike 45% ljudske genomske DNA. Dvije najee vrste takvih sekvenci zovu se SINE (prema engl. short interspersed elements) kratki razbacani elementi i LINE (prema engl. long interspersed elements) dugi razbacani elementi. SINE sadre 100-300 parova baza. Oko 1,5 milijun ovakvih sekvenci proireno je po genomu, te ine otprilike 13% ukupne ljudske DNA. Iako se SINE prepisuju u RNA, ne kodiraju nikakve proteine i nepoznate su funkcije. Najvei ljudski LINE su duine 6-8 kb iako su mnoge ponovljene sekvence izvedene iz LINE krae, sa prosjenom veliinom od oko 1 kb. U genomu postoji oko 850.000 LINE ponavljanja to ini oko 21% ljudske DNA. LINE se prepisuju i barem neki kodiraju proteine, ali kao i SINE nepoznate su uloge u staninoj fiziologiji.

I SINE i LINE su primjeri pokretnih elemenata koji se mogu pomicati na razliita mjesta u genomskoj DNA. Kao to se detaljno raspravlja u Poglavlju 5, i SINE i LINE su retrotranspozoni, pa se njihova transpozicija odvija preko reverzne transkripcije. RNA kopija SINE ili LINE se u stanici pretvara u DNA uz pomo reverzne-transkriptaze, pa se ugrauje na drugom mjestu u genomu. Razbacane repetitivne sekvence tree vrste takoer se pomiu unutar genoma uz pomo reverzne-transkriptaze, jako su nalik na retroviruse pa se stoga i zovu retrovirusu slini elementi (prema engl. retrovirus-like elements). Humani retrovirusu slini elementi pokazuju raspon u duini od otprilike od 2-10 kb. U ljudskom genomu prisutno je oko 450.000 retrovirusu slinih elemenata to iznosi oko 8% ljudske DNA. Za razliku od toga, retrovirusu slini elementi etvrte vrste (DNA transpozoni) pomiu se kroz genom kopiranjem i ugradnjom u obliku DNA sekvenci radije nego li pokretanjem uz pomo reverzne transkripcije. U ljudskom genomu prisutno je oko 300.000 kopija DNA transpozona veliine od 80-3.000 baznih parova, a ine oko 3% ljudske DNA.

Prema tome, blizu polovice ljudskog genoma sastoji se od razbacanih repetitivnih elemenata koji su se replicirali i putovali kroz genom bilo preko RNA bilo preko DNA posrednika, pa je tako reverzna transkripcija bila odgovorna za oblikovanje preko 40% humanog genoma. Neke od ovih sekvenci mogu regulirati gensku ekspresiju, ali veina ponovljenih sekvenci, po svemu sudei, ne daje nikakav korisni doprinos stanici. Umjesto toga, one izgleda da su predstavnici sebinih DNA elemenata koji su selekcionirani zbog vlastite sposobnosti da se umnaaju u genomu, a ne zbog neke selektivne prednosti vane za njihovog domaina. U nekim sluajevima, pokretni elementi izgleda da su igrali vane evolucijske uloge jer su potakli pregradnju gena i doprinosili stvaranju genske raznolikosti.

Duplikacija gena i pseudogeni

Slijedei faktor koji doprinosi veliini eukariotskih genoma jest injenica da mnogi geni postoje u vie kopija od kojih su neke esto nefunkcionalne. Viestruke kopije nekih gena koriste se za sluajeve proizvodnje RNA ili proteina potrebnih u velikim koliinama poput ribosomskih RNA ili histona. S druge strane, odreeni lanovi skupine srodnih gena (porodice gena) mogu se prepisivati u razliitim tkivima ili u razliitim stadijima razvoja. Na primjer, ( i ( podjedinice hemoglobina u humanom genomu su kodirane dvjema genskim porodicama, a razliiti lanovi ovih porodica eksprimiraju se u embrionalnim, fetalnim ili odraslim tkivima (slika 4.9). lanovi mnogih genskih porodica (npr. globinski geni) sakupljeni su u jednom DNA podruju; lanovi ostalih genskih porodica raspreni su u razliitim kromosomima.

Smatra se da su porodice gena nastale duplikacijom izvornog pradjedovskog gena, a razliiti lanovi porodice zatim su se odvajali kao posljedica mutacija nastalih tijekom evolucije. Ovakva divergencija moe voditi evoluciji srodnih proteina koji optimalno funkcioniraju u razliitim tkivima ili u razliitim fazama razvoja. Na primjer, fetalni globini posjeduju vii afinitet za O2 nego li globini odraslog- razlika koja omoguava fetusu da dobije O2 iz majinske cirkulacije.

Ipak, kao to bi se i moglo oekivati, sve mutacije ipak ne poveavaju funkciju gena. Neke kopije gena umjesto toga imaju odrane mutacije koje rezultiraju gubitkom sposobnosti za proizvodnju funkcionalnog genskog produkta. Na primjer, svaka od ljudskih ( i (- globinskih genskih porodica sadri dva gena koji su bili inaktivirani mutacijom. Ovakve nefunkcionalne kopije gena (zvane pseudogeni) predstavljaju evolucijske relikte koji poveavaju veliinu eukariotskih genoma a ne daju nikakav funkcionalni genetiki doprinos.

Duplikacije gena mogu nastati preko dvaju razliitih mehanizama. Prvi predstavlja duplikaciju dijela DNA koja moe rezultirati prijenosom bloka DNA sekvenci na novu lokaciju u genomu. Za ovakve duplikacije DNA segmenata duine od 1 kb do vie od 50 kb procjenjuje se da iznose oko 5% ljudskog genoma. Za razliku od toga, geni se mogu duplicirati obratnim prepisivanjem mRNA, nakon ega slijedi ugradnja cDNA kopije na neko novo kromosomsko mjesto (Slika 4.10). Ovaj nain duplikacije gena, analogan transpoziciji ponovljenih elemenata koji se pokreu preko RNA posrednika, rezultira stvaranjem genskih kopija kojima nedostaju introni pa nemaju ni normalne kromosomske sekvence za usmjeravanje prepisivanja gena u mRNA. Kao rezultat toga, duplikacija gena reverznom transkripcijom obino proizvodi jednu inaktivnu kopiju gena koja se zove obraeni pseudogen. Procjenjuje se da u ljudskom genomu postoji nekoliko tisua ovakvih pseudogena.

Sastav genoma viih eukariota

Budui se raspravljalo o nekolicini vrsta nekodirajuih DNA koje doprinose genomskoj sloenosti u viih eukariota, zanimljivo bi bilo dati pregled sastava staninih genoma. U bakterijskih genoma, veina DNA kodira proteine. Na primjer, genom E.coli dug je oko 4,6x106 parova baza i sadri oko 4.000 gena, a blizu 90% DNA koristi se za kodiranje proteina. Genom kvasca koji se sastoji od 12x106 baznih parova, otprilike je 2,5 puta vei od genoma E. coli, ali je jo uvijek dosta kompaktan. Samo 4% gena Saccharomyces cerevisiae sadri introne, a oni onda obino imaju samo jedan mali intron blizu starta kodirajue sekvence. Otprilike 70% kvaevog genoma koristi se za kodiranje proteina, to ukupno odreuje oko 6.000 proteina.

Relativno jednostavni ivotinjski genomi C. elegans i Drosophilae oko 10 puta su vei od kvaevog genoma, ali sadre samo 2-3 puta vie gena. Umjesto toga, ovi jednostavni ivotinjski genomi sadre vie introna i vie ponovljenih sekvenci tako da sekvence za kodiranje proteina predstavljaju samo otprilike 25% genoma C. elegans i oko 13% genoma Drosophilae. Genom biljnog modela Arabidopsis sadri slian broj gena, a otprilike 26% genoma predstavlja sekvence za kodiranje proteina.

Genomi viih ivotinja (kao i ljudi) su otprilike 20-30 puta vei od onih C. elegans i Drosophilae . Ipak, najvee iznenaenje nakon deifriranja sekvence humanog genoma bilo je otkrie da ljudski genom sadri samo oko 30 000 40 000 gena - tono dvostruki broj gena od onoga u genomima C. elegans i Drosophilae. Izgleda da samo 1 1.5 % humanog genoma sadri sekvence za kodiranje proteina. Otprilike 25 % genoma sastoji se od introna, vie od 60 % sastavljeno je od razliitih tipova repetitivne i duplicirane DNA, dok ostatak odgovara pseudogenima, neponovljenim sekvencama koje razmiu gene i egzonskim sekvencama koje su prisutne na 5' i 3' kraju mRNA ali se ne prevode u protein. Poveanje genoma viih eukariota je prema tome daleko vie posljedica prisutnosti velikih koliina ponovljenih redoslijeda i introna nego li poveanog broja gena.

Kromosomi i kromatin

Ne samo da su genomi veine eukariota daleko sloeniji nego li oni u prokariota, nego je takoer DNA eukarotskih stanica organizirana drugaije nego li ona prokariotskih. Genom prokariota sadran je u jednom kromosomu koji je obino kruna DNA molekula. Za razliku od toga, genom eukariota sastavljen je od vie kromosoma od kojih svaki sadri linearnu molekulu DNA. Iako broj i veliina kromosoma znaajno varira meu vrstama (tablica 4.2) osnovna struktura im je jednaka u svih eukariota. DNA eukariotskih stanica je vrsto vezana na male bazine proteine (histone) koji u staninoj jezgri pravilno pakiraju DNA. To je poprilina zadaa obzirom na to da ukupna duina rastegnute DNA u ljudskoj stanici iznosi skoro 2 m, a mora se uklopiti u jezgru iji je promjer svega 5 do 10 (m.

Kromatin

Kompleks izmeu eukariotske DNA i proteina zove se kromatin, a tipino sadri dvostruko vie proteina nego DNA. Glavni proteini kromatina su histoni- mali proteini koji proporcionalno sadre puno vie bazinih aminokiselina (arginin i lizin) koje olakavaju vezanje na negativno nabijenu molekulu DNA. Postoji pet velikih tipova histona koji se zovu H1, H2A, H2B, H3 i H4, a vrlo su slini u razliitih eukariotskih vrsta (tablica 4.3). Histona ima neobino mnogo u eukariotskoj stanici; njihova zajednika ukupna masa otprilike je jednaka masi stanine DNA. Osim toga, kromatin sadri priblino jednaku masu velikog broja razliitih nehistonskih kromosomskih proteina. Ima vie od tisuu razliitih tipova ovih proteina koji su ukljueni u cijeli niz aktivnosti ukljuivi replikaciju DNA i gensku ekspresiju.

Bazinu strukturnu jedinicu kromatina, nukleosom, opisao je 1974. godine Roger Kornberg (slika 4.11). Dva tipa pokusa dovela su Kornberga do predlaganja nukleosomskog modela. Prvo, djelomina digestija kromatina pomou mikrokokne nukleaze (enzim koji razgrauje DNA) proizvela je fragmente DNA duge oko 200 parova baza. Za razliku od toga, slina digestija gole DNA (koja nije bila vezana s proteinima) dala je jednolini razmaz sluajno razgraenih fragmenata razliitih veliina. Ovi rezultati dali su naslutiti da vezanje proteina na DNA titi odreena podruja DNA od razgradnje nukleazom tako da enzimi mogu napasti DNA samo na mjestima koja su udaljena oko 200 parova baza. U skladu s time, elektronska mikroskopija otkrila je da kromatinske niti imaju zrnca koja su smjetena u razmacima od otprilike 200 parova baza. Tako su obje metode, razgradnja nukleazom i elektronska mikroskopija dovele do pretpostavke da je kromatin sastavljen od ponavljajuih jedinica veliine 200 parova baza pod imenom nukleosomi.

Snanija digestija kromatina mikrokokalnom nukleazom davala je estice (nazvane estice nukleosomske sri) koje odgovaraju zrncima vidljivima pod elektronskim mikroskopom. Detaljnom analizom ovih estica pokazalo se da one sadre 146 baznih parova DNA omotanih 1,65 puta oko histonske sri koja se sastoji od po dviju molekula H2A, H2B, H3 i H4 histona. (slika 4.12). Po jedna molekula petog histona H1 ulazi u svaku esticu histonske sri vezujui se na DNA. Ovo ini kromatinsku podjedinicu poznatu kao kromatosom koja se sastoji od 166 parova baza DNA omotanih oko histonske sri koje zajedno dri H1 (vezni histon).

Pakiranje DNA pomou histona daje kromatinsko vlakno promjera od oko 10 nm, a koje je sastavljeno od kromatosoma odvojenih veznom (prema engl. linker) DNA koja je duga oko 80 parova baza (slika 4.13). Pod elektronskim mikroskopom ovo vlakno debljine 10 nm ima izgled zrnate ogrlice to je i ukazalo na nukleosomski model. Pakiranje DNA u ovakva kromatinska vlakna debljine 10 nm skrauje njegovu duljinu za oko est puta. Kromatin se dalje moe kondenzirati namatanjem u vlakna debljine 30 nm ija struktura se tek mora otkriti. Izgleda da u tom stadiju kondenzacije kromatina vanu ulogu igraju interakcije izmeu molekula H1 histona.

Stupanj kondenzacije kromatina mijenja se tijekom ivotnog ciklusa stanice. U interfaznim stanicama (stanicama koje se ne dijele) veina kromatina (nazvanog eukromatin) relativno je dekondenzirana i proirena kroz cijelu jezgru (slika 4.14). Tijekom ove faze staninog ciklusa, geni se prepisuju a DNA se udvostruava u sklopu pripreme za diobu stanice. Veina kromatina interfazne jezgre izgleda da je prisutna u obliku vlakana debljine 30 nm te je organizirana u velike petlje koje sadre oko 50 do 100 kb DNA. Geni koji se aktivno prepisuju dekondeniziraniji su to ini DNA pristupanijom transkripcijskoj maineriji. Prema tome struktura kromatina blisko je vezana za kontrolu genske ekspresije u eukariota o emu e se raspravljati u poglavlju 6.

Za razliku od eukromatina, otprilike 10% interfaznog kromatina (nazvanog heterokromatin) nalazi se u posebno kondenziranom stanju nalik na ono u kojem se nalazi kromatin tijekom mitoze stanice. Heterokromatin je transkripcijski neaktivan i sadri visoko ponovljene DNA sekvence poput onih koje su prisutne u centromerima i telomerima.

Kako stanica ulazi u mitozu, njezini kromosomi postaju visoko kondenzirani kako bi se mogli prenositi u stanice keri. Smatra se da se petlje kromatinskog vlakna debljine 30 nm dalje presavijaju kako bi oblikovale zgusnute metafazne kromosome mitotikih stanica u kojima se DNA kondenzira skoro 10.000 puta (slika 4.15). Ovako zgusnuti kromatin vie ne moe posluiti kao kalup za sintezu RNA, pa transkripcija prestaje za vrijeme mitoze. Elektronsko-mikroskopske slike ukazuju na to da je DNA metafaznih kromosoma organizirana u velike ome koje su privrene za proteinski kostur (slika 4.16), ali trenutano ne razumijemo niti detaljnu strukturu ovakvog visoko kondenziranog kromatina niti mehanizam kondenzacije kromatina.

Metafazni kromosomi su toliko visoko kondenzirani da se njihova struktura moe prouavati svjetlosnom mikroskopijom (slika 4.17). Nekoliko tehnika bojanja daju karakteristine obrasce svijetlih i tamnih pruga koje se izmjenjuju, a rezultat su razlike u vezanju obinih ili fluorescentnih boja na DNA sekvence bogatije AT ili GC bazama. Ove pruge su specifine za svaki kromosom i izgleda da predstavljaju odreene kromosomske regije. Geni se mogu lokalizirati unutar specifinih kromosomskih pruga in situ hibridizacijom to ukazuje na to da je pakiranje DNA u kromosome jako uredan i reproducibilan proces.

Centromeri

Centromer je specijalizirana regija kromosoma koja igra glavnu ulogu u osiguranju pravilne raspodjele udvostruenih kromosoma stanicama keri tijekom mitoze (slika 4.18). Stanina DNA se replicira za vrijeme interfaze to rezultira stvaranjem dvaju kopija svakog kromosoma prije poetka mitoze. Kada stanica ue u mitozu, kondenzacijom kromatina stvaraju se metafazni kromosomi koji se sastoje od dviju identinih sestrinskih kromatida. Te sestrinske kromatide dre se zajedno na centromeru koji ima oblik konstrikcije na kromosomu. Kako mitoza napreduje, mikrotubuli mitotikog vretena prihvaaju se na centromere, a zatim se dvije sestrinske kromatide razdvoje i kreu na suprotne polove vretena. Na kraju mitoze jezgrine membrane se ponovo formiraju, kromosomi se dekondenziraju, a kao rezultat toga stvaraju se dvije jezgre keri od kojih svaka sadri po jednu kopiju roditeljskog kromosoma.

Centromeri zapravo imaju dvostruku ulogu, prvo kao mjesta udruivanja sestrinskih kromatida i drugo kao mjesta na koja se prihvaaju mikrotubuli diobenog vretena. Sastoje se od specifinih slijedova DNA na koje se vee odreeni broj centromeru pridruenih proteina koji formiraju specijaliziranu strukturu koja se zove kinetohora (slika 4.19). Vezanje mikrotubula na kinetohorne proteine posreduje vezanju kromosoma na mitotiko vreteno. Proteini vezani na kinetohore tada djeluju kao molekularni motori koji upravljaju kretanjem kromosoma du niti vretena razdvajajui tako kromosome u jezgre keri.

Centromerne DNA sekvencije prvo su definirane u kvasca gdje se njihova funkcija moe prouavati praenjem segregacije plazmida u mitozi (slika 4.20). Plazmidi koji sadre funkcionalne centromere razdvajaju se na isti nain kao i kromosomi i jednoliko se rasporeuju u stanice keri nakon mitoze. U odsutnosti funkcionalnog cenromera ne razdvajaju se pravilno, pa mnoge stanice keri ne naslijede plazmidnu DNA. Prouavanja ovog tipa omoguila su da se odrede sekvencije potrebne za funkciju centromera. Ovakvi pokusi prvo su pokazali da su centromerne sekvence dobro poznatog kvasca Saccharomyces cerevisiae sadrane u otprilike 125 parova baza koji se sastoje od triju sekvencijskih elemenata: dvije kratke sekvence od 8 i 25 parova baza odvojene meusobno sa 78 do 86 parova baza DNA koja je jako bogata AT bazama (slika 4.21A).

Izgleda da kratke centromerne sekvence definirane u S. Cerevisiae ipak ne odraavaju situaciju u drugih eukariota. Slinim funkcionalnim pristupom, novije su studije definirale centromere cijepajueg kvasca Schizosacharomyces pombe. Iako su i S. cerevisiae i S. pombe kvasci, izgleda da meusobno divergiraju na isti nain kao to svaka od njih divergira od ovjeka, pa su mnoge znaajke njihove stanine biologije prilino razliite. Tako ove dvije vrste kvasca ine komplementarne modele za jednostavno i lagano prouavanje eukariotske stanice. Centromeri S. pombe proteu se na 40 do 100 kb DNA; oni su priblino tisuu puta dui od onih S. cerevisiae. Sastoje se od centralne sri od 4 do 7 kb jedne kopije DNA kojoj se na bokovima nalaze ponovljene sekvence (slika 4.21B). Ne samo centralna sr nego takoer i bone ponovljene sekvence potrebne su za funkciju centromera, pa izgleda da su centromeri S. pombe daleko sloeniji nego oni S. cerevisiae.

Prouavanjem kromosoma Drosophilae napravljena je prva karakterizacija centromera u viih eukariota (slika 4.21 C). Centromeri Drosophilae proteu se na preko 420 kb od kojih se veina (vie od 85%) sastoji od dvaju visoko ponovljenih satelitnih DNA sa slijedom AATAT i AAGAG. Ostatak centromera sastoji se od rasprenih transponirajuih elemenata, koji se takoer nalaze i na drugim mjestima genoma Drosophilae, kao dodatak neponovljenoj regiji DNA bogatoj AT bazama. Delecija satelitnih sekvenci i transponirajuih elemenata, kao i neponovljene DNA, smanjila je aktivnost centromera u funkcionalnim esejima. Prema tome, obje vrste sekvenci i ponovljene i neponovljene izgleda da doprinose stvaranju kinetohore i funkciji centromera. Centromeri Arabidopsisa takoer izgleda da se proteu preko 500 do 1000 kb i sastoje se velikim dijelom od visoko ponovljenih slijedova.

Centromeri sisavaca karakterizirani su proirenim regijama heterokromatina koji se sastoji od visoko ponovljenih satelitnih DNA sekencija. U ljudi i ostalih primata glavna centomerika sekvenca je (-satelitna DNA koja sadri 171 par baza i uzastopno se ponavlja to se proteu na milijun parova baza. (-satelitna DNA vezana je na proteine pridruene centromeru, a nedavno su pokusi pokazali da je (- satelitni niz ljudskog X kromosoma dovoljan da poslui kao funkcionalni centromer. Ipak, opisani su i abnormalni ljudski kromosomi sa funkcionalnim centromerom kojima nedostaje (-satelitna DNA, pa ostaje i dalje nejasno to je zapravo potrebno za funkciju centromere u viih eukariota.

Telomeri

Sekvencije na krajevima eukariotskih kromosoma, nazvane telomeri, igraju znaajnu ulogu u replikaciji i odranju kromosoma. Telomeri su rano prepoznati kao posebne strukture jer su u eukariotskim stanicama nakon lomljenja kromosomi vrlo nestabilni, pa se pretpostavilo da su neke specifine sekvence potrebne na normalnim krajevima kromosoma. Ovo je zatim pokazano pokusima u kojima su telomeri protozoe Tetrahymena dodani krajevima linearnih molekula DNA plazmida kvasca. Telomerne DNA omoguile su ovim plazmidima da se repliciraju u kvascu kao linearne molekule nalik na kromosome, pa je to bio izravan dokaz da su telomeri potrebni za replikaciju linearnih molekula DNA.

Telomerne DNA sekvence razliitih eukariota su sline i sadravaju ponovljene slijedove jednostavnih sekvenci DNA sa nakupinama G ostataka u jednom lancu (tablica 4.4). Na primjer, sekvenca telomernih ponavljanja u ovjeka i ostalih sisavaca je AGGGTT, a telomerno ponavljanje u Tetrahymeni je GGGGTT. Ove sekvence su ponovljene stotinama ili tisuama puta, pa zauzimaju nekoliko kilobaza i zavravaju sa jednim jednolananim repom. Ponovljene sekvence telomernih DNA ine ome na krajevima kromosoma te ujedno veu odreeni broj proteina koji uvaju kromosomske krajeve od razgradnje ili meusobnog spajanja (slika 4.22).

Telomeri igraju glavnu ulogu u replikaciji krajeva linearne DNA molekule (vidi poglavlje 5). DNA-polimeraza moe produiti rastui DNA lanac, ali ne moe zapoeti sintezu novog lanca na kraju linearne DNA molekule. Prema tome, krajevi linearnih kromosoma ne mogu se replicirati normalnom akcijom DNA-polimeraze. Taj problem rijeen je evolucijom posebnog mehanizma koji ukljuuje aktivnost reverzne-transkriptaze za replikaciju telomernih DNA sekvenci. Odranje telomera izgleda da je vaan faktor u odreivanju duine ivota i reproduktivne sposobnosti stanice, pa prouavanje telomera i telomeraze obeavaju nove uvide u procese starenja i nastanka raka.

Sekvence itavih genoma

Neka od najuzbudljivijih novih otkria u molekularnoj biologiji predstavljaju rezultate analize kompletne nukleotidne sekvence humanog genoma i genoma nekolicine modelnih organizama meu kojima su E. coli, Saccharomyces cerevisiae, Caenorhabditis elegans, Drosophila, Arabidopsis i mi (tablica 4.5). Rezultati sekvenciranja itavih genoma odveli su nas dalje od karakterizacije pojedinih gena sve do globalnog pogleda na organizaciju i genski sadraj itavih genoma. Ovakav pristup potencijalno vodi do identifikacije svih gena nekog organizma koji tada postaju pristupani istraivanju njihove strukture i funkcije. Pri tome je zanimljivo da se, kako uimo objanjavati ogromnu koliinu podataka koju je generiralo sekvenciranje itavih genoma, pojavljuju novi izazovi i novo podruje nazvano bioinformatikom koje lei na granici izmeu biologije i kompjutorske znanosti, a usmjereno je na razvoj raunalnih metoda potrebnih za analizu i izdvajanje korisnih biolokih podataka iz sekvence milijardi bazi koje tvore genom veliine humanog. Iako jo puno toga ostaje za nauiti, genomski redoslijedi koji su ve dostupni opskrbili su znanstvenike s jedinstvenom bazom podataka koja se sastoji od nukleotidnih sekvenci itavog kompleta gena. Budui da mnogi od tih gena nisu prije bili prepoznati, odreivanje njihove funkcije stvoriti e osnovu za mnoga budua istraivanja u staninoj biologiji.

Prokariotski genomi

Sada poznajemo potpuni genomski redoslijed vie od ezdeset razliitih bakterija, a jo vie takvih redoslijeda je upravo u procesu odreivanja. Prvu potpunu sekvencu staninog genoma objavila je 1995. godine grupa istraivaa pod vodstvom Craiga Ventera, a radilo se o bakteriji Haemophilus influenzae koja je esti stanovnik dinog sustava. Genom H. influenzae sadri oko 1,8x106 parova baza (1,8 megabaza ili Mb) to je malo manje od polovice veliine genoma E. coli. Potpuna nukleotidna sekvenca ukazala je na to da je genom H. Influenzae kruna molekula koja sadri 1.830.137 parova baza DNA. Sekvenca je tada analizirana na gene koji kodiraju rRNA, tRNA i proteine. Potencijalna podruja za kodiranje proteina identificirana su kompjutorskom analizom DNA redoslijedova kako bi se otkrili otvoreni okviri itanja (prema engl. open-reading frames)- dugi nizovi nukleotidnih sekvenci koji mogu kodirati polipeptide jer ne sadre ni jedan od stop kodona (UAA, UAG i UGA). Budui da se ovi kodoni koji zaustavljaju prevoenje polipeptidnog lanca nasumce pojavljuju jednom na svaki 21 kodon (3 stop kodona od ukupno 64 kodona), otvoreni okviri itanja koji se proteu na vie od stotinu kodona obino predstavljaju funkcionalne gene.

Ovakvom analizom u genomu H. Influenzae otkriveno je est kopija gena za rRNA, 54 razliitih tRNA gena i 1743 potencijalnih regija za kodiranje proteina (slika 4.23). Na temelju njihove podudarnosti sa poznatim proteinskim sekvencama, vie od tisuu ovih regija povezano je odreenom biolokom ulogom (kao npr. enzim ciklusa limunske kiseline), ali ostali predstavljaju gene nepoznate funkcije. Pretpostavljene kodirajue sekvence imaju prosjenu veliinu od oko 900 parova baza, pa pokrivaju oko 1,6 Mb DNA to ini blizu 90% genoma H. Influenzae.

Kompletna sekvenca genoma Mycoplasma genitalium posebno je zanimljiva jer su mikoplazme najmanje dananje bakterije i od svih poznatih stanica sadre najmanje genome. Genom M. genitalium duine je samo 580 kb (0,58 Mb) te vjerojatno predstavlja minimalni komplet gena potreban za odranje organizma koji se sam razmnoava. Analiza DNA sekvence M. genitalium ukazuje na to da ona sadri samo 470 sekvenci za kodiranje proteina, a to ini otprilike 88% genomske DNA. Mnoge od tih sekvenci su identificirane kao geni koji kodiraju proteine ukljuene u replikaciju DNA, transkripciju, translaciju, membranski transport i energetski metabolizam. Ipak, M. genitalium sadi mnogo manje gena za enzime metabolizma od H. Influenzae to predstavlja odraz njenog ogranienijeg metabolizma. Na primjer, mnogi geni za koje se zna da kodiraju komponente biosintetikih puteva nedostaju u genomu M. genitalium, a to je u skladu s njezinom potrebom da uzima aminokiseline i prekursore nukleotida iz domaina. Zanimljivo je da genom mikoplazme takoer sadri otprilike 150 gena kojima je funkcija trenutno nepoznata. Tako ak i u najjednostavnijoj stanici tek preostaje da se odredi bioloka funkcija mnogih gena.

Genomski redoslijed arhebakterije Methanococcus janaschii, objavljen 1996. godine, omoguio je znaajan uvid u evolucijske odnose izmeu arhebakterija, eubakterija i eukariota. Genom M. janaschii veliine je 1,7 Mb i predvia se da sadri 1.738 sekvenci za kodiranje proteina- sline je veliine kao i genom H. influenzae. Ipak, samo oko treine sekvenci za kodiranje proteina koje su otkrivene u M. janaschii srodne su poznatim genima eubakterija ili eukariota to ukazuje na posebnost genetskog sastava arhebakterija. Geni za kodiranje proteina M. janaschii ukljueni u proizvodnju energije i biosintezu staninih sastojaka srodni su onima u eubakterija to namee pretpostavku da su se osnovni metaboliki procesi razvili u zajednikom pretku arhebakterija i eubakterija. Znaajno je da su ipak geni za kodiranje proteina potrebnih za udvostruavanje, prepisivanje i prevoenje DNA u bliem srodstvu sa genima u eukariota nego li sa onima u eubakterija. Genomsko sekvenciranje ove arhebakterije, dakle, ukazuje na to da arhebakterije i eukarioti dijele zajedniku evolucijsku liniju i u bliem su srodstvu nego li to je bilo koji od njih sa eubakterijama (vidi sliku 1.8).

Iako su relativna jednostavnost i lakoa genetike E. coli od nje napravili omiljeni organizam molekularnih biologa, genom E.coli od 4,6 Mb nije bio potpuno sekvenciran sve do 1997. godine. Analiza sekvence E. coli otkrila je ukupno 4.288 gena, a sekvence za kodiranje proteina ine 88% njenog genoma. Od 4.288 gena otkrivenih sekvenciranjem, 1.835 gena bilo je ve prethodno identificirano, a funkcija dodatnih 821 mogla se izvui iz usporedbi sa sekvencama gena karakteriziranih u drugim organizmima. Ipak, funkcija 1.632 gena E. coli (oko 40% genoma) nije se mogla odrediti. Tako nam genomsko sekvenciranje pokazuje da se jo mnogo toga mora nauiti o staninoj biologiji prokariota, pa ak i u jednog tako iscrpno istraivanog organizma poput E. coli.

Kvaev genom

Kao to je ve napomenuto, najjednostavniji eukariotski genom (1,2x 107 parova baza DNA) pronaen je u kvasca Saccharomyes cerevisiae. tovie, kvasci rastu brzo i mogu se podvrgnuti jednostavnim genetikim manipulacijama. Zbog toga kvasci na vie naina predstavljaju model eukariotskih stanica koji se moe puno lake prouavati nego li stanice sisavaca i ostalih viih eukariota. U skladu s time, potpuno sekvenciranje jednog itavog kvaevog kromosoma 1992. godine (slika 4.24) te zatim odreivanje sekvence itavog kvaevog genoma 1996.godine, predstavljalo je najvanije korake u razumijevanju molekularne biologije eukariotskih stanica.

Genom S. cerevisiae sadri oko 6.000 gena, meu kojima se predvia da se nalazi 5.885 sekvenci za kodiranje proteina, 140 gena za ribosomsku RNA, 275 gena za transportnu RNA i 40 gena koji kodiraju male jezgrine RNA (snRNA) ukljuenih u obradu RNA (vidi raspravu u poglavlju 6). Prema tome, kvasci posjeduju veliku gustou sekvenci koje kodiraju proteine to je slino bakterijskim genomima, a te sekvence ine oko 70% ukupne kvaeve DNA. U skladu s time, samo 4% kvaevih gena sadre introne. tovie, geni S. cerevisiae koji sadre introne obino imaju samo jedan mali intron blizu poetka gena.

Kompjutorskom analizom temeljenom na slinostima sa sekvencama poznatih gena predviene su u S. cerevisiae funkcije za oko 3.000 sekvenci za kodiranje proteina. Temeljeno na analizi ovih gena, izgleda da oko 11% proteina kvasca djeluju u metabolizmu, 3% u proizvodnji i pohrani metabolike energije, 3% u replikaciji DNA, popravku i rekombinaciji, 7% u prepisivanju, 6% u prevoenju, a 14% u sortiranju proteina i transportu. Ipak, funkcije mnogih od ovih gena opisuju se samo opim terminima (kao to je transkripcijski faktor), pa tek treba odrediti njihovu tonu ulogu u stanici. tovie, budui da polovica proteina kodiranih kvaevim genomom nije bila u nikakvoj vezi sa prethodno opisanim genima, preostaje da se funkcija dodatnih 3.000 nepoznatih proteina rasvijetli genetikim i biokemijskim analizama.

Sekvencu genoma S. cerevisiae nedavno je slijedila sekvenca genoma cijepajueg kvasca S. pombe. Prema prethodnoj raspravi u ovom poglavlju, S. cerevisiae i S. pombe prilino su divergentni i njihova biologija se razlikuje po mnogo emu, ukljuivi i strukturu centromera (vidi sliku 4.21). Zanimljivo je da i njihovi genomi pokazuju priline razlike. Iako obje, S. cerevisiae i S. pombe, posjeduju otprilike istu koliinu jedinstvenih DNA sekvenci (12,5 Mb), S. pombe izgleda da sadri samo oko 4.800 gena. Introna ima mnogo vie u S. pombe nego li u S. cerevisiae. Otprilike 43% gena S. pombe sadri introne, a introni S. pombe su vei od onih u S. cerevisiae, pa sekvence za kodiranje proteina ine samo oko 60% genoma S. pombe.

Veina gena S. pombe ima homologe u genomu S. cerevisiae, ali oko 700 gena jedinstveno je za S. pombe.

Sada, kada su upotpunjene genomske sekvence kvasca, glavni cilj postaje odreivanje funkcije mnogih novih gena S. cerevisiae i S. pombe. Na svu sreu, kvasci su naroito pristupani funkcionalnoj analizi nepoznatih gena zbog lakoe sa kojom se normalni kromosomi mogu inaktivirati homolognom rekombinacijom sa kloniranim sekvencama (vidi sliku 3.39). Prema tome, moe se sistematski provoditi izravna funkcionalna analiza kvaevih gena koji su u poetku bili otkriveni samo na bazi svoje nukleotidne sekvence. Tako je sekvenciranje kvaevih genoma otvorilo vrata prouavanju mnogih novih podruja biologije jednostavnih eukariotskih stanica. Oekuje se od ovakvih studija da otkriju funkcije mnogih novih gena koje ne bi bile ograniene samo na kvasce nego zajednike svim eukariotima ukljuivi i ovjeka.

Genomi Caenorhabditis elegans i Drosophilae melanogasterGenomi C. elegans i Drosophilae relativno su jednostavni animalni genomi, a po veliini i sloenosti dolaze izmeu kvaevog i ljudskog genoma. Posebne karakteristike svakog od ovih organizama ine ih vanim modelima za analizu genoma: C. elegans na veliko se koristi za prouavanje animalnog razvoja, a Drosophila je posebno dobro istraena to se tie genetike. Genomi ovih organizama su, ipak, oko deset puta vei od onih kvaevih to predstavlja faktor koji unosi novi red veliine u teinu kartiranja i sekvenciranja genoma. Prema tome, odreivanje sekvence C. elegans 1998. godine predstavljalo je vaan putokaz za analizu genoma jer je proirilo sekvenciranje genoma sa jednostaninih organizama (bakterija i kvasaca) na viestanine organizme koji su prihvaeni kao vaan model animalnog razvoja.

U poetnoj fazi analize genoma C. elegans koristili su se DNA ulomci klonirani u kozmidima koji mogu prihvatiti DNA inserte od oko 40 kb (vidi tablicu 3.3). Ovim pristupom se ipak nije mogao pokriti itavi genom, pa je to postignuto kloniranjem puno veih komada DNA sa kvaevim umjetnim kromosomima (YAC- engl. yeast artificial chromosome) kao vektorima. Kao to je napomenuto u poglavlju 3, jedinstveno svojstvo YAC-ova jest da sadre centromere i telomere to im omoguuje replikaciju u kvascu u obliku lineranih molekula nalik na kromosome. Prema tome, mogu se koristiti za kloniranje DNA fragmenata veliine kvaeve kromosomske DNA, sve do tisua kilobaza duine. Veliki inserti DNA koji se mogu klonirati s YAC-ovima i ostalim vektorima velikog kapaciteta od presudne su vanosti za analizu sloenih genoma.

Genom C. elegans dug je 97x 106 parova baza, a prema predvianjima sadri oko 19.000 kodirajuih sekvenci za proteine to je po prilici tri puta vei broj od broja gena u kvasca (slika 4.25). Za razliku od kompaktnog genoma u kvasca, geni C. elegans proteu se na oko 5 kb i sadre prosjeno pet introna. Sekvence za kodiranje proteina tako iznose samo oko 25% genoma C. elegans u usporedbi sa 60-70% u S. pombe i S. cerevisiae te blizu 90% u bakterijskom genomu.

Otprilike 40% proteina predvienih u C. elegans pokazalo je znaajnu slinost sa poznatim proteinima drugih organizama. Kao to se i oekivalo, postoje znaajno vee slinosti izmeu proteina C. elegans i ovjeka nego izmeu proteina C. elegans i bilo kojeg od kvasaca ili bakterija. Proteini koji su zajedniki C. elegans i kvascu moda djeluju u osnovnim staninim procesima koje ti organizmi dijele poput metabolizma, udvostruavanja DNA, prepisivanja, prevoenja i razvrstavanja proteina. Sama sr biolokih procesa izgleda da se odvija pomou slinog broja gena u oba organizma, a mogue je da ove gene dijele sve eukariotske stanice. Za razliku od toga, veina gena C. elegans nije pronaena u kvasca pa moda djeluje u suptilnijim regulatornim aktivnostima koje su potrebne za razvoj viestaninih organizama. Vjerojatno je da e rasvjetljavanje djelovanja ovih gena biti posebno uzbudljivo obzirom na razumijevanje animalnog razvoja. Iako odrasla C. elegans sadri samo 959 somatskih stanica u itavom svom tijelu, ona posjeduje sve specijalizirane stanine tipove kao i sloenije ivotinje. tovie, opisan je kompletni uzorak odvijanja staninih diobi prilikom razvoja C. elegans kao i analiza uspostavljanja veza svih 302 neurona u odrasloj ivotinji. Ve se pronalo da su mnogi od ovih gena ukljuenih u razvoj i diferencijaciju C. elegans srodni genima koji su ukljueni u kontrolu proliferacije i diferencijacije stanica sisavaca to daje pravi dokaz vrijednosti C. elegans kao modela za sloenije ivotinje. Nema sumnje da e se preko prouavanja genomske sekvence C. elegans razotkriti jo mnogo vie gena presudnih za kontrolu razvoja.

Drosophila predstavlja drugi kljuni model animalnog razvoja koji je naroito dobro genetiki okarakteriziran. Prednosti Drosophilae za genetiku analizu ukljuuju njezin relativno jednostavan genom kao i injenicu da se moe lako uzgajati i kriati u laboratoriju. Uz to u Drosophili postoji posebno orue za genetiku analizu u vidu gorostasnih politenih kromosoma koji se nalaze u nekim tkivima poput lijezda slinovnica larve. Ovi kromosomi nastaju u stanicama koje se ne dijele kao posljedica ponovljenih replikacija DNA lanaca koji se ne odvajaju jedan od drugoga. Tako svaki od politenih kromosoma sadri na stotine identinih paralelnih molekula DNA. Zbog svoje veliine politeni kromosomi vidljivi su pod svjetlosnim mikroskopom, a odreenim bojanjem otkrivaju se posebni uzorci pruganja (slika 4.26). Pruganje politenih kromosoma postie daleko vei stupanj rezolucije od onoga koji se postie u metafaznim kromosomima (npr. vidi sliku 4.17). Politeni kromosomi su dekondenzirani interfazni kromosomi koji sadre gene koji se aktivno prepisuju. Vidljivo je vie od 5.000 pruga od kojih svaka odgovara srednjoj duljini od otprilike 20 kb DNA. Za razliku od toga pruge identificirane u ljudskim metafaznim kromosomima sadre nekoliko megabaza DNA.

Uzorak pruganja politenih kromosoma predstavlja fiziku kartu genoma Drosphilae visoke rezolucije. Delecije gena esto se mogu povezati sa gubitkom specifine kromosomske pruge, pa se na taj nain odreuje posebno fiziko mjesto gena na kromosomu. Dodatno se mogu in situ hibridizacijom kartirati klonirane DNA na politene kromosome to esto daje dostatnu rezoluciju za lokalizaciju kloniranih gena na specifinim prugama (slika 4.27). Tim nainom mogu se lako odrediti pozicije kozmidnih ili YAC klonova (koji se proteu preko vie pruga) na karti, te se tako dobije osnova za analizu genomske sekvence.

Radi moi Drosophiline genetike, sekvenciranje njezinog genoma poetkom 2000. godine predstavljalo je vaan napredak za genomsku analizu. Genom Drosphilae sastoji se od otprilike 180x106 parova baza, a od toga je po prilici jedna treina u obliku heterokromatina. Heterokromatin se sastoji uglavnom od ponavljanja jednostavnih satelitnih sekvenci te razbacanih transponirajuih elemenata to sve nije bilo ukljueno u genomsku sekvencu. Ostatak od 120x106 parova baza eukromatina sekvencirano je upotrebom kombinacije klonova bakterijskog umjetnog kromosoma (BAC- engl. bacterial artificial chromosome) koji nose velike inserte DNA te metodom samarice (shotgun) u kojoj su mali fragmenti DNA nasumino klonirani i sekvencirani u plazmidnim vektorima. Sekvence ovakvih malih fragmenata DNA zatim su sastavljene u velike kontinuirane sekvence odreivanjem preklapanja meu tim fragmentima te su im odreeni smjerovi pomou BAC klonova kako bi se dobila potpuna sekvenca eukromatinskog dijela Drosophilinog genoma.

Drosophilin genom sadri oko 13.600 gena to je neto manje od broja gena u C. elegans. Kao i u C. elegans i u Drosphilae geni sadre prosjeno 4 introna, a ukupna koliina intronskih sekvenci slina je koliini egzonskih sekvenci. Ukupno 13% Drosophilinog genoma sastoji se od sekvenci za kodiranje proteina. Iako Drosophila ima manje gena od C. elegans, vano je napomenuti da su mnogi geni duplicirani u oba ova organizma. Kada se uzmu u obzir duplikacije, izgleda da je broj jedinstvenih gena slian u Drosophile i C. elegans- izmeu 8.000 i 9.000 gena. Otprilike 20% gena Drosophilae srodno je genima prisutnima i u kvascu i u C. elegans- proteini kodirani ovim genima moda posjeduju funkcije koje su zajednike svim eukariotskim stanicama. Ostali geni Drosophilae srodni su genima koji su pronaeni u C. elegans , ali ne i u kvascu ili su jedinstveni za Drosophilu.

Ono to naroito upada u oi jest da kompleksna ivotinja poput Drosophilae posjeduje samo dvostruko vei broj jedinstvenih gena od kvasca koji po svemu sudei spada u mnogo jednostavnije organizme. Oito je da sloenost viestaninih organizama nije na jednostavan nain povezana sa veim brojem gena. Dio vee bioloke sloenosti Drosophilae i C. elegans moda proizlazi iz injenice da su njihovi proteini openito vei te sadre vie funkcionalnih domena nego proteini kvasca. Daljnja prouavanja i funkcionalna analiza gena koji su otkriveni sekvenciranjem genoma Drosophilae i C. elegans bez svake sumnje e igrati odlunu ulogu u razumijevaju naina na koje ovi geni djeluju prilikom usmjeravanja sloenog procesa animalnog razvoja.

Biljni genomi

Zavretak sekvenciranja genoma Arabidopsis thaliana 2000. godine proirio je sekvenciranje genoma sa ivotinja na biljke, pa je tako dolo do najvanijeg dogaaja u biljnoj biologiji. Arabidopsis thaliana je jednostavna cvjetnica koja je na veliko koritena kao model za prouavanje molekularne biologije i razvoja biljke. Ovaj organizam ima tu prednost da kao model za prouavanje molekularne biologije i genetike ima relativno mali genom od otprilike 15x106 parova baza, to po veliini slino genomima C. elegans i Drosophilae. Kao i Drosophilin genom i genom Arabidopsis thaliana uglavnom je sekvenciran koritenjem BAC vektora za prihvat velikih umetaka DNA.

Iznenaujue je bilo kad je analiza genoma Arabidopsis thaliana ukazala na to da on sadri 26.000 gena za kodiranje proteina to je znaajno vie gena nego to je pronaeno bilo u C. elegans bilo u Drosophilae. Ipak, ovaj neoekivano velik broj gena ne odraava veu raznolikost proteina kodiranih genomom Arabidopsisa. Umjesto toga, izgleda da je veliki broj gena u Arabidopsisa rezultat duplikacija velikih komada genoma Arabidopsisa. Te duplikacije ukljuuju otprilike 60% genoma, pa se procijenilo da je broj razliitih gena koji kodiraju proteine oko 15.000 to je slino broju gena u C. elegans i Drosophilae.

Gustoa gena u Arabidopsisa slina je onoj u C. elegans, pa sekvence koje kodiraju proteine ine oko 25% genoma Arabidopsisa. Geni Arabidopsisa imaju oko 4 introna, a ukupna duina intronskih sekvenci priblino je jednaka ukupnoj duini egzonskih sekvenci. Pokretni elementi sudjeluju sa oko 10% u genomu Arabidopsisa. Kao i u Drosophili ponavljajui pokretni elementi skupljeni su na centromerima zajedno s satelitnim ponavljajuim sekvencama.

Komparativna analiza funkcije gena Arabidopsisa otkrila je zanimljive slinosti kao i razlike izmeu gena biljaka i ivotinja. Geni Arabidopsisa koji su ukljueni u osnovne stanine procese kao to su udvostruavanje DNA, popravak, prepisivanje, prevoenje i promet proteina slini su onima u kvasca, C. elegans i Drosophilae to odraava zajedniko evolucijsko porijeklo svih eukariotskih stanica. Za razliku od toga geni Arabidopsisa koji kodiraju proteine ukljuene u procese poput stanine signalizacije i membranskog transporta prilino su razliiti od onih u ivotinja to je u skladu s velikim razlikama u fiziologiji i razvoju izmeu biljaka i ivotinja. Oko treine svih gena Arabidopsisa izgleda da su jedinstvene za biljke, budui da ih nema niti u kvaevim niti u ivotinjskim genomima. Najvea funkcionalna skupina gena Arabidopsisa, koja zauzima 22% genoma, kodira proteine ukljuene u metabolizam i fotosintezu (slika 4.28). Druga velika grupa gena (12% genoma) kodira proteine ukljuene u obranu biljke. Takoer je vano napomenuti da Arabidopsis kodira vie od 3.000 proteina koji reguliraju transkripciju (to iznosi 17% genoma). Broj proteina koji reguliraju gensku aktivnost (tanskripcijski faktori) dva puta je vei od onoga koji je pronaen u Drosophilae ili tri puta vei od onoga koji je pronaen u C. elegans. Mnogi od transkripcijskih faktora Arabidopsisa jedinstveni su za biljke, to je vjerojatno odraz posebnih oblika genske ekspresije tijekom razvoja biljke te odgovora biljke na okoli.

Sekvencu Arabidopsisa 2002. godine slijedilo je objavljivanje dviju skica sekvenci riinog genoma. Ria je neobino vana jer predstavlja glavni prehrambeni proizvod za vie od polovice svjetskog stanovnitva, pa e sekvenciranje genoma rie moda dovesti do vrlo znaajnih primjena u poljoprivredi i biotehnologiji. Dvije skupine istraivaa su objavile skice sekvenci genoma dviju podvrsta rie: podvrste indica koja je najrasprostranjenija podvrsta u Kini i veini ostatka Azije; i podvrste japonica koja je omiljena u Japanu. Iako obje ove genomske sevence jo uvijek nisu posve kompletirane nego postoje samo u obliku skice sa mnogo pukotina koje se tek moraju popuniti, one daju veliku koliinu korisnih podataka.

Riin genom sastoji se oko 440x106 parova baza DNA, pa je skoro 4 puta vei od genoma Arabidopsisa. Otprilike 45% riinog genoma sastoji se od ponovljnih sekvenci ukljuivi i ponavljanja jednostavnih sekvenci i pokretne elemente. Procjene broja gena u skici sekvence riinog genoma proteu se od 32.000 do 50.000. Ove procjene razlikuju se u razliitim istraivakim grupama pa preostaje da se poboljaju daljnjim analizama. Usprkos svemu izgleda da riin genom sadri vie gena nego onaj Arabidopsisa, a mogue je da sadri vie gena od ljudskog genoma. Kao i Arabidopsis , ria sadri mnogo dupliciranih gena (vie od 70%) to se moda dogodilo kao rezultat duplikacije velikih dijelova genoma. Zanimljivo je da je vie od 80% gena koji su pronaeni u Arabidopsisa takoer pronaeno u rie. Mnogi od gena zajednikih Arabidopsisu i rii nisu naeni niti u kvaevim niti u ivotinjskim genomima, pa prema tome izgleda da su specifini za biljke. Osim toga mnogi geni predvieni u rie nemaju odgovarajue gene u Arabidopsisa iako se tek mora ustanoviti da li ovi predvieni geni zapravo kodiraju proteine. Iako su mnoga pitanja jo otvorena, oekuje se da e zavretak i kontinuirana analiza sekvence riinog genoma doprinjeti naem razumijevanju biljne biologije te takoer razvoju proizvodnje koja e pomoi u borbi protiv gladi u svijetu.

Ljudski genom

Za mnoge znanstvenike krajnji cilj analize genoma bilo je odreivanje potpune nukleotidne sekvence ljudskog genoma: otprilike 3x109 parova baza DNA. Da bi se razumjela veliina ovog poduhvata, treba se podsjetiti da je ljudski genom vie od deset puta vei od onoga u Drosophilae; da je najmanji kromosom ovjeka nekoliko puta vei od od itavog kvaevog genoma; te da je rastegnuta DNA koja ini ljudski genom duga vie od 1 m. Iz takve perspektive, odreivanje sekvence humanog genoma predstavlja fenomenalan pothvat, pa je publiciranje njegove skice 2001. godine bilo najavljeno kao znanstveno dostignue od povijesnog znaenja.

Ljudski genom podijeljen je na 24 kromosoma (22 autosoma i 2 spolna kromosoma), od kojih svaki sadri izmeu 45 i 280 Mb DNA (slika 4.29). Prije nego li se odredila sekvenca genoma, nekoliko tisua humanih gena identificirano je i kartirano na humane kromosome. Metoda koja se obino koristi za lokalizaciju gena jest in situ hibridizacija sondi oznaenih fluorescentnim bojama sa kromosomima- metoda koja se openito spominje kao fluorescentna in situ hibridizacija ili FISH (slika 4.30). Hibridizacija in situ sa metafaznim kromosomima omoguava kartiranje kloniranog gena na lokus definiran kromosomskom prugom. Budui da svaka pruga ljudskog metafaznog kromosoma sadri na tisue kilobaza DNA, hibridizacija in situ sa ljudskim metafaznim kromosomima ne daje tako detaljnu informaciju za kartiranje kao to se dobiva hibridizacijom sa politenim kromosomima Drosophilae koja omoguava lokalizaciju gena na prugama interfaznih kromosoma koje sadre samo 10 do 20 kb DNA. Ipak, bolja rezolucija moe se dobiti hibridizacijom sa dekondenziranijim ljudskim kromosomima iz stanica u prometafazi ili interfazi gdje se fluorescentnom in situ hibridizacijom mogu kartirati klonirani geni u regijama od otprilike 100 kb. Uz FISH, analiza vezanosti i fiziko kartiranje kloniranih genomskih i cDNA sekvenci koriteno je da se izrade fizika i karta vezanih gena ljudskog genoma. Do 1996. godine biljezi za oko 30.000 gena kartirani su na humane kromosome to je stvorilo pozadinu za sekvenciranje genoma (slika 4.31).

Skice sekvenci humanog genoma objavljene 2001. godine proizvele su dvije nezavisne istraivake grupe koje su koristile razliite pristupe. Jedna od njih, Internacionalni konzorcij za sekvenciranje humanog genoma (International Human Genome Sequencing Consortium) koristila je kao podlogu za sekvenciranje BAC klonove koji su kartirani na kromosomska mjesta. Druga grupa, pod vodstvom Craiga Ventera iz Celera Genomics koristila je metodu samarice u kojoj su mali fragmenti klonirani i sekvencirani, a onda su za sastavljanje sekvence genoma koritena preklapanja u sekvencama meu tim fragmentima. Obje od ovih sekvenci bile su u poetku nekompletne skice u kojima je po prilici 90% eukromatinskog dijela genoma bilo sekvencirano i sastavljeno. Kontinuranim naporima zatvorene su pukotine u sekvenci pa je to 2003. godine dovelo do kompletiranja visokokvalitetne sekvence humanog genoma.

Sekvencirani eukromatinski dio genoma obuhvaa otprilike 2,9x 106 kb DNA (slika 4.32). Ukupna veliina genoma je oko 3,2x106 kb, a ostatak od 10% genoma otpada na visoko ponovljene sekvence heterokromatina. Prema prethodnoj raspravi u ovom poglavlju, razbacane ponovljene sekvence ija su veina pokretni elemeni koji su se kretali po genomu pomou reverzne transkripcije RNA posrednika, ine oko 45% sekvence ljudskog eukromatina. Ostalih 5% genoma sastoji se od dupliciranih dijelova DNA, pa se oko 60% ljudskog genoma sastoji od ponovljenih DNA sekvenci.

Najvee iznenaenje proizalo iz genomskih sekenci bio je neoekivano mali broj ljudskih gena. Ljudski genom izgleda da sadri samo 30.000-40.000 gena to je znatno manje od prethodnih procjena od otprilike 100.000 gena u ljudskom genomu. Umjesto toga, izgleda da ljudi imaju samo dvostruko vei broj gena nego jednostavnije ivotinje poput C. elegans i Drosophila. Ustvari, ljudi moda imaju manje gena od rie, to naglaava jedan od najznaajnijih zakljuaka koji je proizaao iz rezultata sekvenciranja genoma: bioloka sloenost organizma jednostavno nije funkcija broja gena u njegovom genomu. S druge strane izgleda da postoji velika koliina alternativnog prekrajanja u ljudskim genima, to omoguava jednom genu da odredi vie od jednog proteina (vidi sliku 4.5). Analize do dananjeg dana su pokazale da alternativno prekrajanje moe rezultirati stvaranjem triju ili vie razliitih mRNA iz prosjenog ljudskog gena. Kao rezultat toga, procjenjuje se da 30.000-40.000 ljudskih gena moe kodirati 100.000 ili vie razliitih proteina. Alternativno prekrajanje takoer se pojavljuje i u C. elegans i Drosophilae , ali mnogo je rjea nego u ljudi. Prevalencija alternativnog prekrajanja u ljudi prema tome moe voditi formiranju po prilici 5 puta veeg broja razliitih proteina u ljudi nego li u C. elegans i Drosophilae.

Ljudski geni proireni su preko puno veih udaljenosti i sadre vie intronskih sekvenci nego geni C. elegans i Drosophilae. Prosjena sekvenca za kodiranje proteina u humanim genima iznosi oko 1.400 parova baza to je slino onome u C. elegans i Drosophilae. Ipak, prosjeni ljudski gen zauzima 30% kb DNA pri emu vie od 90% gena odgovara intronima. Prema tome oko 25% genoma sastoji se od introna, a samo 1 do 1.5% ljudskog genoma odgovara sekvencama koje kodiraju proteine. Preko 40% pretpostavljenih ljudskih proteina srodno je proteinima u ostalim sekvenciranim organizmima to ukljuuje Drosophilae i C.elegans. Mnogi od ovih konzerviranih proteina djeluju u osnovnim staninim procesima kao to je metabolizam, udvostruavanje i popravak DNA, prepisivanje, prevoenje i prometovanje proteina. Veina proteina koji su jedinstveni za ljude napravljeni su od proteinskih domena koje su takoer pronaene u drugim organizmima, ali te domene su postavljene u nove odnose pa daju specifine proteine u ljudi. U usporedbi s Drosophilae i C.elegans ljudski genom sadri poveani broj gena ukljuenih u funkcije povezane sa veom sloenou kraljenjaka kao to je imuni odgovor, ivani sustav i zgruavanje krvi kao i poveani broj gena ukljuenih u razvoj, staninu signalizaciju i regulaciju transkripcije. Sekvenca humanog genoma zajedno sa sekvencama drugih genoma osigurava bogatstvo informacija koje formiraju novi okvir za prouavanje stanine i molekularne biologije. Kao to e biti vidljivo iz slijedeih poglavlja novi geni ukljueni u mnoge stanine procese mogu se identificirati analizom genomske sekvence i usporedbom sa sekvencom drugih organizama. Istraivanje funkcije tih gena kao i mnogih novih gena otkrivenih sekvenciranjem genoma stvorit e bazu za mnoge studije stanine funkcije u nastupajuem razdoblju. Pristupanost sekvence humanog genoma takoer e imati vanu primjenu u omoguavanju otkrivanja novih gena ukljuenih u mnoge bolesti koje pogaaju ovjeanstvo, ukljuivi rak, sranu bolest i degenerativne bolesti ivanog sustava kao to je Parkinsova i Alzheimerova bolest.

Deifriranje sekvence humanog genoma razotkrit e ne samo sekvence gena koje kodiraju proteine nego takoer i regulatorne sekvence koje nadziru ekspresiju gena. Kao to slijedi iz rasprave u sljedeim poglavljima, regulacija genske ekspresije je presudna za mnoge aspekte stanine funkcije ukljuivi i razvoj sloenih viestaninih organizama. Razumijevanje mehanizama koji kontroliraju gensku ekspresiju predstavlja najvei izazov suvremene stanine i molekularne biologije, pa se oekuje da e pristupanost genomskih sekvenci znaajno doprinijeti ovoj zadai. Naalost, sada je puno tee identificirati regulatorne sekvence gena nego to je otkriti sekvence za kodiranje proteina, naroito u velikim genomima kao to je ljudski. Mogue je da e ovakva prouavanja biti olakana usporedbom sa genomskim sekvencama srodnih organizama, npr. nedavno dovrena sekvenca mijeg genoma, kao to se i oekivalo, ukazala je na veliku konzerviranost izmeu ljudskih i mijih sekvenci za kodiranje proteina. Slina ouvanost sekvenci za regulaciju gena mogla bi pomoi u tonom otkrivanju takvih sekvenci i razumijevanju njihove funkcije.

Postojanje dodatnih genomskih sekvenci blisko srodnih vrsta takoer e nam omoguiti da prouavamo osnovu razlika meu vrstama, npr. uskoro emo moi usporeivati genome ljudi ne samo sa beskraljenjacima kao to su Drosophila i C.elegans nego takoer sa ostalim sisavcima kao to je mi i sa ostalim primatima kao to je impanza. Osim toga moi emo usporeivati sekvence razliitih pojedinaca jednu s drugom. Genomi pojedinih ljudi razlikuju se otprilike u jednoj od svakih tisuu baza. Analiza ovakvih varijacija meu pojedincima omoguit e pridruivanje specifinih gena podlonosti prema razliitim bolestima te e omoguiti lijenicima krojenje strategija za prevenciju i lijeenje bolesti koja e odgovarati genetikom ustroju pojedinih pacijenata. Usporedbe izmeu genoma razliitih pojedinaca mogle bi takoer pomoi u razjanjavanju priloga kojeg nai geni daju drugim jedinstvenim karakteristikama kao to su atletska graa ili inteligencija i boljem razumijevanju intrakcije izmeu gena i okolia koji vodi sloenosti ljudskog ponaanja.

SAETAKKLJUNI TERMINI


Introni i egzoni veina eukariotskih genoma ima rascijepljenu strukturu u kojoj su dijelovi kodirajuih sekvenci (egzoni) prekinuti nekodirajuim sekvencama (introni). U sloenih

eukariota introni zauzimaju vie od

deset puta toliko DNA koliko zauzimaju egzoni.

gen, spacer sekvenca, egzon, intron, prekrajanje RNA, kilobaza (kb), alternativno prekrajanje.

Ponovljene (repetitivne) sekvence DNA

Preko 50% DNA sisavaca sastoji se od visoko ponovljenih DNA sekvenci od kojih su neke prisutne u 105 do 106 kopija po genomu. Meu tim sekvencama su ponavljanja jednostavnih sekvenci kao i ponovljeni elementi koji su se kretali genomom bilo preko RNA bilo preko DNA posrednika.Ponavljanje jednostavne sekvence, satelitna DNA, SINE, LINE,

retrotranspozon,

DNA transpozon

Duplikacije gena i psudogeni: Mnogi eukariotski geni prisutni su u viestrukim kopijama koje se zovu genske porodice, a nastale su duplikacijom predaka tih gena. Neki lanovi genske porodice djeluju u razliitim tkivima ili razliitim stadijima razvoja. Ostali lanovi genskih porodica (pseudogeni) inaktivirani su mutacijama pa vie ne predstavljaju funkcionalne gene. Duplikacije gena mogu nastati bilo duplikacijom DNA segmenta bilo reverznom transkripcijom mRNA kojom nastaje obraeni pseudogen. Oko 5% ljudskog genoma sastoji se od dupliciranih DNA segmenata. Procjenjuje se da u ljudskom genomu postoji nekoliko tisua obraenih pseudogena.

Sastav genoma viih eukariota :

Samo mali dio genoma sloenih eukariota odgovara sekvencama koje kodiraju proteine. Procjenjuje se da humani genom sadri 30.000-40.000 gena, a sekvence koje kodiraju proteine predstavljaju samo 1-1,5% DNA. Oko 25% ljudskog genoma sastoji se od introna, a vie od 60% sastavljeno je od repetitivnih i dupliciranih DNA sekvenci.

KROMOSOMI I KROMATIN

Kromatin DNA eukariotskih stanica omotana je oko histona te se tako formiraju nukleosomi. Kromatin se dalje moe zgusnuti namatanjem nukleosoma u strukture vieg reda meu koje spadaju i visoko kondenzirani metafazni kromosomi stanica koji prolaze kroz mitozu.

Centromeri: Centromeri su specijalizirane regije eukariotskih kromosoma koje slue kao mjesta povezivanja dviju sestrinskih kromatida i mjesta prihvaanja niti diobenog vretena za vrijeme mitoze.

Telomeri: Telomeri su specijalizirane sekvence potrebne za odravanje krajeva eukariotskih kromosoma.

SEKVENCE ITAVIH GENOMA

Prokariotski genomi: Potpuno su sekvencirani genomi vie od ezdeset razliitih bakterija meu kojima i onaj E. coli. Genom E. coli sadri 4.288 gena, a sekvence koje kodiraju proteine zauzimaju blizu 90% DNA.

Kvaev genom: Prvi sekvencirani eukariotski genom bio je onaj kvasca S.cerevisiae. Genom S.cerevisiae sadi oko 6.000 gena, a sekvence koje kodiraju proteine zauzimaju oko 70% genoma. Genom cijepajueg kvasca S. pombe sadri manje gena (oko 5.000) i vie introna nego S.cerevisiae, a sekvence koje kodiraju proteine zauzimaju oko 60% genoma S. pombe.

Genomi Caenorhabditis elegans i Drosphilae melanogaster: Genom C. elegans bio je prvi sekvencirani genom nekog viestaninog organizma. Genom C. elegans sadri oko 19.000 sekvenci koje kodiraju proteine i zauzimaju oko 25% genoma. Genom Drosphilae sadri otprilike 13.600 gena, a sekvence koje kodiraju proteine zauzimaju oko 13% genoma. Iako Drosphila ima manje gena od C.elegans, mnogi geni u obje vrste su duplicirani, pa izgleda da obje vrste imju 8.000-9.000 jedinstvenih gena. Neki od tih gena jednaki su u Drosphilae, C.elegans i kvasca- ovi geni moda kodiraju proteine koji imaju zajedniku funkciju u svim eukariotskim stanicama. Ipak, veina gena Drosphilae i C.elegans ne nalazi se u kvascu, pa ti geni vjerojatno sudjeluju u regulaciji i razvoju viestaninih ivotinja.

Biljni genomi: Genom male cvjetnice Arabidopsis thaliana sadri oko 26.000 gena- neoekivano vei broj od onoga pronaenog bilo u Drosphilae bilo u C.elegans. Ipak, mnogi od tih gena su rezultat duplikacije velikih segmenata genoma Arabidopsisa, tako da je broj jedinstvenih gena u Arabidopsisa oko 15.000. Mnogi od tih gena jedinstveni su za biljke, a tu se nalaze geni ukljueni u biljnu fiziologiju, razvoj i obranu. Sekvenca riinog genoma od posebnog je znaaja za poljoprivredu jer ria hrani vie od polovice svjetskog stanovnitva. Prema skici sekvence riinog genoma procjenjuje se da taj genom sadri 30.000 - 50.000 gena od kojih su mnogi duplicirani pa su moda nastali kao posljedica duplikacije velikih segmenata genoma.

Ljudski genom: Humani genom izgleda da sadri 30.000-40.000 gena samo dvostruko vei broj gena od onog pronaenog u jednostavnih ivotinja poput Drosophilae i C. elegans. Ipak, budui da izgleda da je alternativno prekrajanje esta pojava u ovjeka, prosjean gen moe proizvesti tri ili vie mRNA (i proteina). Preko 40% predvienih ljudskih proteina srodno je proteinima koji su pronaeni u ostalim sekvenciranim organizmima meu kojima su i Drosophila i C. elegans. Osim toga, humani genom sadri poveani broj gena ukljuenih u ivani sustav, imuni sustav, zgruavanje krvi, razvoj, staninu signalizaciju i regulaciju genske ekspresije.

Porodica gena, pseudogeni, obraeni pseudogeni

Kromatin, histoni, nukleosom, estica nukleosomske sri, kromatosom, eukromatin, heterokromatin

Centromeri, kinetohore

Telomeri

Bioinformatika

Megabaze (Mb), otvoreni okvir itanja

Kvaev umjetni kromosom (YAC), politeni kromosomi, bakterijski umjetni kromosom (BAC)

Fluorescentna in situ hibridizacija (FISH)

Pitanja

1. Veliina mnogih eukariotskih genoma je mnogo vea nego to bi se pretpostavilo obzirom na njihovu sloenost. Objasni ovaj paradoks.

2. Na koji nain su otkriveni introni i egzoni za vrijeme prouavanja adenovirusnih mRNA?

3. Koji je znaaj alternativnog prekrajanja?

4. Kako se moe izdvojiti DNA sa ponavljanjima jednostavnih sekvenci iz ukupne jezgrine DNA?

5. Koja je razlika izmeu centomera i kinetohore?

6. Kvaevi centromeri oblikuju kinetohoru koja se vee na jedan mikrotubul, dok veina ivotinja posjeduje kinetohore koje se veu na oko 20 mikrotubula diobenog vretena. Na koji nain struktura njihovih centromera odraava ovu razliku?

7. Koje su dvije najvanije uloge telomera na kromosomima?

8. Kada se kruni plazmid opskrbi centromernom sekvencom i ugradi u stanice kvasca, njihovi geni se normalno umnoavaju i segregiraju prilikom svake stanine diobe; ali kada se izreu na jednom mjestu pomou restrikcijske endonukleaze tako da se stvori linearni kromosom, plazmidni geni se brzo izgube iz kvasca. Objasni. Koji bi dodatni pokus napravili da potvrdite svoju hipotezu?

9. to je to otvoreni okvir itanja i koji je njegov znaaj za analizu genoma?

10. Koliko se razlikuju genomske sekvence pojedinih ljudi?

11. Ponovljene DNA sekvence prvo su otkrivene prilikom prouavanja brzine reasocijacije DNA molekule. Koje se relativne brzine reasocijacije oekuju za sekvence koje se u genomu ponavljaju 1.000 puta u usporedbi s genima koji imaju samo jednu kopiju?

12. Oko 30.000 cDNA lokalizirano je na ljudskoj genomskoj karti. Koja je prosjena udaljenost izmeu ovih biljega?

KLJUNI POKUS

Otkrie introna

Prekrajanje dijelova kasne mRNA adenovirusa 2 na 5' kraju -

Spliced segments at the 5' Terminus of Adenovirus 2 Late mRNA

Susan M. Berget, Claire Moore, and Phillip A. Sharp

Massachusetts Institute of Technology, Cambridge, Massachusetts

Proceedings of the National academy of Sciences USA, Volumen 74, 1977, stranice 3171-3175

KontekstPrije nego li se razvilo molekularno kloniranje malo se znalo o sintezi mRNA u eukariotskoj stanici. Ipak, bilo je jasno da je ovaj proces puno sloeniji u eukariota nego u bakterija. Izgledalo je da sinteza eukariotskih mRNA treba osim transkripcije takoer i reakcije obrade koje modificiraju strukturu primarnih transkripata. Ono to je tu bilo najznaajnije jest da se inilo kao da se eukariotske mRNA sintetiziraju u obliku dugakih primarnih transkripata u jezgri, a onda cijepaju da se stvore puno krae mRNA molekule koje prelaze u citoplazmu.

Openito se smatralo da stupnjevi ovakve obrade ukljuuju odstranjenje sekvenci sa 5' i 3' krajeva primarnog transkripta. Prema ovome modelu, mRNA uklopljene u dugake primarne transkripte bile bi kodirane neprekinutim sekvencama DNA. Ovakav pogled na eukariotsku mRNA radikalno je promijenilo otkrie prekrajanja do kojega su nezavisno doli Berget, Moore i Sharp te Louise Chow, Richard Gelinas, Tom Broker i Richard Roberts (An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA, Cell 12: 1-8, 1977).

Pokusi

Obje istraivake grupe koje su otkrile prekrajanje koristile su adenovirus 2 za istraivanje sinteze mRNA u ljudskim stanicama. Najvea prednost virusa jest u tome da predstavlja model koji je puno jednostavniji od stanice domaina. Virusna DNA moe se izravno izolirati iz virusnih estica, a mRNA molekule koje kodiraju virusne strukturne proteine prisutne su u tako velikoj koliini da se mogu izravno proistiti iz zaraenih stanica. Berget, Moore i Sharp su usmjerili svoj pokus na mRNA koja se stvara u velikoj koliini, a kodira virusni strukturni polipeptid poznat pod imenom hegzon.

U svrhu kartiranja hegzonske mRNA u virusnom genomu, proiena mRNA hibridizirana je sa adenovirusnom DNA, a hibridne molekule su pregledane elektronskom mikroskopijom. Kao to se i oekivalo glavni dio hegzonske mRNA stvarao je hibride sa restrikcijskim fragmentima adenovirusne DNA za koje se prethodno saznalo da sadre hegzonski gen. Ipak, na ope iznenaenje, sekvence na 5' kraju hegzonske mRNA nisu se hibridizirale sa sekvencama DNA u blizini onih koje kodiraju glavni dio poruke, to je ukazalo na to da 5' kraj mRNA molekule potjee od sekvenci koje su smjetene na nekom drugom mjestu virusnog genoma.

Ova mogunost provjerena je hibridizacijom hegzonske mRNA sa restrikcijskim fragmentom koji se protee uzvodno od hegzonskog gena. Hibridi izmeu mRNA i DNA koji su se stvarali u ovom pokusu pokazali su sloenu strukturu u obliku petlji (vidi sliku). Glavnina mRNA stvorila je dugaku hibridnu regiju sa prethodno identificiranim hegzonskim sekvencama DNA. Iznenaujue je bilo da se 5' kraj hegzonske mRNA hibridizirao sa tri kratke uzvodne regije DNA koje su bile odvojene jedna od druge i od glavnine transkripta velikim jednolananim petljama DNA. Pokazalo se da se sekvence na 5' kraju hegzonske mRNA prepisuju iz triju odvojenih regija virusnog genoma koje su se prekrajanjem povezale s glavnim dijelom mRNA za vrijeme obrade dugakog primarnog transkripta.

UtjecajNakon otkria prekrajanja adenovirusne mRNA, brzo su uslijedili slini pokusi sa staninim mRNA koji su pokazali da eukariotski geni imaju prethodno posve nepredvienu strukturu. Njihove kodirajue sekvence nisu bile kontinuirane nego su ih prekidali introni koji su se odstranjivali prekrajanjem primarnog prijepisa. Za introne se danas znade da ine veliki dio DNA eukariotskih genoma, a uloga introna u evoluciji i regulaciji genske ekspresije predstavlja podruje koje se i dalje aktivno prouava. Otkrie prekrajanja takoer je potaklo veliko zanimanje za mehanizam ove neoekivane reakcije obrade mRNA. Kao to se raspravlja u Poglavlju 6, ove studije nisu samo rasvijetlile nove mehanizme regulacije genske ekspresije; one su takoer otkrile nove katalitike aktivnosti RNA i podastrle vane podatke koji podupiru hipotezu po kojoj je rana evolucija bila bazirana na samoumnaajuim RNA molekulama. Tako se pokazalo da je neoekivana struktura adenovirusne mRNA imala ogroman utjecaj na razliita podruja stanine i molekularne biologije.

Hybrid= Hibrid

Elektronsko-mikroskopska slika i praenje hegzonske mRNA koja se hibridizirala sa adenovirusnom DNA. Jednolanane petlje oznaene A, B i C odgovaraju intronima.

KLJUNI POKUS

Ljudski genomPoetno sekvenciranje i analiza ljudskog genoma-

Initial Sequencing and Analysis of the Human Genome International Human Genome Sequencing Consortium

Nature, Volumen 409, 2001, stranice 860-921

Sekvenca ljudskog genoma

The sequence of the Human Genome

J. Craig Venter i ostalih 273

Science, Volumen 291, 2001, stranice 1304-1351

KontekstIdeja o sekvenciranju itavog ljudskog genoma zaeta je po prvi put sredinom osamdesetih godina prolog stoljea. U poetku je meu biolozima doekana s velikom skepsom jer je veina smatrala da je to jednostavno neostvariv pothvat. U to vrijeme, najvei genom koji je u potpunosti sekvenciran bio je genom Epstein-Barrovog virusa koji je imao ukupno oko 180.000 parova baza. Iz te perspektive mnogima je bilo nezamislivo sekvenciranje ljudskog genoma koji je oko 20.000 puta vei. Ipak ideja o takvom ogromnom projektu za biologiju oarala je ostale, meu kojima je bio i Charles DeLisi koji je tada vodio Ured za istraivanje zdravlja i okolia u Odjelu za energetiku (Office of Health and Environmental Research, Department of Energy). 1986. godine DeLisi uspio je lansirati Inicijativu ljudskog genoma (Human Genome Initiative) kao projekt unutar Odjela za energetiku.

Projekt je dobio iru podrku 1988. godine kada ga je podupro odbor Nacionalnog savjeta za istraivanja. Taj odbor preporuio proirenje nastojanja na tom podruju, ukljuivi sekvenciranje genoma nekolicine modela organizama i usporedni razvoj detaljne karte vezanih gena i fizike karte ljudskih kromosoma. Projekt je bio centraliziran u Nacionalnim institutima za zdravlje (National Institutes of Health), a u poetku ga je vodio James Watson (suotkriva strukture DNA) kojeg je kasnije naslijedio Frances Collins.

Prvo potpuno sekvenciranje genoma provedeno je u bakteriji Haemophilus influenzae, a objavio ga je Craig Venter sa suradnicima 1995. godine. Venter je uestvovao u projektu sekvenciranja genoma u Nacionalnim institutima za zdravlje, ali je napustio taj posao 1991. godine da bi postao direktor neprofitne organizacije, Instituta za genomska istraivanja. U meuvremenu, znaajan progres je postignut u kartiranju ljudskog genoma, a iza poetne sekvence H. influenzae uslijedile su 1998. godine sekvence drugih bakterija, kvasca i C. elegans.

1998. godine Venter je osnovao novu kompaniju, Celera Genomics, i objavio plan upotrebe naprednih tehnologija sekvenciranja koji e mu omoguiti izradu cjelovite ljudske genomske sekvence u roku od 3 godine. Collins i ostali voditelji javno financiranog projekta genoma odgovorili su na taj izazov ubrzanjem svojih nastojanja, pa je to rezultiralo utrkom koja je napokon dovela do objavljivanja dviju skica ljudskog genoma u veljai 2001. godine.

PokusiDvije grupe znanstvenika koristile su razliite pristupe u izradi sekvence ljudskog genoma. Javno financirana grupa Internacionalni konzorcij za sekvenciranje humanog genoma, pod vodstvom Erica Landera, sekvencirala je fragmente DNA izvedene iz BAC klonova koji su prethodno kartirani na humane kromosome to je bilo slino pristupu koji je koriten za odreivanje sekvence genoma kvasca i C. elegans (vidi sliku). Za razliku od toga, grupa iz Celera genomike koristila je za sekvenciranje na itavom genomu metodu samarice koju su Venter i suradnici prvi put upotrijebili za sekvenciranje genoma H. influenzae. U ovom pristupu, DNA fragmenti su nasumce sekvencirani, a preklapanja meu fragmentima tada su koritena za ponovno sastavljanje genomske sekvence itavog genoma. Obje sekvence pokrivaju samo eukromatinski dio humanog genoma- otprilike 2.900 Mb DNA- a heterokromatinski dio genoma bogat ponavljajuim slijedovima ostao je nesekvenciran.

Vano je shvatiti da obje od ovih dviju prvih verzija predstavljaju samo skice, a ne potpune sekvence. Postoje rupe u sekvenci, tako da objavljene skice pokrivaju priblino 90% sekvence eukromatinskog dijela genoma. Osim toga, postoji mogunost da su neki blokovi sekvenci u skicama krivo sastavljeni. Usprkos tome, sekvence koje su ove skice prikazale smatraju se vrlo tonima pa predstavljaju vaan izvor podataka za biologiju i medicinu.

Utjecaj

Nekoliko vanih zakljuaka odmah je proizalo iz sekvenci ljudskog genoma. Prvo, broj ljudskih gena izgleda da se kree izmeu 30.000 i 40.000 to je znaajno manje od iroko prihvaene ranije pretpostavke koja je govorila o 100.000 gena. Ipak, zanimljivo je da je alternativno prekrajanje po svoj prilici uobiajeno u ljudskom genomu, pa svaki gen moe kodirati prosjeno tri proteina. Introni ine oko 25% humanog genoma, a repetitivne sekvence oko 60%. Vano je primjetiti da je preko 40% ljudske DNA sloeno od sekvenci koje su izvedene reverznom transkripcijom to stavlja naglasak na vanost ovog naina prijenosa informacija u oblikovanju naeg genoma.

Osim ovih neposrednih zakljuaka, sekvenca humanog genoma, zajedno sa sekvencama drugih organizama, dati e novu osnovu za biologiju i medicinu u nastupajuem razdoblju. Utjecaj genomske sekvence osjetit e se prilikom otkrivanja novih gena i njihove funkcije, u razumijevanju genske regulacije, rasvjetljavanju osnove ljudskih bolesti i u razvoju novih strategija u prevenciji i lijeenju zasnovanom na genetskoj grai pojedinca. Poznavanje humanog genoma moe u konanici doprinijeti otkrivanju onoga, to Venter i suradnici nazivaju Pravi izazov humane biologije jest objasniti kako je na um uspio tako dobro organizirati svoje misli da se mogao posvetiti istraivanju svoga vlastitog postojanja.

Genomic DNA Genomska DNA

A target genome Ciljni genom je fragmentiran i kloniran

BAC library BAC biblioteka

resulting in a library pa je proizvedena biblioteka

vektora za kloniranje koji

nose velike fragmente (BAC).

Organized mapped Organizirano kartiranje velikih klonova

(contig)

The genomic DNA Fragmenti genomske DNA

poredaju se na fizikoj

karti.

BAC sequenced Sekvenciranje BACova

Shotgun clones Klonovi proizvedeni samaricom

and individual BAC i pojedini BAC klonovi se odaberu

i sekvenciraju nasuminom strategijom

samarice.

Shotgun sequences Sekvenca klona proizvedenog samaricom The clone sequences Sekvence klonova se

zatim udrue u svrhu

rekonstrukcije

sekvence genoma.

Assembly zdruivanje

Strategija sekvenciranja genoma u kojoj se koriste BAC klonovi koji se organiziraju u preklapajue skupine (contig) i kartiraju na humane kromosome.

Slika. 4.1 Veliina genoma

Raspon veliine genoma reprezentativnih grupa organizama prikazan je na logaritamskoj skali.

Haemophilus influenzae Haemophilus influenzae

Mycoplasma Mikoplazma

E. coli E. coli

Bacteria Bakterije

Yeast Kvasac

Fungi Gljive

Arabidopsis Arabidopsis

Lily ljiljan

Plants Biljke

Drosophila DrosophilaInsects Kukci

Frog aba

Salamander dadevnjak

Amphibians Vodozemci

Chicken Pile

Birds Ptice

Human ovjek

Mammals Sisavci

Base pairs. Parovi baza po haploidnom genomu

Slika 4.2 Struktura eukariotskih gena

Veina eukariotskih gena sadri segmente kodirajuih sekvenci (egzoni) koji su isprekidani nekodirajuim sekvencama (introni). Introni i egzoni zajedno se prepisuju u dugaki primarni RNA prijepis. Nakon toga se prilikom formiranja zrele mRNA prekrajanjem odstranjuju introni.

Chromosomal DNA Kromosomska DNA

Spacer sequence Sekvenca razmaka

intron1 intron1

intron2 intron2

spacer sequence sekvenca razmaka

exon1 egzon1

exon2 egzon2

exon3 egzon3

transcription transkripcija

primary RNA transcript primarni RNA prijepis

splicing prekrajanje

mRNA mRNA

Slika 4.3 Identifikacija introna u adenovirusnoj mRNA

(A) Gen za kodiranje adenovirusnog hegzona (glavni strukturni protein virusne estice) sastoji se od etiriju egzona koji su isprekidani trima intronima. (B) Ovo je prikaz elektronsko-mikroskopske fotografije hipotetskog hibrida izmeu hegzonske mRNA i dijela adenovirusne DNA. Egzoni su prikazani kao podruja RNA-DNA hibrida koja su razdvojena jednolananim DNA petljama koje odgovaraju intronima.

(A) Hexon gene hegzonski gen

Exons egzoni

Adenoviral DNA adenovirusna DNA

Introns introni

(B) Single-stranded DNA jednolanana DNA

intron 3 intron 3

5'end of RNA 5'kraj RNA

exon2 Egzon2

exon2 Egzon1

RNA-DNA hybrid RNA-DNA hibrid

Intron1 Intron1

Exon 3 Egzon3

Exon 4 Egzon4

Intron2 Intron2

3'end of RNA 3'kraj RNA

Slika 4.4. Miji (-globinski genOvaj gen sadri dva introna koji dijele kodirajuu regiju na tri egzona. Egzon1 kodira aminokiseline 1 do 30, egzon 2 kodira aminokiseline 31 do 104, a egzon 3 kodira aminokiseline 105 do 146. Egzoni 1 i 3 takoer sadravaju neprevodive regije (UTR) prvi na na 5' , a drugi na 3' kraju mRNA.

Exon1 Egzon1

Intron1 Intron1

Exon 2 Egzon2

Intron2 Intron2

Exon3 Egzon3

DNA DNA

transcription transkripcija

splicing prekrajanje

Exon1 Egzon1

Exon2 Egzon2

Exon3 Egzon3

mRNA mRNA

5'UTR 3'UTR

translation translacija

protein protein

Slika 4.5 Alternativno prekrajanje

Gen prikazan na slici sadri est egzona koji su razdvojeni pomou pet introna. Alternativno izrezivanje omoguava ovim egzonima da se poveu na razliite naine, pa se stvaraj

4 Poglavlje - Staniƒni Genomi

Documents