Summary of the PhD-thesis by Berend Snel
Tuesday 17th September 2002

Email: b.snel@cmbi.kun.nl

Comparative  genome  analysis  and  genome  evolution



Genen zijn stukjes DNA waarop staat hoe een bepaald eiwit moet worden gemaakt. Elk gen codeert voor een ander eiwit. Al deze eiwitten vormen op hun beurt 95% van de werkzame onderdelen in een levende cel. Niet al het DNA codeert voor een eiwit. Er zijn ook stukken DNA die bijvoorbeeld aangeven hoe het gen moet worden afgelezen, en wanneer. Lange tijd is het technisch slechts haalbaar geweest om, per langdurig onderzoeksproject, het DNA van een enkel gen te achterhalen. Sinds een jaar of zeven is het mogelijk om het complete DNA, en dus alle genen, van een organisme, in kaart te brengen. Het complete DNA van een organisme heet het genoom.

Door deze ontwikkeling komt er een uniek soort data beschikbaar. Uniek, omdat het genoom in principe alles in zich heeft wat nodig is om een organisme te bouwen. Men zou zelfs kunnen zeggen dat we nu een complete lijst hebben van de stukjes die op een nog grotendeels ondoorgronde wijze, tezamen en in interactie met de omgeving, de puzzel van het leven vormen. De genoomdata dient in eerste aanleg als een referentiekader voor verder experimenteel moleculair biologisch onderzoek, bijvoorbeeld als een lijst van genen wiens functie nog bepaald moet worden. Maar kunnen we überhaupt iets puur en alleen met genoomdata en indien ja, wat? Om te beginnen, hebben we met die genomen een ongekende hoeveelheid data tot onze beschikking waarmee we de evolutie kunnen bestuderen. Aangezien dit type data relatief nieuw is en er nog erg weinig over genoom evolutie bekend is, betekent dat het in kaart brengen van basis patronen en soms zelfs het ontdekken van de grootheden waarin we genoom evolutie het best kunnen beschrijven. Door het vergelijken van genomen kunnen we iets te weten komen over hoe ze ontstaan zijn. Naast de intrinsieke waarde van deze kennis, creëert dat mede de voorwaarde om complete genoom data effectief te gebruiken. Bijvoorbeeld om de significantie van de afwezigheid van een gen in een bacterie of dier te evalueren. In het algemeen staat de genoomdata ons dus toe om de functies van genen te begrijpen in de context van het genoom en dus alle andere onderdelen van een cel.

Biologische processen, en daarom ook hun analyses, vinden op verschillende niveaus plaats. Zelfs het moleculair/genetisch evolutionair niveau is gelaagd. In dit proefschrift beschrijven we de resultaten van uiteenlopende vergelijkende analyses van complete genomen op verschillende van zulke moleculair/genetisch niveaus. We beginnen met een specifieke studie naar een belangrijk probleem in het vergelijken van individuele genen tussen soorten en de biologische significantie die eraan ten grondslag ligt. In de twee daaropvolgende hoofdstukken bestuderen we hoe de verzameling van genen in een genoom evolueert en wat het ons tegelijkertijd vertelt over de evolutie van soorten. In de laatste twee hoofdstukken vergelijken we het genoom als meer dan een verzameling genen zonder onderlinge verbanden, doordat we de interacties tussen genen in een genoom bestuderen.

Het experimenteel bepalen van het complete genoom is nu weliswaar haalbaar, maar het is nog steeds niet makkelijk. Daarom zijn in eerste instantie vooral de genomen van kleinere (en dus meestal bacteriële) soorten bepaald. Bovendien zijn genen in het genoom van simpelere organismen (bacteriën) makkelijker te detecteren dan genen in het genoom van hoger ontwikkelde organismen (dieren, planten). Zelfs nu we het genoom van de mens hebben beschreven, is de lijst met menselijke genen nog verre van correct en compleet. Er zijn momenteel een substantieel aantal genomen van ingewikkeldere organismen beschikbaar, maar historisch en vanwege het gendetectie probleem, houdt het grootste deel van het hier beschreven onderzoek zich bezig met bacteriële genomen.

Om genomen goed te kunnen vergelijken moet je bepalen wat dezelfde genen (de orthologen) in een set van genomen zijn. Tijdens ons onderzoek zijn we daar dus veel mee bezig geweest. Een van de problemen daarbij is dat genen nog wel eens willen samensmelten tot een fusie gen (gen fusie) of het omgekeerde dat een gen uiteen valt in twee verschillende genen (gen splitsing). In hoofdstuk 2 worden deze twee evolutionaire processen die al individueel beschreven waren, nu systematisch voor complete genomen in kaart gebracht. Uit onze bestudering blijkt dat gen fusie vaker voorkomt dan gen splitsing. Waarschijnlijk is dit zo omdat het voor een organisme zin heeft om genen die samen functioneren samen te smelten tot één gen. Verder blijkt dat uitééngevallen genen vaker voorkomen bij bacteriën die bij zeer hoge temperaturen leven, zogenaamde thermofiele bacteriën. Gegeven dat bij hogere temperaturen er meer fout gaat per onderdeeltje van een eiwit in het maken van een eiwit, kan de totale opbrengst nog op een redelijk niveau gehouden worden door een eiwit op te splitsen in onderdelen. Wanneer er dan iets fout gaat, hoeft slechts een onderdeel van het eiwit te worden weggegooid in plaats van het geheel. Het gebruik van opgesplitste genen lijkt dus een aanpassing aan de levenswijze bij zeer hoge temperaturen. Het is fascinerend dat de levenswijze van een organisme kennelijk een invloed kan uitoefenen op de evolutie op moleculair niveau.

Één van de basis vragen in de bestudering van genomen is wat bepaalt of een gen aanwezig of afwezig is in de genomen van verschillende soorten dieren, planten en bacteriën. Reconstructies van de evolutionaire geschiedenis van individuele genen (de stamboom van het gen), suggereerden dat hun geschiedenis afwijkt van de evolutionaire geschiedenis van de soort uit wiens genoom ze afkomstig zijn (de soortstamboom). Zulk afwijkend gedrag is een indicatie voor genen die in plaats van, van ouders aan nakomelingen overgegeven worden (verticaal), van soort naar soort springen, zogenaamde horizontale gen overdracht. Dit type overdracht van genen speelt bijvoorbeeld een grote rol bij de verspreiding van antibiotica resistentie. De verassende hoeveelheid horizontale gen overdracht suggereerde dat de stamboom van veel genomen niet meer achterhaalbaar zou zijn. In hoofdstuk 3, laten wij echter zien dat het aantal gedeelde genen tussen twee soorten een zeer goede maat is voor hun verwantschap. De stamboom van genomen die we daarbij verkrijgen, vat als het ware de verwantschapsinformatie van een soort samen en die samenvatting lijkt sterk op traditionele stambomen. Één van de bepalende factoren in de genen samenstelling van een soort blijkt dus simpelweg zijn afstamming te zijn, zelfs als lange tijd evolutie heeft kunnen plaatsvinden. Dit verband is zo sterk dat deze zogenaamde "genoom bomen" wellicht kunnen helpen om licht te werpen op betwiste vertakkingen in de stamboom van het leven. De bovengenoemde observatie dat er zoveel genen horizontaal overgedragen worden tussen soorten, heeft er toe geleid dat er is voorgesteld dat er überhaupt niet van een stamboom van soorten gesproken kan worden, maar veeleer van een netwerk. Alleen door middel van het kiezen van een enkel gen als stamboom voor de soort (pars pro toto), of met een nog te definiëren meer dan som van de delen, zouden we nog verwantschappen kunnen definiëren. Ons resultaat suggereert dat daartussen in, namelijk de som der delen, een verdedigbaar concept voor een stamboom is. We besluiten dit hoofdstuk met de beschrijving van een web server die allerlei wetenschappers (en dus niet alleen degenen met voldoende computer capaciteit en adequate kennis van zaken) in staat stelt voor een selectie van soorten naar keuze en op basis van verschillende vooronderstellingen over genoom evolutie, een genoom stamboom te maken.

Het feit dat de aanwezigheid van genen zich evolutionair redelijk aan de soortstamboom houdt, zoals we in hoofdstuk 3 beschrijven, biedt ons in hoofdstuk 4 de mogelijkheid om de aanwezigheid van genen in huidige organismen te gebruiken om voorouderlijke genomen te reconstrueren. Daarbij bepalen we tegelijkertijd de processen die in de evolutie van voorouderlijke naar hedendaagse genomen plaatsvonden. We bestuderen de volgende genoom muterende processen: het verlies van genen, de duplicatie van genen, het ontstaan van nieuwe genen, het fuseren of uiteenvallen van genen, en het springen van een gen van een soort naar een andere soort (horizontale gen overdracht). Het is voor het eerst dat er met een integrale benadering naar genoom evolutie is gekeken. Zo vinden we bijvoorbeeld dat de voorouder van de proteobacteriën (een veel voorkomende en geneeskundig zowel als economisch belangrijke bacteriële orde) waarschijnlijk rond de 2500 genen bevatte. Ook blijkt dat alhoewel horizontale gen overdracht nodig is om de gen inhoud van hedendaagse genomen op een redelijke manier te verklaren, al de andere processen kwantitatief belangrijker zijn geweest. Het verlies van genen heeft van alle processen die de gen inhoud beïnvloeden, het vaakst plaats gevonden. Gen verlies is zo wijdverspreid (zowel over tijd als over soorten) dat zelfs grotere genomen zoals bijvoorbeeld die van Escherichia coli (een proteobacterie en één van de werkpaarden van de moleculaire biologie), meer dan 950 genen is kwijtgeraakt in zijn geschiedenis vanaf de oer-proteobacterie.

Als we genomen willen bestuderen op een hoger niveau, zeg maar als meer dan alleen een "zak van genen" zonder enige samenhang, moeten we verbanden tussen genen analyseren. Een van de meest basale verbanden tussen genen is hun volgorde op de DNA ketting. Die volgorde blijkt zeer snel te evolueren. Dat wil zeggen dat na evolutionair relatief korte tijden er slechts nog zeer weinig van de oorspronkelijke volgorde van de genen intact is. Interessant genoeg blijkt dat die genen wiens volgorde naast elkaar behouden blijft, een zeer goede voorspeller te zijn voor een functioneel verband tussen beide genen: de eiwitten die beide genen produceren hebben een interactie met elkaar. De reden hiervoor is dat naast elkaar liggen iets betekent voor de cel omdat veel bacteriën operons hebben. Operons zijn naast elkaar liggende genen, wiens activiteit als een geheel aangestuurd wordt. Voor veel genen is het niet, of slechts ten dele, bekend wat hun functie is. Aanwijzingen voor de functie van genen zijn dus zeer welkom. Het bestuderen van de conservering van de genen volgorde is een belangrijk instrument aan het worden om de functionele relaties tussen genen en daarmee de bijbehorende eiwitten te voorspellen. Daarom beschrijven wij in hoofdstuk 5 een web-server om de geconserveerde volgorde van genen te bepalen. In de beschreven versie zijn we in staat om voor ±40% van de genen een functionele relatie door middel van geconserveerde genen volgorde te vinden. We illustreren het gebruik aan de hand van een enzym waarvan wel bekend is wat voor een soort reactie het katalyseert maar niet wat zijn substraat is. Door middel van de conservering met andere genen kunnen we nu een goed gefundeerde voorspelling maken over wat het substraat van het enzym is.

Met de exponentieel toenemende hoeveelheid genomen, en de met gelijke tred toenemende hoeveelheid functionele relaties tussen genen, ontstaat de situatie dat alle eiwitten indirect iets met alle andere eiwitten te maken hebben. We krijgen dus te maken met biologische netwerken met als knooppunten genen, en als verbindingen functionele verbanden tussen genen. In hoofdstuk 6 bestuderen we daarom een eiwit-eiwit interactie netwerk zoals we het verkrijgen uit onze voorspellingen van functionele relaties door middel van geconserveerde gen volgorde. Het netwerk blijkt lokaal een hoge clusteringgraad te bezitten. Om ook daadwerkelijk clusters in het netwerk te herkennen, knippen we het netwerk stuk. Er wordt geknipt langs genen die, als je ze weg zou halen, het netwerk lokaal in twee of meer stukken zou laten vallen. Uit het vergelijken van de uitgeknipte clusters van genen met een databank van functies, blijkt dat de genen, waarvan de functie reeds bekend is, in zo'n cluster met elkaar een functie uitoefenen, zoals bijvoorbeeld een metabolisch route, of een cellulaire bouwsteen als een zweepstaartje. We kunnen dus nu door middel van genoom vergelijkingen, groepjes van genen onderscheiden die op een hoger niveau een functionele eenheid in de cel vormen, een zogenaamde "functionele module".

Tenslotte, kunnen we dus concluderen dat we veel kennis hebben vergaard door middel van de vergelijkende analyse van genomen. Ten eerste hebben we nu een basis idee van hoe genomen evolueren wat betreft hun samenstelling aan genen en de volgorde van die genen. Bovendien begint het er, na aanvankelijk pessimisme, op te lijken dat de genoomdata ons inzicht in de stamboom en oorsprong van het leven zal vergroten. Ten tweede, stelt dit begrip van de evolutie van genomen ons in staat om betere voorspellingen te doen over de functies van genen en de functionele relaties tussen genen. De methodes zoals we die hier toepassen op het netwerk van functionele relaties verkregen uit gen volgorde, kunnen ook toegepast worden op een nieuwe golf van data. Veel nieuwe grootschalige moleculair biologische experimenten zijn namelijk speciaal ontwikkeld om allerhande functionele relaties tussen genen te meten. Een deel van de verkregen vaardigheden en vergaarde kennis is ook nog eens omgezet in web-servers die het wetenschapsproces in het algemeen helpen en hopelijk versnellen.


PhD-Thesis Index
NVTB - Home Page