Utilizing the gene expression prediction algorithm Enformer to enhance classification of noncoding variants

Wit, Nimrod de

View/Open

2022_10_Internship_Report_Nimrod_de_Wit.pdf (1.465Mb)

Publication date

2022

Author

Wit, Nimrod de

Metadata

Show full item record

Summary

In de meeste ziektes speelt genetica een rol. Daarom is onderzoek naar het effect van genetische variatie belang-rijk. Ons genoom bestaat uit een coderend en een niet-coderend deel. In deze studie passen we zelflerende algo-ritmes toe om het effect van genetische variatie in het niet-coderende deel van het genoom te bepalen. Het En-former algoritme is een state-of-the-art algoritme wat in staat is voor elke willekeurige streng DNA te voorspellen hoe de genexpressie zal zijn. Deze voorspellingen gebruiken we om een ander zelflerend algoritme te trainen zodat het in staat is onderscheid te maken tussen genetische variatie die wel en die geen invloed heeft op genexpressie (een algoritme wat onderscheid probeert te maken tussen twee of meerdere groepen noemen we een classificeer-der). Hiervoor gebruiken we een dataset met varianten waarvan het bekend is dat deze een effect hebben op gen-expressie (positieve eQTLs) en varianten waarvan bekend is dat deze geen effect hebben op genexpressie (negatie-ve eQTLs). Voor elke variant in deze dataset verkrijgen we de voorspellingen van het Enfomer algoritme. Aangezien deze voorspellingen een te grote omvang hebben om direct gebruikt te worden voor het trainen van de classificeerder, moeten de voorspellingen gecomprimeerd worden. Dit is eerder gedaan door Avsec et al. (ref.19), maar wij hebben deze methode verbeterd. Wanneer de classificeerder getraind wordt op onze scores pres-teert het beter dan wanneer het getraind wordt op de scores van Avsec et al.. Hun methode van scoren, Sum, zorgt voor een gemiddelde classificeerder prestatie (AUROC) van 0,748, terwijl onze methodes Max Abs, Q99 Abs en Sum Abs respectievelijk zorgen voor een gemiddelde prestatie van 0,762, 0,776 en 0,777. Naast deze vernieuwde methodes om de voorspellingen te comprimeren, hebben we ook geprobeerd de voor-spellingen op een geheel andere wijze te comprimeren, namelijk met behulp van een zogenaamde automatische encoder. Dit is een algoritme dat leert om een grote hoeveelheid waardes samen te vatten. Het is ons niet gelukt om dit algoritme werkend te krijgen en we doen voorstellen hoe dit onderzoek vervolgd kan worden. Concluderend kan worden gesteld dat het gebruiken van het Enformer algoritme om meer inzicht te krijgen in niet coderende varianten een veel belovende weg is en in dit onderzoek presenteren we nieuwe methodes om dit te doen.

URI

https://studenttheses.uu.nl/handle/20.500.12932/43219

Collections

Theses