View Item 
        •   Utrecht University Student Theses Repository Home
        • UU Theses Repository
        • Theses
        • View Item
        •   Utrecht University Student Theses Repository Home
        • UU Theses Repository
        • Theses
        • View Item
        JavaScript is disabled for your browser. Some features of this site may not work without it.

        Browse

        All of UU Student Theses RepositoryBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

        Utilizing the gene expression prediction algorithm Enformer to enhance classification of noncoding variants

        Thumbnail
        View/Open
        2022_10_Internship_Report_Nimrod_de_Wit.pdf (1.465Mb)
        Publication date
        2022
        Author
        Wit, Nimrod de
        Metadata
        Show full item record
        Summary
        In de meeste ziektes speelt genetica een rol. Daarom is onderzoek naar het effect van genetische variatie belang-rijk. Ons genoom bestaat uit een coderend en een niet-coderend deel. In deze studie passen we zelflerende algo-ritmes toe om het effect van genetische variatie in het niet-coderende deel van het genoom te bepalen. Het En-former algoritme is een state-of-the-art algoritme wat in staat is voor elke willekeurige streng DNA te voorspellen hoe de genexpressie zal zijn. Deze voorspellingen gebruiken we om een ander zelflerend algoritme te trainen zodat het in staat is onderscheid te maken tussen genetische variatie die wel en die geen invloed heeft op genexpressie (een algoritme wat onderscheid probeert te maken tussen twee of meerdere groepen noemen we een classificeer-der). Hiervoor gebruiken we een dataset met varianten waarvan het bekend is dat deze een effect hebben op gen-expressie (positieve eQTLs) en varianten waarvan bekend is dat deze geen effect hebben op genexpressie (negatie-ve eQTLs). Voor elke variant in deze dataset verkrijgen we de voorspellingen van het Enfomer algoritme. Aangezien deze voorspellingen een te grote omvang hebben om direct gebruikt te worden voor het trainen van de classificeerder, moeten de voorspellingen gecomprimeerd worden. Dit is eerder gedaan door Avsec et al. (ref.19), maar wij hebben deze methode verbeterd. Wanneer de classificeerder getraind wordt op onze scores pres-teert het beter dan wanneer het getraind wordt op de scores van Avsec et al.. Hun methode van scoren, Sum, zorgt voor een gemiddelde classificeerder prestatie (AUROC) van 0,748, terwijl onze methodes Max Abs, Q99 Abs en Sum Abs respectievelijk zorgen voor een gemiddelde prestatie van 0,762, 0,776 en 0,777. Naast deze vernieuwde methodes om de voorspellingen te comprimeren, hebben we ook geprobeerd de voor-spellingen op een geheel andere wijze te comprimeren, namelijk met behulp van een zogenaamde automatische encoder. Dit is een algoritme dat leert om een grote hoeveelheid waardes samen te vatten. Het is ons niet gelukt om dit algoritme werkend te krijgen en we doen voorstellen hoe dit onderzoek vervolgd kan worden. Concluderend kan worden gesteld dat het gebruiken van het Enformer algoritme om meer inzicht te krijgen in niet coderende varianten een veel belovende weg is en in dit onderzoek presenteren we nieuwe methodes om dit te doen.
        URI
        https://studenttheses.uu.nl/handle/20.500.12932/43219
        Collections
        • Theses
        Utrecht university logo