<?xml version="1.0" encoding="UTF-8"?><mets:mets xmlns:mets="http://www.loc.gov/METS/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:mads="http://www.loc.gov/mads/" xmlns:metsRights="http://cosimo.stanford.edu/sdr/metsrights/" xmlns:suj="http://www.theses.fr/namespace/sujets" xmlns:tef="http://www.abes.fr/abes/documents/tef" xmlns:tefextension="http://www.abes.fr/abes/documents/tefextension" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.abes.fr/abes/documents/tef/recommandation/tef_schemas.xsd">
<mets:metsHdr CREATEDATE="2025-12-02T14:09:58" ID="ABES.STAR.THESE_242418.METS_HEADER" LASTMODDATE="2026-05-27T08:33:38" RECORDSTATUS="valide">
<mets:agent ROLE="CREATOR">
<mets:name/>
<mets:note>Note</mets:note>
</mets:agent>
<mets:agent ROLE="DISSEMINATOR">
<mets:name>ABES</mets:name>
</mets:agent>
<mets:altRecordID ID="ABES.STAR.THESE_242418.METS_HEADER.ALTERNATE" TYPE=""/>
</mets:metsHdr>
<mets:dmdSec ID="ABES.STAR.THESE_242418.DESCRIPTION_BIBLIOGRAPHIQUE">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_these">
<mets:xmlData>
<tef:thesisRecord>
<dc:title xml:lang="fr">Structures de données efficaces pour l'indexation des séquences de troisième génération</dc:title>
<dcterms:alternative xml:lang="en">Efficient data structure for third generation sequencing indexation</dcterms:alternative>
<dc:subject xml:lang="fr">Indexation</dc:subject>
<dc:subject xml:lang="fr">Séquençage de troisième génération</dc:subject>
<dc:subject xml:lang="en">Indexation</dc:subject>
<dc:subject xml:lang="en">Third generation sequencing</dc:subject>
<dc:subject xml:lang="en">Data structures</dc:subject>
<dc:subject xsi:type="dcterms:DDC"/>
<tef:sujetRameau xml:lang="fr">
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="069395721" autoriteSource="Sudoc">Bioinformatique</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027860035" autoriteSource="Sudoc">Saisie des données (informatique) -- Organisation</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
</tef:sujetRameau>
<dcterms:abstract xml:lang="fr">L'émergence de la troisième génération de séquençage (TGS), technologie produisant deslongs reads, a transformé les approches d'analyse des données génomiques. Bien que ces longsreads permettent de surmonter certaines limites associées aux reads courts, notamment la ré-solution des régions répétées, leur assemblage et leur traitement posent encore aujourd'hui denombreux défis. L'analyse de novo sans recours à un génome de référence s'impose dans certainscontextes comme une stratégie particulièrement pertinente dans de nombreux cas, par exemplelorsque aucun génome de référence n'est disponible, dans le cadre de la transcriptomique ou en-core dans le cas d'études métagénomiques où les données proviennent de multiples organismessouvent inconnus à l'image du projet Tara Oceans récoltant des échantillons planctoniques variés.Pour que ces analyses puissent passer à l'échelle et être efficaces, notamment face au volumecroissant des données mais aussi adaptées aux spécificités des longs reads, il est indispensablede s'appuyer sur des structures d'indexation efficaces et adéquates.Cette thèse s'inscrit dans ce contexte, avec pour objectif principal le développement de solu-tions de recherche d'informations qui permettront l'analyse de novo adaptées aux données issuesdu séquençage de troisième génération. Après une étude de l'état de l'art et de l'identificationde leurs limites, nous avons proposé de nouvelles méthodes d'indexation de longs reads, pourpermettre une exploitation efficace de ces séquences : détection de variations, quantification,génotypage ou encore comparaison entre jeux de données.L'apport central de cette thèse est la mise en place de stratégies, permettant l'association de k-mers aux reads auxquels ils appartiennent, capables de passer à l'échelle. Une première solutionmise en place et utilisable est notre implémentation K2R (k-mer to Reads), capable d'indexer desséquençages de grande taille (plus de 100X de génome humain). Ce nouvel outil repose sur unestratégie d'indexation par minimizers, optimisée pour la performance et paramétrable afin des'adapter à de nombreux cas d'utilisation. Nous avons par la suite étudié comment améliorerl'impact mémoire de K2R, grâce à une méthode de réordonnancement de reads et observé quece réordonnancement permettait également d'optimiser la compression de séquençages longsreads.Dans un second temps, nous avons développé des outils complémentaires à K2R. Nous avonsproposé un outil permettant la recherche en streaming de k-mers : K2Rmini. Il adopte une ap-proche inverse à celle de K2R en indexant les requêtes plutôt que le jeu de données. Nous avonségalement exploré un autre type d'index, complémentaire à K2R : ONIKA. ONIKA repose surune représentation des séquences sous forme de sketchs, qui sont des sous-ensembles de k-mers,permettant une empreinte mémoire réduite. À l'image de K2R, chaque élément est associé auxjeux de données dans lesquels il apparaît, ce qui permet d'effectuer des requêtes rapides etefficaces, y compris lors de la comparaison de grands jeux de données.</dcterms:abstract>
<dcterms:abstract xml:lang="en">The emergence of third-generation sequencing (TGS), a technology that produces long reads,has transformed genomic data analysis approaches. Although these long reads overcome cer-tain limitations associated with short reads, notably the resolution of repetitive regions, theirassembly and processing still pose many challenges today. De novo analysis, without using areference genome, therefore stands out as a particularly relevant strategy in many cases, for ins-tance, when no reference genome is available, or in metagenomic studies where data originatesfrom multiple, often unknown organisms, such as the Tara Oceans project which collects diverseplanktonic samples. For these analyses to be scalable and efficient, especially given the growingvolume of data and the specific characteristics of long reads, it was essential to create a new,suitable indexing structure.This thesis is situated within this context, with the main objective of developing informationretrieval solutions that enable de novo analysis adapted to data from third-generation sequen-cing. After a review of the state of the art and the identification of its limitations, we proposednew methods for indexing long reads to allow for the efficient use of these sequences : variationdetection, quantification, genotyping, or comparison between datasets.The central contribution of this thesis is the implementation of scalable strategies for asso-ciating k-mers with the reads to which they belong. A first implemented and usable solutionis our K2R (k-mer to Reads) implementation, capable of indexing large-scale sequencing data(over 100X of the human genome). This new tool is based on a minimizer indexing strategy,optimized for performance, configurable, and versatile to adapt to numerous use cases. We sub-sequently studied how to improve K2R's memory footprint through a read reordering methodand observed that it also allowed to optimize the compression of long-read sequencing data.Secondly, we developed tools complementary to K2R. We proposed a tool for streaming k-mer search : K2Rmini. It adopts an inverse approach to K2R by indexing the queries ratherthan the dataset. We also explored another type of index, complementary to K2R : ONIKA.Specializing in dataset comparison, ONIKA is based on representing sequences as sketches,which are subsets of k-mers, allowing for a reduced memory footprint. Like K2R, each elementis associated with the datasets in which it appears, which enables fast and efficient queries, evenwhen comparing many datasets with one another.</dcterms:abstract>
<dc:type>Electronic Thesis or Dissertation</dc:type>
<dc:type xsi:type="dcterms:DCMIType">Text</dc:type>
<dc:language xsi:type="dcterms:RFC3066">fr</dc:language>
</tef:thesisRecord>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:dmdSec ID="ABES.STAR.THESE_242418.VERSION_COMPLETE.DESCRIPTION.EDITION_ARCHIVAGE">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_edition">
<mets:xmlData>
<tef:edition>
<dcterms:medium xsi:type="dcterms:IMT">PDF</dcterms:medium>
<dcterms:extent>9030497</dcterms:extent>
<dc:identifier xsi:type="dcterms:URI">https://pepite-depot.univ-lille.fr/LIBRE/EDMADIS/2025/2025ULILB051.pdf</dc:identifier>
<dc:identifier xsi:type="dcterms:URI">https://theses.fr/2025ULILB051/abes</dc:identifier>
<dc:identifier xsi:type="dcterms:URI">https://theses.hal.science/tel-05628689</dc:identifier>
<dc:identifier xsi:type="dcterms:URI">https://theses.hal.science/tel-05628689</dc:identifier>
<dc:identifier xsi:type="dcterms:URI">https://theses.hal.science/tel-05628689</dc:identifier>
</tef:edition>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:amdSec>
<mets:techMD ID="ABES.STAR.THESE_242418.ADMINISTRATION">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_admin_these">
<mets:xmlData>
<tef:thesisAdmin>
<tef:auteur>
<tef:nom>Vandamme</tef:nom>
<tef:prenom>Léa</tef:prenom>
<tef:nomDeNaissance>Vandamme</tef:nomDeNaissance>
<tef:dateNaissance>1997-11-17</tef:dateNaissance>
<tef:nationalite scheme="ISO-3166-1">FR</tef:nationalite>
<tef:autoriteExterne autoriteSource="Sudoc">29694114X</tef:autoriteExterne>
</tef:auteur>
<dc:identifier xsi:type="tef:nationalThesisPID">https://theses.fr/2025ULILB051</dc:identifier>
<dc:identifier xsi:type="tef:NNT">2025ULILB051</dc:identifier>
<dc:identifier xsi:type="tef:DOI">https://doi.org/10.70675/fdc56a17z6b3fz45e7z80cez4a9088f7d977</dc:identifier>
<dcterms:dateAccepted xsi:type="dcterms:W3CDTF">2025-12-18</dcterms:dateAccepted>
<tef:thesis.degree>
<tef:thesis.degree.discipline xml:lang="fr">Informatique et applications</tef:thesis.degree.discipline>
<tef:thesis.degree.grantor>
<tef:nom>Université de Lille (2022-....)</tef:nom>
<tef:autoriteExterne autoriteSource="Sudoc">259265152</tef:autoriteExterne>
</tef:thesis.degree.grantor>
<tef:thesis.degree.level>Doctorat</tef:thesis.degree.level>
<tef:thesis.degree.name xml:lang="fr">Docteur es</tef:thesis.degree.name>
</tef:thesis.degree>
<tef:theseSurTravaux>non</tef:theseSurTravaux>
<tef:avisJury>oui</tef:avisJury>
<tef:directeurThese>
<tef:nom>Limasset</tef:nom>
<tef:prenom>Antoine</tef:prenom>
<tef:autoriteInterne>MADS_DIRECTEUR_DE_THESE_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">223503908</tef:autoriteExterne>
</tef:directeurThese>
<tef:directeurThese>
<tef:nom>Cazaux</tef:nom>
<tef:prenom>Bastien</tef:prenom>
<tef:autoriteInterne>MADS_DIRECTEUR_DE_THESE_2</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">226877523</tef:autoriteExterne>
</tef:directeurThese>
<tef:presidentJury>
<tef:nom>Kessaci</tef:nom>
<tef:prenom>Marie-Eléonore</tef:prenom>
<tef:autoriteInterne>MADS_PRESIDENT_DU_JURY</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">163953791</tef:autoriteExterne>
</tef:presidentJury>
<tef:membreJury>
<tef:nom>Commes</tef:nom>
<tef:prenom>Thérèse</tef:prenom>
<tef:autoriteInterne>MADS_MEMBRE_DU_JURY_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">112246419</tef:autoriteExterne>
</tef:membreJury>
<tef:rapporteur>
<tef:nom>Lavenier</tef:nom>
<tef:prenom>Dominique</tef:prenom>
<tef:autoriteInterne>MADS_RAPPORTEUR_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">06011911X</tef:autoriteExterne>
</tef:rapporteur>
<tef:rapporteur>
<tef:nom>Gautheret</tef:nom>
<tef:prenom>Daniel</tef:prenom>
<tef:autoriteInterne>MADS_RAPPORTEUR_2</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">061782645</tef:autoriteExterne>
</tef:rapporteur>
<tef:ecoleDoctorale>
<tef:nom>École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)</tef:nom>
<tef:autoriteInterne>MADS_ECOLE_DOCTORALE_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">258621362</tef:autoriteExterne>
</tef:ecoleDoctorale>
<tef:partenaireRecherche type="laboratoire">
<tef:nom>Centre de Recherche en Informatique, Signal et Automatique de Lille</tef:nom>
<tef:autoriteInterne>MADS_PARTENAIRE_DE_RECHERCHE_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="labTEL">410272</tef:autoriteExterne>
<tef:autoriteExterne autoriteSource="Sudoc">18388695X</tef:autoriteExterne>
</tef:partenaireRecherche>
<tef:partenaireRecherche autreType="Financeur" type="autreType">
<tef:nom>Agence nationale de la recherche (France ; 2005-....)</tef:nom>
<tef:autoriteInterne>MADS_PARTENAIRE_DE_RECHERCHE_2</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">121892174</tef:autoriteExterne>
</tef:partenaireRecherche>
<tef:oaiSetSpec>ddc:004</tef:oaiSetSpec>
<tef:MADSAuthority authorityID="MADS_DIRECTEUR_DE_THESE_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Limasset</mads:namePart>
<mads:namePart type="given">Antoine</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_DIRECTEUR_DE_THESE_2" type="personal">
<tef:personMADS>
<mads:namePart type="family">Cazaux</mads:namePart>
<mads:namePart type="given">Bastien</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_PRESIDENT_DU_JURY" type="personal">
<tef:personMADS>
<mads:namePart type="family">Kessaci</mads:namePart>
<mads:namePart type="given">Marie-Eléonore</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_MEMBRE_DU_JURY_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Commes</mads:namePart>
<mads:namePart type="given">Thérèse</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_RAPPORTEUR_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Lavenier</mads:namePart>
<mads:namePart type="given">Dominique</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_RAPPORTEUR_2" type="personal">
<tef:personMADS>
<mads:namePart type="family">Gautheret</mads:namePart>
<mads:namePart type="given">Daniel</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_ECOLE_DOCTORALE_1" type="corporate">
<tef:personMADS>
<mads:namePart type="family">École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_PARTENAIRE_DE_RECHERCHE_1" type="corporate">
<tef:personMADS>
<mads:namePart type="family">Centre de Recherche en Informatique, Signal et Automatique de Lille</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_PARTENAIRE_DE_RECHERCHE_2" type="corporate">
<tef:personMADS>
<mads:namePart type="family">Agence nationale de la recherche (France ; 2005-....)</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
</tef:thesisAdmin>
</mets:xmlData>
</mets:mdWrap>
</mets:techMD>
<mets:techMD ID="ABES.STAR.THESE_242418.VERSION_COMPLETE.EDITION_ARCHIVAGE.TECH_FICHIER.DOSSIER_1.DOSSIER_1.FICHIER_1">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_tech_fichier">
<mets:xmlData>
<tef:meta_fichier>
<tef:formatFichier>PDF</tef:formatFichier>
<tef:taille>9030497</tef:taille>
</tef:meta_fichier>
</mets:xmlData>
</mets:mdWrap>
</mets:techMD>
<mets:rightsMD ID="ABES.STAR.THESE_242418.DROITS_UNIVERSITE">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_etablissement_these">
<mets:xmlData>
<metsRights:RightsDeclarationMD RIGHTSCATEGORY="CONTRACTUAL">
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
<metsRights:Context CONTEXTCLASS="INSTITUTIONAL AFFILIATE">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
<mets:rightsMD ID="ABES.STAR.THESE_242418.DROITS_DOCTORANT">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_auteur_these">
<mets:xmlData>
<metsRights:RightsDeclarationMD RIGHTSCATEGORY="CONTRACTUAL">
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
<metsRights:Context CONTEXTCLASS="INSTITUTIONAL AFFILIATE">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
<mets:rightsMD ID="ABES.STAR.THESE_242418.VERSION_COMPLETE.DROITS">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_version">
<mets:xmlData>
<metsRights:RightsDeclarationMD RIGHTSCATEGORY="CONTRACTUAL">
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
<metsRights:Context CONTEXTCLASS="INSTITUTIONAL AFFILIATE">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
</mets:amdSec>
<mets:fileSec>
<mets:fileGrp ID="ABES.STAR.THESE_242418.VERSION_COMPLETE.EDITION_ARCHIVAGE.FILEGRP" USE="archive_et_diffusion">
<mets:file ADMID="ABES.STAR.THESE_242418.VERSION_COMPLETE.EDITION_ARCHIVAGE.TECH_FICHIER.DOSSIER_1.DOSSIER_1.FICHIER_1" ID="ABES.STAR.THESE_242418.VERSION_COMPLETE.EDITION_ARCHIVAGE.DOSSIER_1.DOSSIER_1.FICHIER_1" SEQ="1">
<mets:FLocat LOCTYPE="URL" xlink:href="ULIL/THESE_242418/document/0/0/These_VANDAMME_Lea.pdf"/>
</mets:file>
</mets:fileGrp>
</mets:fileSec>
<mets:structMap TYPE="logical">
<mets:div ADMID="ABES.STAR.THESE_242418.ADMINISTRATION ABES.STAR.THESE_242418.DROITS_UNIVERSITE ABES.STAR.THESE_242418.DROITS_DOCTORANT" CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_242418" DMDID="ABES.STAR.THESE_242418.DESCRIPTION_BIBLIOGRAPHIQUE" TYPE="THESE">
<mets:div ADMID="ABES.STAR.THESE_242418.VERSION_COMPLETE.DROITS" CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_242418.ABES.STAR.THESE_242418.VERSION_COMPLETE" TYPE="VERSION_COMPLETE">
<mets:div CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_242418.VERSION_COMPLETE.EDITION_ARCHIVAGE" DMDID="ABES.STAR.THESE_242418.VERSION_COMPLETE.DESCRIPTION.EDITION_ARCHIVAGE" TYPE="EDITION">
<mets:fptr FILEID="ABES.STAR.THESE_242418.VERSION_COMPLETE.EDITION_ARCHIVAGE.FILEGRP"/>
</mets:div>
</mets:div>
</mets:div>
</mets:structMap>
</mets:mets>