<?xml version="1.0" encoding="UTF-8"?>
<mets:mets xmlns:mets="http://www.loc.gov/METS/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:mads="http://www.loc.gov/mads/" xmlns:metsRights="http://cosimo.stanford.edu/sdr/metsrights/" xmlns:tef="http://www.abes.fr/abes/documents/tef" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<mets:metsHdr CREATEDATE="2021-04-12T10:59:27" ID="univ-lille-15908" LASTMODDATE="2021-04-12T14:55:34" RECORDSTATUS="complet">
<mets:agent ROLE="CREATOR">
<mets:name>Université Lille1 - Sciences et Technologies</mets:name>
</mets:agent>
</mets:metsHdr>
<mets:dmdSec CREATED="2021-04-12T10:59:27" ID="desc_expr">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_these">
<mets:xmlData>
<tef:thesisRecord>
<dc:title xml:lang="en">Sample complexity in sequential decision-making</dc:title>
<dcterms:alternative xml:lang="fr">Complexité d’échantillonnage pour la prise de décision séquentielle</dcterms:alternative>
<dc:subject xml:lang="fr">Apprentissage par renforcement</dc:subject>
<dc:subject xml:lang="fr">Apprentissage statistique</dc:subject>
<dc:subject xml:lang="fr">Échantillons finis</dc:subject>
<dc:subject xsi:type="dcterms:DDC">519.54</dc:subject>
<tef:sujetRameau>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027231674" autoriteSource="Sudoc">Prise de décision (statistique)</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027940373" autoriteSource="Sudoc">Apprentissage automatique</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027821560" autoriteSource="Sudoc">Programmation dynamique</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027576973" autoriteSource="Sudoc">Échantillonnage (statistique)</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="158644107" autoriteSource="Sudoc">Algorithmes d'approximation</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
</tef:sujetRameau>
<dcterms:abstract xml:lang="en"/>
<dcterms:abstract xml:lang="fr">De nombreux problèmes intéressants de prise de décision séquentielle peuvent être formulés comme des problèmes d’apprentissage par renforcement. En apprentissage par renforcement, un agent interagit avec un environnement dynamique, stochastique et qu’il ne connaît que partiellement, dans le but de trouver une stratégie de prise d’actions, ou politique, qui maximise une certaine mesure de performance à long terme. Les algorithmes de programmation dynamique sont les outils les plus puissants pour résoudre les problèmes d’apprentissage par renforcement, c’est à dire pour trouver la politique optimale. Cependant, pour ces algorithmes, la découverte du comportement décisionnel optimal n’est garantie que si l’environnement (à savoir, la dynamique de l’état du système et les récompenses) est connu de manière complète et que les espaces d’état et d’action ne sont pas de trop grandes tailles. Lorsque l’une de ces conditions se trouve violée (par exemple si l’unique information disponible sur l’environnement prend la forme d’échantillons de transitions et de récompenses), des algorithmes d’approximation sont requis, et dès lors, les méthodes de programmation dynamique se convertissent en méthodes de programmation dynamique approchée et en algorithmes d’apprentissage par renforcement.
La théorie de l’apprentissage statistique est fondamentale pour l’étude des propriétés statistiques des algorithmes développés en apprentissage automatique. En particulier, apprentissage statistique décrit l’interaction entre le processus générant les échantillons et l’espace d’hypothèse utilisé par l’algorithme d’apprentissage, et établit à quelles conditions et dans quelles mesures les problèmes de régression et de classification peuvent être résolus. Ces résultats ont aussi montré leur utilité pour dimensionner les problèmes d’apprentissage automatique (nombre d’échantillons, complexité de l’espace d’hypothèse) et pour ajuster les paramètres des algorithmes (par exemple le paramètre de régularisation des méthodes de régularisation). 
L’objet principal de ce travail est d’employer les outils de l’apprentissage statistique afin d’étudier les performances des algorithmes d’apprentissage par renforcement hors ligne et de programmation dynamique approchée pour aboutir à des bornes en échantillons finis sur la perte en performance (par rapport à la politique optimale) de la politique apprise par ces algorithmes. Un tel objectif demande de combiner efficacement des outils de l’apprentissage statistique avec les algorithmes de programmation dynamique approchée, et de montrer comment l’erreur se propage d’itération en itération chez ces algorithmes itératifs. Nous considérons différents types d’algorithmes de programmation dynamique approchée : basés soit sur une régression, une classification ou une méthode de point fixe, et, pour chacun, nous soulignons les principaux défis que posent leurs analyses en échantillons finis. 
</dcterms:abstract>
<dc:type>Electronic Thesis or Dissertation</dc:type>
<dc:type xsi:type="dcterms:DCMIType">Text</dc:type>
<dc:language xsi:type="dcterms:RFC3066">en</dc:language>
</tef:thesisRecord>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:dmdSec CREATED="2021-04-12T10:59:27" ID="desc_edition">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_edition">
<mets:xmlData>
<tef:edition>
<dcterms:medium xsi:type="dcterms:IMT">application/pdf</dcterms:medium>
<dcterms:extent>1 : 1374 Ko</dcterms:extent>
<dc:identifier xsi:type="dcterms:URI">https://pepite-depot.univ-lille.fr/LIBRE/HDR/2014/HDR2014LIL110.pdf</dc:identifier>
</tef:edition>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:amdSec>
<mets:techMD ID="admin_expr">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_admin_these">
<mets:xmlData>
<tef:thesisAdmin>
<tef:auteur>
<tef:nom>Ghavamzadeh </tef:nom>
<tef:prenom>Mohammad</tef:prenom>
<tef:dateNaissance>1972-09-07</tef:dateNaissance>
<tef:nationalite scheme="ISO-3166-1">FR</tef:nationalite>
<tef:autoriteExterne autoriteSource="Sudoc">181393115</tef:autoriteExterne>
</tef:auteur>
<dc:identifier xsi:type="tef:NNT"/>
<dcterms:dateAccepted xsi:type="dcterms:W3CDTF">2014-06-11</dcterms:dateAccepted>
<tef:thesis.degree>
<tef:thesis.degree.discipline xml:lang="fr">Mathématiques</tef:thesis.degree.discipline>
<tef:thesis.degree.grantor>
<tef:nom>Université Lille1 - Sciences et Technologies</tef:nom>
<tef:autoriteInterne>thesis.degree.grantor_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">026404184</tef:autoriteExterne>
</tef:thesis.degree.grantor>
<tef:thesis.degree.level>HDR</tef:thesis.degree.level>
</tef:thesis.degree>
<tef:theseSurTravaux>non</tef:theseSurTravaux>
<tef:avisJury>oui</tef:avisJury>
<tef:directeurThese>
<tef:nom>Preux </tef:nom>
<tef:prenom>Philippe</tef:prenom>
<tef:autoriteInterne>intervenant_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">059896353</tef:autoriteExterne>
</tef:directeurThese>
<tef:ecoleDoctorale>
<tef:nom/>
<tef:autoriteInterne>ecoleDoctorale_1</tef:autoriteInterne>
</tef:ecoleDoctorale>
<tef:partenaireRecherche autreType="Laboratoire" type="autreType">
<tef:nom>Institut national de recherche en informatique et en automatique (France). Centre de recherche Lille - Nord Europe</tef:nom>
<tef:autoriteInterne>partenaireRecherche_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">185432247</tef:autoriteExterne>
</tef:partenaireRecherche>
<tef:oaiSetSpec>ddc:510</tef:oaiSetSpec>
<tef:MADSAuthority authorityID="intervenant_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Preux </mads:namePart>
<mads:namePart type="given">Philippe</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="thesis.degree.grantor_1" type="corporate">
<tef:personMADS>
<mads:namePart>Université Lille1 - Sciences et Technologies</mads:namePart>
<mads:description>Université Lille1 - Sciences et Technologies</mads:description>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="ecoleDoctorale_1" type="corporate">
<tef:personMADS>
<mads:namePart/>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="partenaireRecherche_1" type="corporate">
<tef:personMADS>
<mads:namePart>Institut national de recherche en informatique et en automatique (France). Centre de recherche Lille - Nord Europe</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
</tef:thesisAdmin>
</mets:xmlData>
</mets:mdWrap>
</mets:techMD>
<mets:techMD ID="file_1">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_tech_fichier">
<mets:xmlData>
<tef:meta_fichier>
<tef:encodage>ASCII</tef:encodage>
<tef:formatFichier>PDF</tef:formatFichier>
<tef:taille>1406889</tef:taille>
</tef:meta_fichier>
</mets:xmlData>
</mets:mdWrap>
</mets:techMD>
<mets:rightsMD ID="dr_expr_thesard">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_auteur_these">
<mets:xmlData>
<metsRights:RightsDeclarationMD>
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="true" DELETE="false" DISCOVER="true" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
<mets:rightsMD ID="dr_expr_univ">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_etablissement_these">
<mets:xmlData>
<metsRights:RightsDeclarationMD>
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="true" DELETE="false" DISCOVER="true" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
<mets:rightsMD ID="dr_version">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_version">
<mets:xmlData>
<metsRights:RightsDeclarationMD>
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="true" DELETE="false" DISCOVER="true" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="true"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
</mets:amdSec>
<mets:fileSec>
<mets:fileGrp ID="FGrID1" USE="archive">
<mets:file ADMID="file_1" ID="FID1" MIMETYPE="application/pdf" USE="maitre">
<mets:FLocat LOCTYPE="URL" xlink:href="https://pepite-depot.univ-lille.fr/LIBRE/HDR/2014/HDR2014LIL110.pdf"/>
</mets:file>
</mets:fileGrp>
</mets:fileSec>
<mets:structMap TYPE="logical">
<mets:div ADMID="dr_expr_thesard dr_expr_univ admin_expr" CONTENTIDS="www.univ-lille.fr/uid/univ-lille-15908/oeuvre" DMDID="desc_expr" TYPE="THESE">
<mets:div ADMID="dr_version" CONTENTIDS="www.univ-lille.fr/uid/univ-lille-15908/oeuvre/version" TYPE="VERSION_COMPLETE">
<mets:div CONTENTIDS="www.univ-lille.fr/uid/univ-lille-15908/oeuvre/version/edition" DMDID="desc_edition" TYPE="EDITION">
<mets:fptr FILEID="FGrID1"/>
</mets:div>
</mets:div>
</mets:div>
</mets:structMap>
</mets:mets>
