Pépite | Classification ordinale avec méthodes aux frontières non paramétriques : aperçu et nouvelles propositions

Imprimer Version XML Ajouter à mon panier

Titre original :

Ordinal classification with non-parametric frontier methods : overview and new proposals

Titre traduit :

Classification ordinale avec méthodes aux frontières non paramétriques : aperçu et nouvelles propositions

Mots-clés en français :

Classification ordinale
Frontière non convexe
Relation non monotone

DEA, Méthode
Statistique non paramétrique
Modèles linéaires généralisés

Mots-clés en anglais :

Sensibilité au coût
Fonction de distance directionnelle

Informations générales

Langue : Anglais
Discipline : Sciences économiques
Identifiant : 2020LILUA007
Type de thèse : Doctorat
Date de soutenance : 05/10/2020

Résumé en langue originale

Suivant l'idée de séparer deux groupes par une hypersurface, la frontière convexe (C) générée par la méthode d'analyse de l'enveloppe des données (DEA) est utilisée pour la séparation dans la classification. Aucune hypothèse sur la forme de l'hypersurface n'est nécessaire si l'on utilise une frontière DEA. De plus, son raisonnement sur l'appartenance est très clair en se référant à une observation de référence. Malgré ces points forts, le classificateur basé sur la frontière DEA n'est pas toujours performant dans la classification. Par conséquent, cette thèse vise à modifier les classificateurs frontaliers existants et à proposer de nouveaux classificateurs frontaliers pour le problème de la classification ordinale. Dans la littérature, tous les axiomes utilisés pour construire la frontière C de la DEA sont conservés pour générer une frontière de séparation, sans argumenter leur correspondance avec les informations de base correspondantes. C'est ce qui motive notre travail au chapitre 2, où les liens entre les axiomes et les informations de base sont examinés. Tout d'abord, en réfléchissant à la relation monotone, les variables caractéristiques du type d'entrée et du type de sortie sont incorporées. En outre, le modèle de la somme minimale des écarts est proposé pour détecter la relation monotone sous-jacente si cette relation n'est pas donnée a priori. Deuxièmement, un classificateur de frontière nonconvexe (NC) est construit en assouplissant l'hypothèse de convexité. Troisièmement, la mesure de la fonction de distance directionnelle (DDF) est introduite pour fournir des implications managériales, bien qu'elle ne modifie pas les résultats de la classification par rapport à la mesure radiale. Les résultats empiriques montrent que le classificateur à frontière NC a la plus grande précision de classification. Une comparaison avec six classificateurs classiques révèle également la supériorité de l'application du classificateur à frontière NC. Alors que la relation des variables caractéristiques suggère souvent la prise en compte d'une relation monotone, le problème parallèle de la prise en compte d'une relation non monotone est rarement pris en compte. Au chapitre 3, une hypothèse d'élimination généralisée qui limite l'élimination dans une fourchette de valeurs est développée pour caractériser la relation non monotone. Au lieu d'avoir une seule frontière de séparation, une coque de séparation NC qui se compose de plusieurs frontières est construite. En ajoutant l'hypothèse de convexité, une coque séparatrice C est alors construite. Un exemple illustratif montrent que le classificateur de coques NC surpasse le classificateur C. En outre, une comparaison avec certains classificateurs frontaliers existants révèle également la supériorité de l'application du classificateur de coque NC. Le chapitre 4 propose de nouveaux classificateurs frontaliers permettant de prendre en compte différentes combinaisons d'informations de classification. En réfléchissant à la relation monotone, un classificateur NC est construit. Si la relation de substitution existe, alors un classificateur C est généré. Les classificateurs NC et C génèrent tous deux deux des frontières où chacun enveloppe un groupe. L'intersection de deux frontières est connue sous le nom de chevauchement, ce qui peut entraîner des classifications erronées. Le chevauchement est réduit en permettant aux deux frontières de se déplacer vers l'intérieur dans la mesure où le coût total de la classification erronée est minimisé. Les frontières déplacées sensibles aux coûts sont alors utilisées pour séparer les groupes. Les règles discriminantes sont également conçues pour intégrer les informations sur les coûts. Les résultats empiriques montrent que le classificateur NC assure une meilleure séparation que le classificateur C. En outre, la mesure de la DDF proposée surpasse la mesure radiale couramment utilisée en fournissant une séparation raisonnable.

Résumé traduit

Following the idea of separating two groups with a hypersurface, the convex (C) frontier generated from the data envelopment analysis (DEA) method is employed as a separating hypersurface in classification. No assumption on the shape of the separating hypersurface is required while using a DEA frontier. Moreover, its reasoning of the membership is quite clear by referring to a benchmark observation. Despite these strengths, the DEA frontier-based classifier does not always perform well in classification. Therefore, this thesis focuses on modifying the existing frontier-based classifiers and proposing novel frontier-based classifiers for the ordinal classification problem. In the classification literature, all axioms used to construct the C DEA frontier are kept in generating a separating frontier, without arguing their correspondence with the related background information. This motivates our work in Chapter 2 where the connections between the axioms and the background information are explored. First, by reflecting on the monotonic relation, both input-type and output-type characteristic variables are incorporated. Moreover, the minimize sum of deviations model is proposed to detect the underlying monotonic relation if this relation is not priori given. Second, a nonconvex (NC) frontier classifier is constructed by relaxing the commonly used convexity assumption. Third, the directional distance function (DDF) measure is introduced for providing further managerial implications, although it does not change the classification results comparing to the radial measure. The empirical results show that the NC frontier classifier has the highest classification accuracy. A comparison with six classic classifiers also reveals the superiority of applying the NC frontier classifier. While the relation of the characteristic variables often suggests consideration of a monotonic relation, its parallel problem of considering a non-monotonic relation is rarely considered. In Chapter 3, a generalized disposal assumption which limits the disposability within a value range is developed for characterizing the non-monotonic relation. Instead of having a single separating frontier, a NC separating hull which consists of several frontiers is constructed to separate the groups. By adding the convexity assumption, a C separating hull is then constructed. An illustrative example is used to test the performance. The NC hull classifier outperforms the C hull classifier. Moreover, a comparison with some existing frontier classifiers also reveals the superiority of applying the proposed NC hull classifier. Chapter 4 proposes novel frontier classifiers for accommodating different mixes of classification information. To be specific, by reflecting on the monotonic relation, a NC classifier is constructed. If there is a priori information of the substitution relation, then a C classifier is generated. Both the NC and C classifiers generate two frontiers where each envelops one group of observations. The intersection of two frontiers is known as the overlap which may lead to misclassifications. The overlap is reduced by allowing the two frontiers to shift inwards to the extent that the total misclassification cost is minimized. The shifted cost-sensitive frontiers are then used to separate the groups. The discriminant rules are also designed to incorporate the cost information. The empirical results show that the NC classifier provides a better separation than the C one does. Moreover, the proposed DDF measure outperforms the commonly used radial measure in providing a reasonable separation.

Informations sur les contributeurs

Directeur(s) de thèse : Kerstens, Kristiaan - Zhou, Zhongbao
Laboratoire : LEM - Lille Économie Management
École doctorale : École doctorale Sciences économiques, sociales, de l'aménagement et du management (Lille ; 1992-....)

AUTEUR

Jin, Qianying

Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.

Accès libre

Accéder au document