IPUMS.org Home Page

BIBLIOGRAPHY

Publications, working papers, and other research using data resources from IPUMS.

Full Citation

Title: Détection de groupes atypiques pour une variable cible quantitative [Detection of atypical groups for a quantitative target variable]

Citation Type: Book, Section

Publication Year: 2008

Abstract: Une tâche importante en analyse des données est la compréhension de comportements inattendus ou atypiques de groupes d’individus. Quelles sont les catégories d’individus qui gagnent de particulièrement forts salaires ou au contraire, quelles sont celles qui ont de très faibles salaires ? Nous présentons le problème d’extraction de tels groupes atypiques vis-à-vis d’une variable cible quantitative, comme par exemple la variable ″salaire″, et plus particulièrement pour les faibles et fortes valeurs d’un intervalle déterminé par l’utilisateur. Il s’agit donc de rechercher des conjonctions de variables dont la distribution diffère significativement de celle de l’ensemble d’apprentissage pour les faibles et fortes valeurs de l’intervalle de cette variable cible. Une adaptation d’une mesure statistique existante, l’intensité d’inclination, nous permet de découvrir de tels groupes atypiques. Cette mesure nous libère de l’étape de transformation des variables quantitatives, à savoir l’étape de discrétisation suivie d’un codage disjonctif complet. Nous proposons donc un algorithme d’extraction de tels groupes avec des règles d’élagage pour réduire la complexité du problème. Cet algorithme a été développé et intégré au logiciel d’extraction de connaissances WEKA. Nous terminons par un exemple d’extraction sur la base de données IPUMS du bureau de recensement américain. [An important task in data analysis is understanding unexpected or atypical behaviors of groups of individuals. What are the categories of individuals who earn particularly high wages or on the contrary, which ones have very low wages? We present the problem of extracting such atypical groups from a quantitative target variable, such as the variable "salary", and more particularly for the low and high values ​​of an interval determined by the user. It is therefore a question of looking for conjunctions of variables whose distribution differs significantly from that of the learning set for low and high values ​​of the range of this target variable. A adaptation of an existing statistical measure, the intensity of inclination, we allows to discover such atypical groups. This measure frees us from the step of transformation of the quantitative variables, namely the step of discretization followed by a complete disjunctive coding. So we propose an algorithm for extracting such groups with pruning rules to reduce the complexity of the problem. This algorithm has been developed and integrated into the software WEKA knowledge extraction. We end with an example extracted from the US Census Bureau's IPUMS database.]

Url: https://editions-rnti.fr/?inprocid=1000627

User Submitted?: No

Authors: Guillaume, Sylvie; Guillochon, Florian; Schneider, Michel

Editors:

Pages: 397-408

Volume Title: Extraction et Gestion des Connaissances

Publisher: Revue des Nouvelles Technologies de l'Information

Publisher Location:

Volume:

Edition:

Data Collections: IPUMS USA

Topics: Labor Force and Occupational Structure, Other

Countries:

IPUMS NHGIS NAPP IHIS ATUS Terrapop