vendredi 23 décembre 2016

Analyse relationnelle

L'analyse relationnelle est une idée, simple et ancienne, dont on n'avait pas vu la portée. D'ordinaire on décrit les individus d'une population par leurs caractéristiques. Par exemple, pour un client potentiel : sexe, revenus, lieu d'habitation... En analyse relationnelle, les individus sont représentés par les relations qu'ils ont les uns avec les autres. Une relation peut être "a le même âge que", ou "est plus vieux que", par exemple. Toute variable descriptive peut fournir une relation.

A l'origine était Condorcet
L'idée vient de Condorcet. Il s'intéresse à des électeurs qui choisissent des candidats. Les "individus", ici, sont les candidats. Les relation sont, en quelque sorte, les électeurs. L'électeur X préfère le candidat C au candidat c.
Elle a des conséquences surprenantes. Premier exemple. Segmenter une population joue un rôle central en analyse de données. Il remplace des millions d'observations par quelques informations pertinentes. Or, les techniques "individualistes" aboutissent naturellement à la segmentation triviale (un segment = un individu) ! Du coup, on est obligé de fixer le nombre de segments que l'on cherche. Mais alors, on court le risque de rater l'essentiel ; par exemple de fondre dans un gros segment un segment émergeant, qui était, justement, celui qui annonçait l'avenir (un groupe d'innovateurs). Le phénomène est bien connu : la fortune d'une poignée de ministres du cabinet de M.Trump est équivalente à celle d'un tiers de la population américaine. Explication du naufrage actuel des sondages ?

En fait, les bénéfices de cette approche sont tellement radicaux qu'ils sont impossibles à résumer. La notation relationnelle a une capacité explicative étonnante, elle rend triviaux pas mal de problèmes, et permet d'en "linéariser" beaucoup d'autres. La question de linéarisation est décisive en informatique. La plupart des problèmes de "big data" consistent à optimiser une fonction. Dans l'approche ordinaire, cette fonction fait appel à des calculs de carrés. En analyse relationnelle, la fonction est linéaire. Cela fait que des problèmes incalculables normalement peuvent être résolus en quelques secondes... Peut-être, plus fondamentalement, le succès de l'analyse relationnelle pose la question de la nature de l'homme et de ce qui l'entoure... mais ça, c'est une autre histoire.

Passer aux choses sérieuses
Pour ceux qui veulent approfondir la question, voici une conférence sur ce sujet. Et aussi un complément d'information :
L'Analyse Relationnelle Mathématique (ARM) est une approche développée initialement par JF. Marcotorchino et P. Michaud à la fin des années 1970 et qui s'inspire des travaux de Condorcet en théorie des votes. L’ARM propose un cadre formel pour l'étude de l’association et de l’agrégation de relations binaires telles que les relations de préférences, les relations d'équivalence... et fait intervenir des outils de la théorie des graphes, des statistiques et de l'optimisation. L'étude des relations d’ordre trouve des applications en statistiques non paramétriques (tau de Kendall, ...) et en aide multicritère à la décision (agrégation des préférences, ordres médians, ...). L'étude des relations d'équivalence trouve des applications en statistiques de données qualitatives (coefficient de Rand, Chi-deux, ...) et en classification automatique (correlation clustering, algorithme sans fixation du nb de clusters,...) ... L'approche est élégante d'une part car elle est à la croisée de plusieurs disciplines et d'autre part car elle permet un angle de vue unificateur de plusieurs problèmes en mettant en lumière le rôle fondamental joué par les relations binaires. L’ARM, ses fondements, ses algorithmes et ses applications, ont principalement été développés en industrie, à IBM d'abord et à Thalès ensuite. Le but de cette journée est de communiquer plus largement sur les fondements théoriques et sur les applications récentes de cette approche notamment en co-clustering, en détection de communautés et en cyber-sécurité.