mercredi 12 novembre 2014

Condorcet, analyse relationnelle et big data

Les travaux de Condorcet sur le vote ont eu une curieuse conséquence. On a découvert que sa mathématique permettait de faire des typologies de données. C’est le domaine de l’Analyse relationnelle de MM. Marcotorchino et Michaud.

Imaginons que vous soyez la NSA et que vous vouliez identifier automatiquement une communauté d’esprits malfaisants, sans même savoir qu’ils existent. Condorcet vous propose une technique qui permet de regrouper les mails mondiaux selon des classes de similarité, sans avoir à faire de traitement préliminaire des données ordinaire en statistiques (ce qui demande du temps et introduit un biais). Pour cela il faut disposer d’un moyen de coder les mails (par exemple en fonction des « unités lexicales » employées). De là on peut définir deux mesures, de proximité et d’éloignement, entre éléments pris deux à deux. Alors apparaît le critère de Condorcet pour une partition des données. C’est la somme des mesures de proximité des éléments d’une même classe plus la somme des mesures d’éloignement des éléments appartenant à des classes distinctes. Optimiser ce critère permet, en quelque sorte, de disposer d’une partition qui maximise à la fois la proximité entre éléments d’une même classe et la distance entre éléments de classes distinctes.

Bien qu’heuristiques, les algorithmes (programmation linéaire) qui permettent de faire ces calculs sont sensiblement plus efficace que ceux qu’utilisent d’autres techniques de classification.

Enseignement ? Condorcet pensait que sa mathématique ferait le bonheur de l’humanité. Comme Taylor, il avait sous-estimé la complexité du problème. Surtout, la première application de ses travaux pourrait bien servir au flicage. La motivation à nuire à l’humanité aurait-elle toujours un coup d’avance sur la volonté à l’aider ? (Ou est-il plus complexe d’aider que de nuire ?)

(En quoi cela simplifie-t-il le travail de la NSA ? Chaque classe est représentée par un élément central, ce qui permet de savoir, simplement, ce qui la caractérise. Ensuite, il suffit de faire liquider par un drone les classes suspectes. Les approximations de l’heuristique sont ensuite traduites en « dommages collatéraux »  par la communication officielle.)