lundi 3 octobre 2016

Big data pour les nuls

Je me suis fait prendre au jeu. Je suis tombé sur une vidéo d'un cours d'analyse de données, et de fil en aiguille, j'ai regardé toute la série (de l'ordre de 4h).

Le cours porte sur WEKA, un logiciel développé par l’université de Waikato (Nouvelle Zélande). (https://www.youtube.com/user/WekaMOOC.) Il est donné par un professeur irlandais, qui a fait ses études au Canada.



Ce que j’en déduis :
Il y a maintenant des outils, comme Weka, très simples à utiliser, qui demandent peu de connaissances mathématiques, et très puissants. Aussi, caractéristiques d'un cours à l'anglo-saxonne. En France, on cherche à vous faire croire que l'équation gouverne le monde, les Anglo-saxons partent de la pratique. En éliminant la complication, ils en arrivent à la vraie complexité, à savoir que ces techniques ne font pas de miracles, et demandent une grosse rigueur intellectuelle pour que la science ne ruine pas l'âme.
L’analyse de données est essentiellement une question de prédiction. A partir d’observations passées, on cherche à savoir ce qui va arriver. Alternativement, il s’agit d’aide à la décision : quels sont les facteurs de risque de tel ou tel cancer ? par exemple.
On parle aujourd'hui de « machine learning » (apprentissage automatique). Mais « learning » est trompeur. Contrairement à l’homme qui procède par « coup de génie », qui comprend, par exemple, comment marcher, ou qui invente de nouveaux jeux, ou la notion de jeu, le logiciel ne fait qu’appliquer des modèles prédéfinis. Il n’invente pas de nouveau modèle. Il est déterminé. Machine learning, c'est du marketing. Le marketing, tel qu'on l'entend aujourd'hui, est la plaie d'Internet, et de l'économie de marché.

Il y a différents types de techniques : arbres de décision, segmentation, régression… Leur performance est peu impressionnante. Dans l’ensemble elles permettraient de faire juste dans 3 cas sur 4. Ce taux n’est pas très élevé, pour deux raisons. 1) Il existe généralement une méthode évidente de prévision, et elle marche généralement dans un cas sur deux. (Exemple : le temps de demain sera celui d’aujourd’hui.) ; 2) lorsque l’on doit diagnostiquer un cancer, une chance sur 4 de se tromper, c’est beaucoup…