La rencontre de deux spécialistes de l'IA ressemble à un combat de coqs. Dans un premier temps, ils annoncent leurs états de service: "ancien du CNRS", "ancien d'Orange Labs"... Puis chacun essaie de montrer que l'algorithme de l'autre est incapable de satisfaire quelque critère mystérieux.
Je soupçonne une erreur de raisonnement : toute l’information est dans les données. Résoudre un problème consiste à trouver l'algorithme qui sait extraire la dite information. Or, le simple échantillonnage des données est déjà un biais: la vie est continue et pas discrète. Le fait de représenter un problème par certains « paramètres » (ce que l'on mesure : température, hygrométrie... en ce qui concerne la météo) constitue une hypothèse extrêmement forte, qui conditionne le résultat que l'on va trouver. Parler de « data driven » comme si cela éliminait les biais de modélisation n’est-il pas incorrect ?
Mon point de vue. L’homme est une machine à bâtir des concepts, qui lui permettent d’agir en simplifiant la situation.
L’analyse de données est une tentative de simplifier la situation, pour provoquer le déclic qui conduit à la décision. Elle peut marcher ou non. Quick and dirty. La démarche d’analyse de données est donc par nature empirique. L’homme construit une modélisation et l’analyse pour voir s’il peut en tirer une idée qui va produire une action ayant un effet bénéfique. C’est comme cela qu’il est parvenu à modéliser les marées ou la météo, ou que travaille le physicien ou l’ingénieur.
Du bon usage du Data Scientist ? Il doit nous permettre 1) de trouver des algorithmes qui répondent à un cahier des charges, mais que nous n’aurions pas vus, car pas mathématiciens du meilleur niveau, 2) d’identifier des biais de raisonnement qui pourraient nous faire échouer à tous les coups, ou systématiquement dans certaines situations.
Le juge ultime sera le test du terrain.