Que cachent les déluges de données ?

vendredi 13 janvier 2012
par  Jean-François Doucet
popularité : 13%

Dans quelle mesure des solutions se cachent-elles dans les déluges de données offert par les logiciels de traitement ?

Une analogie naturelle

Aucun lapon, l [1] n’a pu s’empêcher de prendre peur à la vue des aurores boréales : couleurs et formes de ces voiles couvrant le ciel des nuits interminables ont trouvé une explication : les couleurs rougeâtres des aurores seraient dues aux âmes des défunts dont le sang a été versé lors d’un meurtre, d’un suicide ou d’un accouchement.

Aurore boréale rouge

Dans l’analogie

âme des défunts = voiles rouges

le "tertium comparationis" est la couleur.

Si cette explication poétique est satisfaisante pour un lapon, elle l’est moins pour un habitué du monde arctique étranger à sa culture. Bien d’autres explications ont été données au phénomène observé depuis l’Antiquité ( Anaximène, Aristote, Sénèque ou Pline).

JPEG - 58.7 ko
Shaman sami
Le shaman atteint les âmes de ses ancêtres à l’aide d’un tambour

Surnaturelles ou non, ces explications n’avaient pas pour objectif de maitriser ces phénomènes ; elles sont toutes une analogie entre les voiles visibles dans le ciel et des légendes, mythes ou croyances partagés par un groupe d’observateurs, le "tertium comparationis" de l’analogie variant d’un groupe à l’autre. Ainsi, chez d’autres lapons, le "tertium comparationis" n’est pas la couleur mais la forme d’une queue de renard, commun aux aurores boréales et au renard noir lapon frottant sa queue sur la neige en provoquant des étincelles.

Une analogie adéquate

De la même manière que les lapons [2] trouvent une analogie crédible entre leurs observations et leur vision du monde, les scientifiques cherchent dans les aurores boréales des éléments dont ils ont connaissance. Les aurores polaires entrent alors dans les conventions qu’ils passent entre eux sur la réalité extérieure. Tout d’abord, la désignation " aurores boréales (ou polaires) est donnée par Pierre Gassendi [3]. en 1621. Puis, Edmond Halley attribue au champ magnétique terrestre l’origine de leur formation. Si l’on prend comme point de départ une explication lapone, on écrira :

âme des défunts = champ magnétique terrestre

les aurores observées étant les mêmes, seule leur provenance varie. Le "tertium comparationis " est alors la forme des voiles observés correspondant aux lignes de champ.

champ magnétique = voiles observés

K Birkeland en 1896 après les travaux de Henry Cavendish en 1768 reproduira le phénomène en laboratoire avant que les missions spatiales ne prennent le relai des investigations scientifiques.

Experimentation sur les aurores boréales

Une méthode vieille de plusieurs siècles

Cette méthode d’investigation de la réalité a été mise au point au cours des siècles à partir d’une remise en cause de la Scholastique qui conforte nos sens [4] pour accorder Aristote et la théologie chrétienne. Roger Bacon (1214-1294), tout d’abord, accorde à l’expérience une place primordiale pour parvenir à une certitude : grâce à elle, une mise à l’épreuve par l’expérience, révèle la vérité sur la réalité. Avec Galilée (1564-1642) l’expérimentation dispose de nouvelles méthodes de mesures [5] fournissant des données comparables. Grâce à elles, la science ne se contente plus d’expliquer mais permet de prédire les faits d’expérience. De plus, se détachant du sens commun, la démarche scientifique définit une objectivité dont l’idéal est d’éliminer la subjectivité des énoncés. A partir de Galilée, les sciences telles que la Chimie ou la Biologie prennent leur essor avec, entre autres, Descartes (1596-1650), Pascal (1623-1662) ou Lavoisier (1743-1794).

Parallèlement au développement des instruments de mesure, les savants se sont dotés d’outils de calculs performants. A l’aide de relations trigonométriques, ils substituent des sommes à des produits : sous cette forme, les grands nombres utilisés en astronomie deviennent plus maniables. Viendront ensuite les logarithmes de John Neper (1550- 1617) dont les règles à calculs de nos parents avant les calculatrices électroniques en étaient une application. Ces instruments pour performants qu’ils fussent n’en exigeaient pas moins des savants qu’ils fassent preuve de trésors d’ingéniosité pour exécuter les calculs dans des limites de temps raisonnables tout en respectant l’organisation des tâches des équipes de recherche. Les astronomes, par exemple, [6] utilisaient les services de mathématiciens dans une organisation qui n’avait rien à envier à celles de nos équipes actuelles de recherche.

Les instruments électroniques de calculs facilitaient les calculs répétitifs et fastidieux. Grâce à la traduction des valeurs à calculer en grandeurs digitales, les calculs "à la main"de racines cubiques, par exemple, devenaient rarissimes. De plus, la rapidité du traitement des données permettaient des calculs (et donc des expérimentations) inconcevables avant l’apparition des calculateurs de plus en plus puissants. Mais le traitement électronique des données a fait disparaître concomitamment des pratiques comme le calcul mental des ordres de grandeurs ou l’analyse dimensionnelle des équations. Bien plus, l’apparition des calculateurs a profondément modifié les approches théoriques elles-mêmes. Là où, un calcul nécessitait une solide justification théorique pour être mené à bien, l’ efficacité des calculateurs électroniques n’exige plus qu’un empirisme simple à mettre en oeuvre. Grandissant en quantité et en précision, ces calculs fournissent actuellement aux savants des "déluges de données" dont l’impact mérite un examen particulier.

Du calcul ou "déluge de données"

Soit un sujet et un objet prenant la place d’un volume vide représenté par une circonférence :

PNG - 24.6 ko
Relation sujet objet
"Res extensa" et "Res cogitans" sont respectivement Objet et sujet cartésien

Le sujet perçoit l’objet

PNG - 80.3 ko
Le parlêtre percoit l’objet
Le noeud borroméen représentant le sujet exprime le fait qu’Imaginaire, Symbolique et Réel lacanien sont indissolublement liés

Le sujet [7] perçoit l’objet représenté par un vase. Ce dernier vient à la place vide que l’objet occupe ( comme la glaise du potier entoure le vide dans lequel le vase vient se former). Si un consensus entre plusieurs sujets peut être trouvé sur l’objet, des variantes de perceptions particulières à chaque individu sont toujours possibles.

PNG - 56.5 ko
L’objet est désigné par le mot "Vase"
A chaque représentation de l’objet, on associe une désignation

A une représentation de l’objet (e.g Vase), on associe quelques caractéristiques comme la longueur, la largeur, la couleur etc. D’autres caractéristiques peuvent être attribuées à l’environnement de l’objet comme, par exemple, la température. De cette manière, l’objet est géométrisé qui entre ainsi dans le domaine des abstractions théoriques représentées par des organisations signifiantes.

PNG - 85.4 ko
Géométrisation de l’objet
A partir d’un objet concret, on extrapole certains paramètres : l’objet est alors géométrisé

La dilatation du vase caractérisée par sa hauteur H est susceptible d’être mesurée à différentes températures.

PNG - 55.5 ko

Le sujet se fait connaitre par l’énoncé d’une analogie adéquate sur l’objet

Au vu des résultats de mesure, la loi de dilatation des corps à différentes températures peut être énoncée. A un coefficient de dilatation près, l’augmentation de la hauteur H est proportionnelle à la différence de températures.

PNG - 49.1 ko
Connaisance de l’Objet
Un vase est, dans ce cas, caractérisé par sa haueuter à une température donnée

Une organisation signifiante est un signe de reconnaissance

Cette formulation d’une analogie adéquate évitera des mesures fastidieuses ultérieures autant qu’elle servira de signe de reconnaissance aux sujets partageant la même croyance en son efficacité. Constante dans le temps, cette organisation signifiante est également prédictive.

PNG - 49.6 ko
Analogie adéquate de l’objet
Une loi liant les différentes variables de l’objet est une représentation analogique de l’objet
PNG - 53.8 ko
Reconnaissance de l’analogie adéquate
La loi de dilatation des corps en fonction de la température peut servir de signe de reconnnaissance

Grâce aux calculateurs électroniques, les résultats de nombreuses mesures peuvent confirmer la proportionnalité de la dilatation à la différences des températures. Multipliant les objets, on peut obtenir sans grandes difficultés un " déluges de données " sur la dilatation des corps. Mais un nouveau point de vue sur l’objet est nécessaire à une quelconque découverte d’une relation entre différentes caractéristiques d’un corps. Ainsi, au lieu de voir un vase, puisque la réalité extérieure est affaire de convention entre membre d’une même communauté ( animiste pour les lapons et scientifique pour les savants), le sujet, par exemple peut apercevoir deux visages face à face. Expérimentant sa nature conventionnelle, il met en cause une réalité pourtant parfaitement admise pour en concevoir une autre plus adéquate. Partageant avec au moins une personne cette réalité nouvelle (et conventionnelle) il ré-édite la pratique de l’hospitalité antique où l’hôte et son invité, en se séparant, cassaient une tessère, petite plaque d’argile dont chacun conservait une moitié, la cassure confirmant lors d’une prochaine rencontre, la commune appartenance à une communauté de sens. Un savant et son adresse (réelle ou imaginaire), comme les invités antiques, tient pour vrai un énoncé scientifique comme signe de connaissance et de reconnaissance des caractéristiques de cette réalité dans une situation donnée.

PNG - 48.3 ko
Autre point de vue sur l’objet
Un autre point de vue sur l’objet est nécessaire à l’innovation

Ce nouveau point de vue sera alors l’origine de la formulation de nouvelles hypothèses autant que la possibilité de nouveaux énoncés sur l’objet.

Partage de la subjectivité : vers l’objectivité scientifique

Emettre une théorie, c’est alors passer un accord avec quelqu’un (réel ou imaginaire) sur une nouvelle représentation de la réalité.

PNG - 153.8 ko
Relation d’une organisation signiifante à son créateur
Une organisation signifiante est nécessasirement une métaphore du sujet

Pour ce faire, passer une convention à l’aide de signes est indissolublement lié aux représentations des savants. Or, les machines électroniques traitent les signes indépendamment des représenations qui leur ont donné naissance. Le rayon de lumière imaginé par A Einstein pour mettre en évidence les propriétés du temps newtonien n’apparait pas dans les équations. Pour les résoudre, faisant abstractions des représentations mentales, les machines électroniques attribuent une place et une valeur aux variables qu’elles organisent. Ainsi écrites, elles peuvent être changées de place, copiées, effacées, stockées et ainsi produire des nuages de données que les machines modernes ont transformé en déluge.

PNG - 231.4 ko
Sens d’une organisation signifiante
Signes et représentations de l’objet sont indissociablement liés

Dans ce déluge, les savants espèrent trouver des relations entre les signes. Tout au plus, cependant, ils ne peuvent découvrir que les variations entre les valeurs des variables qu’ils ont retenues pour leurs calculs. Le choix de ces variables, déconnecté des métaphores qui en sont l’origine, grâce au déluge de valeurs aisément produites par des calculateurs de plus en plus puissants, ouvre à la fois la porte aux découvertes de relations cachées dans la profusion des données et limite la faculté des savants de les remettre en cause. Les calculs effectués ne correspondent qu’au traitement électronique rendu indispensable par l’abondance des données c’est-à-dire au traitement d’ une forme alors que les éventuelles conventions nouvelles passées sur la réalité font nécecessairement appel à un travail de fond (en géneral une métaphore produite par l’imagination du savant )

Le déluge de données amplifie le risque d’un simple effet [8] de signifiants [9] [10]que le traitement électronique, en l’absence de représentations mentales, les réduit à des descriptifs digitaux alors qu’ils sont porteurs de sens échangés entre personnes. [11]. En définitive, le déluge de données pourrait faire croire que l’abondance des digits ssuffit à cerner la vérité sur la réalité alors qu’ils ne sont que les signes conventionnels exprimant les hypothèses avancées par les savants.

Faire ce que le savant veut ou ce que la machine peut  ?

Dans ces conditions, si le traitement digital des données a considérablement amélioré les perfomances des calculs scientifiques, il a également accentué la dépendance des savants vis à vis de ces outils. Pour Chris Anderson, l’analyse mathématique appliquée aux énormes quantités de données provenant de nos capteurs vont transformer les sciences. Alors que la méthode scientifique est construite autour d’hypothèses que l’on teste, de modèles et d’expérimentations qui confirment ou infirment les hypothèses théoriques, les données, sans modèles, ne risquent-elles pas de n’être rien d’autre que du bruit ? Pas si sûr, répond Anderson : avec l’arrivée de données massives, cette approche de la science risque de devenir obsolète. " L’ère du Pétaoctet nous permet de dire : "la corrélation va suffire". A de telles quantités de données, les savants peuvent faire fi des hypothèses qui leur ont donné naissance et alimenter aveuglément les algorithmes de calculateurs de plus en plus puissants ! Du même coup, les calculateurs prédisent comme l’a fait Craig Venter [12] des nouvelles espèces comme Mendeleiev prévoyaient de nouveaux corps !

"Nous pouvons désormais analyser les données sans faire des hypothèses sur ce qu’elles vont produire. Nous pouvons jeter les nombres dans le plus grand réseau d’ordinateurs que le monde n’ait jamais vu et laisser les algorithmes trouver les modèles que la science n’arrivait pas à trouver." Et d’évoquer l’exemple du séquençage des gènes par Craig Venter, qui est passé de l’organisme humain au séquençage de l’océan, puis au séquençage de l’air. Un procédé qui lui permet de trouver des centaines de nouvelles espèces, de nouvelles bactéries dont Venter ne sait rien : il ne dispose que d’une alerte statistique, une séquence, qui, parce qu’elle n’est pas comme les autres séquences d’ADN qu’il a dans sa base, doit représenter une nouvelle espèce.

Après la consommation, la Société de l’information ?

Est-ce que le concept de "Société de l’information " suivra le même sort que celui de " Société de Consommation " née comme la précédente de la production de biens en abondance. Désormais, un citoyen peut bien vivre dans cette société sans avoir d’autre contact avec le monde extérieur que celui offert par les produits qu’il consomme. Il peut croire sa vie durant que la mayonnaise sort d’un tube ou que le lait provient d’un berlingot. Est-ce à dire que, parallèlement, les déluges de données en tous genres immergeront l’être humain dans des représentations du monde qu’il a lui-même crée plus que dans le monde tel qu’il lui a été donné ?


[1e terme "same" ou "sami" est moins péjoratif que le terme "lappon" mais malheureusement peu ou pas compris en francais

[2Si l’on reprend l’image du monde du physicien Max Planck distinguant " le monde réel, indépendant de nos sens, le monde des sens qui constitue la perception humaine du précédent et le monde de la physique crée par l’esprit humain et répondant à une exigence déterminée, par là un monde variable et perfectible", ( J. Dubois, La science expérimentale et les cabinets de physique au XVIIème siècle, Bulletin de la Société Archéologique de Touraine- Tome XLII, Année 1989) la vision des lapons correspond aux deux premières entités.

[3Dans la mesure où G. Galilée avait connaissance des taches solaires, certains lui attribuent la paternité de cette désignation

[4L’expression " Le soleil se lève à l’est " en est une trace qui correspond à notre sens commun sur les places respectives des deux astres

[5comme la lunette ou le microscope

[6Jérôme Lamy, Noblesse et servitude du calcul astronomique.- Les astronomes toulousains et la hiérarchie des mathématiques aux 18e et 19e siècles, Revue d’anthropologie des connaissances 2009/2 (Vol. 3, n° 2)

[7 assimilé à la combinaison du Symbolique, de l’Imaginaire et du Réel

[8dans le domaine poliitique sous le terme d’"effet d’annonce" où le dire n’est pas réaliser ni le faire encore moins le penser.

[9 On se rappelle que J. Lacan dans son seminaire sur ”La Lettre volée”, développe une interprétation de la nouvelle d’E. Poe et montre comment une Lettre compromettante volée à une Reine déclenche l’intrigue de la nouvelle sans que jamais le contenu de la lettre ne soit révélé.

[10Ces effets de sigifiants sont à distinguer des fraudes idéologiques qui permis d’énoncer des vérités scientifiques pour servir des intérêts d’un parti poliitique (Affaire Lyssenko)

[11Faire exister un fait seulement grâce à des signes : c’est le cas d’IDA, simiesque fossile, lancée par un consensus d’experts sur une grande échelle par un prodessus voisin du marketing

[12Craig Venter copie une partie de l’ADN de Mycoplasma genitalium pour l’appeler Mycoplasma laboratorium.


Commentaires

Brèves

10 juillet 2013 - La part de mystère aux sciences les plus dures !

Après J. Hadamard ou H. Poincaré , Cédric Villani Médaille Fields 2010 se penche sur le processus (...)

13 janvier 2013 - L’analogie remise à l’honneur ?

Question de définition
On le sait, en science, la valeur épistémologique de l’analogie est faible. (...)

7 novembre 2012 - Sur la sublimation

Jean-baptiste Beaufils m’autorise à publier
Lettre ouverte à Jean-François DOUCET,
SUR LA (...)

21 juin 2012 - Supprimer le problème, c’est le ... boire !

Depuis longtemps, le sur-emballage des produits agro-alimentaires a été montré du doigt sans que, (...)

17 mai 2012 - Une découverte ancienne au secours des antibiotiques

De vieilles outres au secours du vin plus très nouveau !
Les nouveautés sont quelques fois des (...)