Machine Learning & Big Data sont t’ils des dangers pour les logiciels libres 🙄 ?

Auteur Licence Source Modification
Vincent JOUSSE CC BY Vince’s Auteur
sirchamallow CC BY sir.chamallow.com reformatage, ajout gifs

Le 30 avril 1993, le CERN a mis le logiciel du World Wide Web dans le domaine public. Puis il a Ă©mis la version suivante de l’application sous licence libre afin d’accĂ©lĂ©rer sa diffusion. 24 ans plus tard le WWW Ă  bien changer, mais il reste encore tout jeune 🙂 . En l’honneur de cette date anniversaire, je republie un très bon article trouvĂ© sur le blog de Vincent Jousse.

Les Internets c’est…


 

Ou vous sortez de votre grotte ou vous avez forcĂ©ment entendu parler de ces deux mots fourre-tout « big data ». En gros, les informaticiens (mais aussi et surtout les personnes du marketing) ont tendance Ă  l’utiliser dès qu’il faut traiter un peu plus de deux lignes de donnĂ©es avec un programme informatique : autant dire tout le temps. C’est Ă  la mode, ça fait bien en sociĂ©tĂ© et ça permet d’obtenir des financements French Tech.

Ă€ cĂ´tĂ© de ça, de rĂ©elles technologies dont vous ne pouvez plus vous passer sont basĂ©es sur ces concepts de « big data » et de « machine learning » (apprentissage artificiel) : la reconnaissance de la parole, les filtres anti-spam, la recherche d’images, la traduction automatique, j’en passe et des meilleurs. Et tout ça pourrait bien avoir de très lourdes rĂ©percutions sur notre avenir.

Les logiciels libres

Vous ne le savez peut-être pas, mais les logiciels libres sont partout. Tous les sites que vous consultez au quotidien sont basés sur des logiciels libres (Twitter, Facebook, Google, …), les logiciels de vos téléphones sont construits à partir de briques libres, vous pouvez aller sur Internet grâce aux logiciels libres.

Rien de ce que l’on connait aujourd’hui n’aurait Ă©tĂ© possible sans le logiciel libre. Si Richard Stallman n’avait pas initiĂ© le mouvement au dĂ©but des annĂ©es 80, le monde serait alors très diffĂ©rent.

Mais qu’est-ce qu’un logiciel libre au juste ? C’est beaucoup de choses Ă  la fois (notamment un logiciel que l’on peut librement modifier et dupliquer), mais de mon point de vue, c’est surtout une vision du monde : croire que l’avenir se construit en partageant plutĂ´t qu’en gardant pour soi.

J’aime cette vision du monde. J’aime me dire qu’un jour chaque personne, chaque entreprise, aura plutĂ´t intĂ©rĂŞt Ă  partager qu’Ă  garder pour soi. Notre modèle capitaliste actuel va totalement Ă  l’encontre de ça, mais le logiciel libre est un exemple concret que ce n’est pas irrĂ©alisable.

 

Le big data et l’apprentissage artificel

Vous allez me dire, que vient faire le big data ici ? Jusqu’ici, la valeur ajoutĂ©e des logiciels se situait dans le code source qui Ă©tait produit par le(s) dĂ©veloppeur(s) du logiciel lui-mĂŞme. Ce code source, qui peut ĂŞtre mis sous licence libre, vous permet de vous servir du logiciel. Grâce au code de Firefox ou de Chrome (et donc grâce au logiciel du mĂŞme nom qui en dĂ©coule), vous pouvez aller sur Internet. Grâce au code de Linux, vous pouvez utiliser vos tĂ©lĂ©phones Android.

Ce type de logiciel dont toute la valeur ajoutĂ©e (ou presque) dĂ©pend uniquement des lignes de code tapĂ©es par le dĂ©veloppeur se prĂŞte très bien au monde du libre. Il suffit d’un dĂ©veloppeur talentueux pour initier un projet et il est ensuite assez aisĂ© de contribuer Ă  plusieurs Ă  distance sur ce mĂŞme logiciel.

 

C’est aussi simple que ça.

Mais ces dernières annĂ©es, une nouvelle vague de logiciels a vu le jour. Une partie de la valeur ajoutĂ©e du logiciel se situe toujours dans le code source, mais la plus grosse partie se situe maintenant dans les donnĂ©es que traite ce logiciel pour vous fournir ses fonctionnalitĂ©s. Et c’est lĂ  que le bât blesse.

Le monde des données

Une grosse partie des logiciels fonctionnant sur la base de machine learning ont besoin de beaucoup donnĂ©es. Si l’on veut vulgariser un peu, il faut qu’un humain annote des donnĂ©es manuellement pour dire Ă  la machine ce qu’elle devrait trouver Ă  partir de ces donnĂ©es. Pour la transcription de la parole par exemple, il faut fournir au système des centaines d’heures (Ă  minima) d’enregistrements transcrits par des humains pour qu’il puisse apprendre comment produire lui-mĂŞme ce type de transcription sur des donnĂ©es qu’il n’aura jamais vues.

En fonction du logiciel, ces données peuvent être de plusieurs natures :

  • Des fichiers textes alignĂ©s en langue source / langue cible pour la traduction de la parole
  • Des images annotĂ©es avec ce qu’elles contiennent pour la reconnaissance d’image
  • Des fichiers audio/vidĂ©o transcrits pour la reconnaissance de la parole
  • Vous voyez le principe ?

Lorsque ces ressources sont accessibles, elles ne le sont gĂ©nĂ©ralement pas librement. Les mondes de l’audio, de la vidĂ©o, de l’image et mĂŞme du texte sont rongĂ©s par le copyright, les fameux : « touche pas Ă  mon travail ou je me fâche tout rouge » ou encore « prems et pas toi nananèèèère ! ».

En gros, seuls ceux qui peuvent payer ont le droit d’utiliser ces donnĂ©es. Ça exclut gĂ©nĂ©ralement le monde du logiciel libre oĂą la plupart du travail est bĂ©nĂ©vole.

Mais dans le coup, on risque d’avoir un sĂ©rieux problème non ? D’un cĂ´tĂ© on a des logiciels libres qui contribuent depuis des dĂ©cennies au bien commun et de l’autre cĂ´tĂ© des donnĂ©es indispensables pour qu’ils fonctionnent, mais qui ne sont pas disponibles librement.

 

Un cas concrêt : reconnaissance de la parole en français

Prenons un cas concrĂŞt que je connais bien de part mon parcours professionnel : la reconnaissance de la parole, et plus particulièrement la reconnaissance de la parole en français. Mais le principe est certainement gĂ©nĂ©ralisable Ă  d’autres domaines similaires utilisant du « machine learning » et du « big data ».

Si actuellement vous souhaitez utiliser une solution libre de reconnaissance automatique de la parole performante en français pour transcrire vos audios/vidĂ©os, c’est impossible (performante comme ça). Pas Ă  cause d’un souci logiciel bien sĂ»r, eux ils sont disponibles depuis plus de dix ans librement (actuellement le plus utilisĂ© est Kaldi, par le passĂ© c’Ă©tait Sphinx).

Le souci est bien un souci de données. Pour apprendre un tel système, il faut des données, beaucoup de données : de 300H à plus de 1000H transcrites à la main.

Nous pourrions partir du fait qu’avec une communautĂ© open-source bien organisĂ©e, nous pourrions transcrire 300H d’audio Ă  la main. Ça reprĂ©sente environ 2000H de travail avec des personnes très compĂ©tentes en français, ce qui n’est quand mĂŞme pas nĂ©gligeable.

Quand bien mĂŞme serait-il possible de transcrire ces 300H+ d’audio, il reste un souci : la propriĂ©tĂ© des donnĂ©es. Comme les images que vous trouvez sur internet, les vidĂ©os et les audios que vous trouvez ne sont gĂ©nĂ©ralement pas libres de droit. Il est donc impossible d’apprendre un système de reconnaissance automatique de la parole avec.

Exit donc la plupart des vidĂ©os Youtube, des podcast de radio, des Ă©missions de tĂ©lĂ©. Ça fait qu’il n’en reste pas lourd.

Et donc ?

Il est donc important de comprendre que le nerf de la guerre, c’est maintenant les donnĂ©es. C’est très vrai pour les entreprises, ça l’est encore plus pour le monde du logiciel libre. Les entreprises peuvent mettre les moyens, le monde du logiciel libre beaucoup moins.

Notre monde informatique actuel a Ă©tĂ© façonnĂ© grâce aux logiciels libres. Il serait dommage de manquer le virage du monde informatique de demain en le laissant dans l’unique main d’entreprises ou d’organismes privĂ©s.

Je n’ai pas de rĂ©ponse immĂ©diate Ă  ces problĂ©matiques, mais je pense qu’il est important que la communautĂ© du logiciel libre dans son ensemble en soit consciente.

Peut-ĂŞtre pourrions-nous crĂ©er ce que Framasoft est pour le logiciel, mais pour les donnĂ©es : une association/organisation qui s’assure que le monde du libre propose une alternative aux gĂ©ants qui ont l’argent pour avoir des donnĂ©es Ă  ne plus savoir qu’en faire. Aller plus loin que ce qui se fait sur l’OpenData en France actuellement en crĂ©ant de la donnĂ©e Ă  destination des systèmes d’apprentissage automatique.

Peut-ĂŞtre que l’ANR (Agence Nationale de la Recherche) devrait forcer toutes les donnĂ©es qui sont financĂ©es par notre argent Ă  ĂŞtre disponibles sous licence libre de droit ? RĂ©gulièrement, l’ANR orchestre des campagnes d’Ă©valuation des systèmes, et il ne me semblerait pas idiot que les donnĂ©es qui en sont issues soient mises Ă  disposition du plus grand nombre (c’est le cas pour certaines mais pas pour toutes).

Peut-ĂŞtre contacter tous les laboratoires de recherche francophones des diffĂ©rents domaines et voir avec eux ce qu’ils pourraient mettre Ă  disposition librement ?

MĂŞme si la plupart d’entre nous sont nĂ©s dans un monde oĂą le logiciel libre Ă©tait quelque chose de normal, ça n’a pas toujours Ă©tĂ© le cas, et ça risque de ne plus l’ĂŞtre si l’on n’y prĂŞte pas suffisamment attention.

You May Also Like

About the Author: sirchamallow

Veille l’infini et au-delà !

Vous pouvez laisser un commentaire (:

REPUBLISHING TERMS

You may republish this article online or in print under our Creative Commons license. You may not edit or shorten the text, you must attribute the article to sirchamallow and you must include the author’s name in your republication.

If you have any questions, please email sir@chamallow.com

License

Creative Commons License AttributionCreative Commons Attribution
Machine Learning & Big Data sont t’ils des dangers pour les logiciels libres 🙄 ?