Skip to content

Machine Learning & Big Data sont t’ils des dangers pour les logiciels libres 🙄 ?

Auteur Licence Source Modification
Vincent JOUSSE CC BY Vince’s Auteur
sirchamallow CC BY sir.chamallow.com reformatage, ajout gifs

Le 30 avril 1993, le CERN a mis le logiciel du World Wide Web dans le domaine public. Puis il a Ă©mis la version suivante de l’application sous licence libre afin d’accĂ©lĂ©rer sa diffusion. 24 ans plus tard le WWW Ă  bien changer, mais il reste encore tout jeune 🙂 . En l’honneur de cette date anniversaire, je republie un trĂšs bon article trouvĂ© sur le blog de Vincent Jousse.

Les Internets c’est…


 

Ou vous sortez de votre grotte ou vous avez forcĂ©ment entendu parler de ces deux mots fourre-tout « big data ». En gros, les informaticiens (mais aussi et surtout les personnes du marketing) ont tendance Ă  l’utiliser dĂšs qu’il faut traiter un peu plus de deux lignes de donnĂ©es avec un programme informatique : autant dire tout le temps. C’est Ă  la mode, ça fait bien en sociĂ©tĂ© et ça permet d’obtenir des financements French Tech.

À cĂŽtĂ© de ça, de rĂ©elles technologies dont vous ne pouvez plus vous passer sont basĂ©es sur ces concepts de « big data » et de « machine learning » (apprentissage artificiel) : la reconnaissance de la parole, les filtres anti-spam, la recherche d’images, la traduction automatique, j’en passe et des meilleurs. Et tout ça pourrait bien avoir de trĂšs lourdes rĂ©percutions sur notre avenir.

Les logiciels libres

Vous ne le savez peut-ĂȘtre pas, mais les logiciels libres sont partout. Tous les sites que vous consultez au quotidien sont basĂ©s sur des logiciels libres (Twitter, Facebook, Google, 
), les logiciels de vos tĂ©lĂ©phones sont construits Ă  partir de briques libres, vous pouvez aller sur Internet grĂące aux logiciels libres.

Rien de ce que l’on connait aujourd’hui n’aurait Ă©tĂ© possible sans le logiciel libre. Si Richard Stallman n’avait pas initiĂ© le mouvement au dĂ©but des annĂ©es 80, le monde serait alors trĂšs diffĂ©rent.

Mais qu’est-ce qu’un logiciel libre au juste ? C’est beaucoup de choses Ă  la fois (notamment un logiciel que l’on peut librement modifier et dupliquer), mais de mon point de vue, c’est surtout une vision du monde : croire que l’avenir se construit en partageant plutĂŽt qu’en gardant pour soi.

J’aime cette vision du monde. J’aime me dire qu’un jour chaque personne, chaque entreprise, aura plutĂŽt intĂ©rĂȘt Ă  partager qu’Ă  garder pour soi. Notre modĂšle capitaliste actuel va totalement Ă  l’encontre de ça, mais le logiciel libre est un exemple concret que ce n’est pas irrĂ©alisable.

 

Le big data et l’apprentissage artificel

Vous allez me dire, que vient faire le big data ici ? Jusqu’ici, la valeur ajoutĂ©e des logiciels se situait dans le code source qui Ă©tait produit par le(s) dĂ©veloppeur(s) du logiciel lui-mĂȘme. Ce code source, qui peut ĂȘtre mis sous licence libre, vous permet de vous servir du logiciel. GrĂące au code de Firefox ou de Chrome (et donc grĂące au logiciel du mĂȘme nom qui en dĂ©coule), vous pouvez aller sur Internet. GrĂące au code de Linux, vous pouvez utiliser vos tĂ©lĂ©phones Android.

Ce type de logiciel dont toute la valeur ajoutĂ©e (ou presque) dĂ©pend uniquement des lignes de code tapĂ©es par le dĂ©veloppeur se prĂȘte trĂšs bien au monde du libre. Il suffit d’un dĂ©veloppeur talentueux pour initier un projet et il est ensuite assez aisĂ© de contribuer Ă  plusieurs Ă  distance sur ce mĂȘme logiciel.

 

C’est aussi simple que ça.

Mais ces derniĂšres annĂ©es, une nouvelle vague de logiciels a vu le jour. Une partie de la valeur ajoutĂ©e du logiciel se situe toujours dans le code source, mais la plus grosse partie se situe maintenant dans les donnĂ©es que traite ce logiciel pour vous fournir ses fonctionnalitĂ©s. Et c’est lĂ  que le bĂąt blesse.

Le monde des données

Une grosse partie des logiciels fonctionnant sur la base de machine learning ont besoin de beaucoup donnĂ©es. Si l’on veut vulgariser un peu, il faut qu’un humain annote des donnĂ©es manuellement pour dire Ă  la machine ce qu’elle devrait trouver Ă  partir de ces donnĂ©es. Pour la transcription de la parole par exemple, il faut fournir au systĂšme des centaines d’heures (Ă  minima) d’enregistrements transcrits par des humains pour qu’il puisse apprendre comment produire lui-mĂȘme ce type de transcription sur des donnĂ©es qu’il n’aura jamais vues.

En fonction du logiciel, ces donnĂ©es peuvent ĂȘtre de plusieurs natures :

  • Des fichiers textes alignĂ©s en langue source / langue cible pour la traduction de la parole
  • Des images annotĂ©es avec ce qu’elles contiennent pour la reconnaissance d’image
  • Des fichiers audio/vidĂ©o transcrits pour la reconnaissance de la parole
  • Vous voyez le principe ?

Lorsque ces ressources sont accessibles, elles ne le sont gĂ©nĂ©ralement pas librement. Les mondes de l’audio, de la vidĂ©o, de l’image et mĂȘme du texte sont rongĂ©s par le copyright, les fameux : « touche pas Ă  mon travail ou je me fĂąche tout rouge » ou encore « prems et pas toi nananÚÚÚÚre ! ».

En gros, seuls ceux qui peuvent payer ont le droit d’utiliser ces donnĂ©es. Ça exclut gĂ©nĂ©ralement le monde du logiciel libre oĂč la plupart du travail est bĂ©nĂ©vole.

Mais dans le coup, on risque d’avoir un sĂ©rieux problĂšme non ? D’un cĂŽtĂ© on a des logiciels libres qui contribuent depuis des dĂ©cennies au bien commun et de l’autre cĂŽtĂ© des donnĂ©es indispensables pour qu’ils fonctionnent, mais qui ne sont pas disponibles librement.

 

Un cas concrĂȘt : reconnaissance de la parole en français

Prenons un cas concrĂȘt que je connais bien de part mon parcours professionnel : la reconnaissance de la parole, et plus particuliĂšrement la reconnaissance de la parole en français. Mais le principe est certainement gĂ©nĂ©ralisable Ă  d’autres domaines similaires utilisant du « machine learning » et du « big data ».

Si actuellement vous souhaitez utiliser une solution libre de reconnaissance automatique de la parole performante en français pour transcrire vos audios/vidĂ©os, c’est impossible (performante comme ça). Pas Ă  cause d’un souci logiciel bien sĂ»r, eux ils sont disponibles depuis plus de dix ans librement (actuellement le plus utilisĂ© est Kaldi, par le passĂ© c’Ă©tait Sphinx).

Le souci est bien un souci de données. Pour apprendre un tel systÚme, il faut des données, beaucoup de données : de 300H à plus de 1000H transcrites à la main.

Nous pourrions partir du fait qu’avec une communautĂ© open-source bien organisĂ©e, nous pourrions transcrire 300H d’audio Ă  la main. Ça reprĂ©sente environ 2000H de travail avec des personnes trĂšs compĂ©tentes en français, ce qui n’est quand mĂȘme pas nĂ©gligeable.

Quand bien mĂȘme serait-il possible de transcrire ces 300H+ d’audio, il reste un souci : la propriĂ©tĂ© des donnĂ©es. Comme les images que vous trouvez sur internet, les vidĂ©os et les audios que vous trouvez ne sont gĂ©nĂ©ralement pas libres de droit. Il est donc impossible d’apprendre un systĂšme de reconnaissance automatique de la parole avec.

Exit donc la plupart des vidĂ©os Youtube, des podcast de radio, des Ă©missions de tĂ©lĂ©. Ça fait qu’il n’en reste pas lourd.

Et donc ?

Il est donc important de comprendre que le nerf de la guerre, c’est maintenant les donnĂ©es. C’est trĂšs vrai pour les entreprises, ça l’est encore plus pour le monde du logiciel libre. Les entreprises peuvent mettre les moyens, le monde du logiciel libre beaucoup moins.

Notre monde informatique actuel a Ă©tĂ© façonnĂ© grĂące aux logiciels libres. Il serait dommage de manquer le virage du monde informatique de demain en le laissant dans l’unique main d’entreprises ou d’organismes privĂ©s.

Je n’ai pas de rĂ©ponse immĂ©diate Ă  ces problĂ©matiques, mais je pense qu’il est important que la communautĂ© du logiciel libre dans son ensemble en soit consciente.

Peut-ĂȘtre pourrions-nous crĂ©er ce que Framasoft est pour le logiciel, mais pour les donnĂ©es : une association/organisation qui s’assure que le monde du libre propose une alternative aux gĂ©ants qui ont l’argent pour avoir des donnĂ©es Ă  ne plus savoir qu’en faire. Aller plus loin que ce qui se fait sur l’OpenData en France actuellement en crĂ©ant de la donnĂ©e Ă  destination des systĂšmes d’apprentissage automatique.

Peut-ĂȘtre que l’ANR (Agence Nationale de la Recherche) devrait forcer toutes les donnĂ©es qui sont financĂ©es par notre argent Ă  ĂȘtre disponibles sous licence libre de droit ? RĂ©guliĂšrement, l’ANR orchestre des campagnes d’Ă©valuation des systĂšmes, et il ne me semblerait pas idiot que les donnĂ©es qui en sont issues soient mises Ă  disposition du plus grand nombre (c’est le cas pour certaines mais pas pour toutes).

Peut-ĂȘtre contacter tous les laboratoires de recherche francophones des diffĂ©rents domaines et voir avec eux ce qu’ils pourraient mettre Ă  disposition librement ?

MĂȘme si la plupart d’entre nous sont nĂ©s dans un monde oĂč le logiciel libre Ă©tait quelque chose de normal, ça n’a pas toujours Ă©tĂ© le cas, et ça risque de ne plus l’ĂȘtre si l’on n’y prĂȘte pas suffisamment attention.

Creative Commons License AttributionRepublish
Published inLes Internets

Be First to Comment

Laisser un commentaire

×

đŸ‡ș🇾 🇬🇧 REPUBLISHING TERMS : You may republish this content online or in print under the Creative Commons license of original content.

đŸ‡ȘđŸ‡ș đŸ‡«đŸ‡·Â  CONDITIONS DE PARTAGE : Vous pouvez republier ce contenu en ligne ou sous forme imprimĂ©e est respectant la licence Creative Commons en vigueur.

 

License

Creative Commons License AttributionCreative Commons Attribution
Machine Learning & Big Data sont t’ils des dangers pour les logiciels libres 🙄 ?