Anticipation de la demande, création de nouveaux contenus ou mise en avant d’artistes, que font les industries créatives avec le big data ?

Sommaire

La notion de big data, en français « mégadonnées » ou « données massives » s’est rapidement répandue depuis quelques années, portée par des sociétés de conseil et largement relayées par les médias, puis les pouvoirs publics, sans pour autant faire l’objet d’une définition précise. Ces données sont souvent présentées comme le « nouvel or noir de la croissance », voire le « futur moteur » de l’économie. Comment définit-on le big data, quel est son périmètre et la taille du marché ? Comment les industries créatives en tirent-elles parti ?

La valse des zettabytes ou la folie des grandeurs

Selon les estimations les plus plausibles, mais il ne s’agit que d’un ordre de grandeur, la masse de données disponibles dans le monde serait passée de 3 milliards de gigabytes en 1987 à 300 milliards en 2007 soit une multiplication par 100 en l’espace de 10 ans. L’explosion annoncée des données (jusqu’à 7 zettabytes prévues pour 2015) provient de la croissance exponentielle des données disponibles, combinée à une capacité toujours plus grande de collecter, traiter et analyser ces données. Elle aura été rendue possible par le déploiement des infrastructures de réseaux (haut débit et de plus en plus, très haut débit), ainsi que par l’équipement des ménages en terminaux divers, avant tout mobiles (smartphones, tablettes et phablettes).

Ces données proviennent de sources diverses et hétérogènes : des individus eux-mêmes, des machines ou des capteurs. Il s’agit à la fois d’informations générées passivement, sous-produits d’une activité communicationnelle, et d’informations délivrées volontairement sur Internet. La fusion des données provient donc de sources disparates, numériques ou analogues.

L’indicateur le plus simple de cette explosion est la croissance impressionnante du trafic de données mobiles, suivie annuellement par Cisco qui souligne notamment la dominance des données vidéo(près de 80 % du total prévu à l’horizon 2018) ainsi que le rôle moteur des consommateurs.

Cette combinaison des infrastructures et des terminaux adéquats ouvre la voie à un développement de l’Internet des objets qui va encore accroitre le nombre de données. IDC prévoit la connexion de 212 milliards de terminaux pour 2020. De la même façon, les communications de machine à machine (M2M) sont en augmentation constante du fait de la baisse des coûts, d’une couverture améliorée, d’une offre de technologies radio plus pertinentes et d’un nombre croissant d’applications. SAP prévoit plus de 2 milliards de terminaux connectés pour 2021 contre seulement 200 millions en 2013.

En valeur, le marché des mégadonnées estimé par Transparent Market Research à 6,3 milliards de dollars en 2012, devrait atteindre 8,9 milliards en 2014 pour s’élever à 48,3 milliards en 2018. IDC indique 16,1 milliards de dollars pour cette même année 2014.

Revenir au sommaire

Des contours incertains

Il reste à se demander à quoi renvoient ces chiffres et quels processus ils recouvrent. La confusion règne le plus souvent en matière de définition. Malgré la pléthore de rapports en la matière, il n’existe pas de définition reconnue des big data il n’existe pas de définition commune des big data reconnue sur le plan international, pas plus que de définition opérationnelle qui servirait à comprendre les développements des marchés, les contours du secteur et la nature des activités qui s’y déroulent. Confusion qui pourrait bien être voulue, car le flou renvoie souvent à des stratégies de vendeurs, comme le note perfidement Tim Harford.

On peut faire remonter la notion debig data à un rapport du Meta Group de 2001 qui identifiait trois dimensions de la croissance des données, les 3V : le volume, la vélocité et la variété. Sont venus s’ajouter trois autres V, la véracité, la valeur et la visualisation, ainsi que la complexité.

Les processus liés aux big datarenvoient à l’extraction (« data mining ») et au traitement d’un volume très important de données afin de mieux comprendre le comportement du consommateur, de gérer les chaînes de production ainsi que de nombreux autres aspects de l’activité économique.

La chaîne de la valeur des big datacomprend l’acquisition de données (structurées ou non), l’analyse, la conservation, le stockage et l’utilisation de ces données à des fins diverses : prévision, simulation, exploration, visualisation, modélisation. Les composants de base sont les logiciels (de loin le plus important selon IDC), le matériel et le stockage. De nouveaux outils sont apparus pour extraire, charger et transformer les données, et de nouvelles technologies telles Apache Hadoop et NoSql sont au cœur du traitement.

Revenir au sommaire

Inflation verbale ou réalité économique?

Depuis 2001, de nombreux rapports, émanant de sociétés de conseil pour la plupart, se sont succédé pour enjoindre aux « naïfs » d’ouvrir les yeux face au phénomène des big data. Toutefois, le rapport de McKinsey de 2011 restait prudent, se contentant de fournir des exemples d’applications pour quelques secteurs alors impliqués. Toutefois, il notait déjà que tous les secteurs industriels n’étaient pas égaux face aux big data. Le rapport indiquait que les « suspects habituels » (fabricants de produits électroniques et acteurs du traitement de l’information) étaient les plus à même de bénéficier de manière substantielle de l’accès à de vastes quantités de données, ainsi des sociétés du monde de l’internet qui récoltent des masses de données. En revanche, des secteurs tels que la construction, l’éducation et les arts et loisirs donnaient des signes de productivité négative ce qui révélait la présence de barrières systémiques jouant contre l’accroissement de la productivité.

De la même façon le cabinet IDC, notait que les bénéfices escomptés n’étaient pas toujours clairs. La société indiquait notamment qu’en 2013 environ 5 % de la masse des données avait une utilité, même s’il prévoyait un doublement pour 2020. La pénétration du M2M serait de l’ordre de 2 % des abonnements aux réseaux dont on mesure le trafic, soit environ 0.1 % du trafic de données mobile.

De plus, selon le rapport SAS 2013, la plupart des organisations n’ont pas développé, mis en place, ni exécuté une quelconque stratégie concernant les mégadonnées. Rien d’étonnant alors à ce que les sociétés de conseil insistent sur la nécessité d’acquérir une « mentalité ouverte aux données ». Toutefois, toutes les sociétés ne disposeront pas de spécialistes en la matière, ce qui pourrait constituer a fortiori une barrière à l’entrée non négligeable, exigeant investissements en formation et en temps.

Dans un livre blanc (2014), le monde de l’édition de livre souligne déjà ce point particulièrement sensible pour les petites maisons d’édition, ajoutant que, de surcroît, l’expertise extérieure est coûteuse. Le livre blanc note que les fournisseurs de services de technologies, tels que Klopotekou Publishing Technology, privilégient les grands éditeurs internationaux ou les éditeurs scientifiques et techniques qui ont déjà sauté le pas, même si on peut espérer qu’à terme la baisse des coûts, ou une concurrence accrue, élargiront leur base de clientèle. En tout état de cause, Macmillan est devenu un partenaire incontournable de sociétés telles que Next Big Book qui offre des services de traitement des big data. Ces deux sociétés ont développé un tableau de bord pour identifier et suivre les facteurs ayant le plus d’influence sur les ventes de livres.

Revenir au sommaire

La signification du phénomène pour les industries de contenu

L’élimination de ces barrières provoquera des tensions et des conflits aussi longtemps que le rapport coût/bénéfice restera incertain, comme ce fut le cas de l’informatisation des sociétés dans les années 1970. Dès lors, la question qui se pose est de savoir ce que l’on peut faire, en réalité, de ces big data, car une estimation de la taille des marchés (volume, valeur) ne suffit pas à rendre compte du phénomène.

Les big data ont fait irruption au début de ce siècle, portées par des start-ups et des sociétés de l’Internet telles eBay, Facebook, Google ou LinkedIn, qui se sont construites sur ces mégadonnées, sans avoir à les intégrer à des sources de données plus traditionnelles. On leur doit d’ailleurs une partie des technologies actuelles dans le domaine: Google a été l’inspirateur de Hadoop, Facebook a développé Cassandra. Ces sociétés ont porté le passage de l’ « analytique 1.0 », selon T. H. Davenport et J.Dyché, à l’ « analytique 2.0 » à partir de 2005 en exploitant leurs données en ligne, pour déboucher sur « l’analytique 3.0 » à partir de 2012, qui ouvre la voie aux données « prescriptives ».

De fait, les « dragons numériques » sont intrinsèquement les mieux placés pour tirer parti de cette évolution, des nouvelles formes d’analyse des mégadonnées et du « cloud computing »; Amazon (AWS) comme Google (Big Query) et Microsoft (Azure) en sont les principaux fournisseurs de services pour tiers. Les nouveaux acteurs du numérique sont aussi les pionniers de l’extraction des données pour la compilation des recommandations de leurs utilisateurs (Amazon, Netflix, Pandora, Zynga…).

Les fournisseurs de contenus créent des unités pour superviser leurs activités d’analyse, tels Amazon et LinkedIn créant des « centres d’excellence », Netflix centralisant complètement cette activité. La société de distribution de films a produit sa série à succès House of Cards après analyse des données de sa base de clientèle, soit des millions d’interactions quotidiennes, des millions de recherches, ainsi que des tags et autres métadonnées. Amazon Publishing repère les œuvres épuisées (AmazonEncore) ou à traduire (AmazonCrossing) à partir des données clients. Google, comme Zynga, s’appuie sur un département opérationnel, la société de jeux vidéo ayant été la première à relier la conception de jeux à son modèle d’affaires(jeux gratuits et ventes d’articles virtuels). Spotify s’est illustrée par ses prévisions pour les Grammy Awards effectuées à partir de l’analyse des flux de données.

Revenir au sommaire

Big data : de nouveaux services pour les industries créatives

De nouvelles sociétés sont apparues pour offrir leurs services aux industries créatives. Les acteurs de la musique, du cinéma ou de l’édition se voient proposer toutes sortes de services à des fins commerciales.

Next Big Sound, une société lancée en 2009, analyse toutes sortes de données pour l’industrie de la musique (provenant de YouTube et Spotify, de statistiques issues des medias sociaux) afin de déterminer le meilleur canal de vente. La société indique traiter désormais les données pour plus de 85 % de l’industrie de la musique). Depuis son lancement en 2009, la société a recueilli plus de 4 années de données sur les réseaux sociaux pour des centaines de milliers d’artistes. Elle établit des corrélations entre les ventes et les chiffres de streaming. Elle entend contribuer à une redéfinition de la façon dont les musiciens sont découverts, commercialisés et évalués en liant perception, implication et recettes. Sa filiale, Next Big Book suit auteurs et livres par l’intermédiaire de plusieurs réseaux sociaux, des données de vente et provenant d’événements.

Persistent Systems a aidé Chennai Express, l’un des films les plus gros vendeurs d’entrée du box-office indien, pour sa campagne de marketing, en analysant plus d’un milliard de réactions et un nombre total de plus de 750 000 tweets pendant les 90 jours de cette campagne.

United Talent Agency et Rentrak, société spécialisée dans les mesures d’audience cinéma et TV, ont créé un service PreAct à l’intention de l’industrie du cinéma qui dissèque, à base d’algorithmes, les données de réseaux sociaux. La société a comme client Sony Entertainment et 20th Century Fox.

L’analyse des données permet aussi dans le cas du cinéma, comme de la musique de partir du piratage pour, à l’inverse, stimuler les ventes. Ainsi, le groupe de rock « Iron Maiden » qui avait repéré une forte croissance de fans et pirates en Amérique latine, y a organisé une tournée spécifique avec grand succès. La presse, elle, semble encore se chercher.

Revenir au sommaire

Mégadonnées ou méga-problèmes?

Les rapports et articles font souvent preuve de beaucoup d’optimisme en annonçant que le recours aux mégadonnées (big data) permettra, par exemple, aux cinéastes et à l’industrie cinématographique de prévoir les tendances. Ce déterminisme informationnel relève d’une conception mécaniste, quoique courante, du rôle de la technologie, qui comporte le risque de ne servir (souvent de façon inadéquate) que la majorité laissant de côté les minorités. De plus, les statisticiens le savent bien, corrélation ne signifie pas causalité. L’échec de la prévision de la grippe par Google (surestimation de l’ordre de 50 %) est là pour nous le rappeler.

Les applications les plus fréquemment mises en avant relèvent du marketing (exemple de Criteo) ou d’une forme ou d’une autre de commerce électronique, dont on perçoit aisément l’apport potentiel. Ainsi, dans l’exemple cité d’Iron Maiden il s’agit d’une rationalisation de détection de la demande. Toutefois, d’un point de vue plus qualitatif, dans l’univers des contenus, l’analyse des données peut s’avérer être un cercle vicieux du point de vue de la création et de l’innovation. La prévision de la demande peut relever du fantasme Chercher ce qui est le plus populaire en musique comme au cinéma n’est pas forcément la meilleure façon de trouver des œuvres nouvelles et majeures. La prévision de la demande peut relever du fantasme et, en tout état de cause, les exemples cités, dont celui de Netflix, ne sont que des cas isolés jusqu’à présent. Il reste ainsi à voir si la firme de distribution peut confirmer ses succès dans la production, ou alors tomber dans les aléas habituels d’une profession marquée par l’incertitude. De fait, la dernière série en date, « Marco Polo”, ne semble pas susciter le même enthousiasme que Game of Thrones

Enfin, des problèmes plus généraux se posent en matière de protection de la vie privée : et de sécurité. Une enquête de 2012 de l’institut de recherche Pew Internet donnait un verdict pour le moins partagé entre ceux qui décelaient le fort potentiel des big data et ceux qui étaient de plus en plus préoccupés des abus possibles.

En ce qui concerne la protection des données, les normes de protection actuelles (anonymisation, consentement individuel et clause de retrait) s’avèrent de moins en moins appropriées et devront être modifiées notamment pour passer du contrôle des données elles-mêmes à leur utilisation, l’anonymisation des données devenant de plus en plus délicate. De plus, l’équilibre entre la collecte d’information à des fins sécuritaires et les droits fondamentaux se modifie.

La gestion de ces problèmes sociétaux majeurs prendra du temps, générera des tensions entre promotion de l’innovation et protection des droits. La technologie est autant une partie du problème que de la solution. Pour autant, les problèmes technologiques ne doivent pas être sous-estimés ni considérés comme réglés ou en voie de l’être. La poursuite de la croissance indéniable de cette valse des zettabytes passe par le déploiement de réseaux à même de traiter ces données (4G, 5G), de contribuer au développement de nouvelles applications, à la mise en place de nouvelles plateformes, au développement de nouveaux terminaux mobiles à des prix accessibles et d’une connectivité appropriée.

Passer au crible une masse d’information est une opération complexe, le stockage de terabytes n’est pas simple non plus. Si les barrières à l’entrée peuvent se réduire avec la chute des coûts, notamment avec le « cloud computing », l’expertise reste coûteuse et peu ou pas présente dans les industries créatives.

Cette inégalité entre acteurs traditionnels des médias et dragons numériques est source de conflits, comme on l’a vu dans le désaccord qui a opposé Amazon et Hachette. Ce conflit renvoie à un problème de concurrence, de concentration du marché entre les mains des oligopoles du big data, de ces « barons des données », même si pour l’instant, cette tendance a été contrecarrée par la vivacité de l’écosystème des start-ups dans le domaine.

En résumé, les mégadonnées sont peut-être là, mais la méga-vision manque encore à l’appel.

avec inaglobal