Les technologies de la data évoluent vite, tout comme les métiers qui y sont liés. De nouvelles plateformes de données « all-in-one » émergent aujourd'hui pour mieux répondre aux besoins des entreprises. Les spécialistes de la data qui sauront s'adapter à cette évolution seront les grands gagnants de demain.
Le Big Data comme on le pratiquait depuis une dizaine d'années à l'aide de plateformes Hadoop a montré ses limites en ne parvenant pas à faire correspondre la technologie et le besoin d'exploitation de la donnée par les différents départements de l'entreprise. Nombre de projets Big Data n'ont ainsi jamais pu aboutir tandis que d'autres n'ont pas pu atteindre la moindre rentabilité, faute de solutions suffisamment adaptées.
Et pourtant, la donnée n'a, à juste titre, jamais été autant valorisée. Un phénomène qui se traduit par une demande très forte pour des solutions simples à utiliser et qui produisent rapidement des résultats. Les outils de la data n'ont donc d'autres choix que d'évoluer et convergent aujourd'hui vers un renouveau incarné par les nouvelles plateformes de données, que l'on identifie aussi sous le nom de Modern Data Platform, Modern Data Store ou encore Datalakehouse. Un changement de paradigme que les pros de la data doivent désormais assimiler pour leur propre employabilité.
Une convergence de tous les outils de la data
Apparues il y a environ trois ou quatre ans, les nouvelles plateformes de données ont depuis gagné en maturité. Elles s'apparentent à une combinaison des méthodes de stockage de données Datawarehouse (données structurées) et Datalake (données non structurées) à laquelle a été ajouté l'ensemble des briques nécessaires à une gestion complète du cycle de vie des données, sans que l'on ait à se préoccuper de savoir où ces dernières sont stockées. Des outils all-in-one plus simples à appréhender par les utilisateurs, en somme.
Cette gestion facilitée du cycle de vie de la donnée débute logiquement par l'ingestion des données, qu'elle se déroule en mode batch comme on le faisait avec des outils de type ETL, en mode planifié ou bien avec de nouveaux outils de type pseudo temps réel qui captent la donnée au moment de son apparition. Ces plateformes savent ensuite adresser la gestion de la qualité des données, en vérifiant leur adéquation au futur traitement à appliquer.
Le stockage de la data s'effectue lui aussi simplement puisque la plateforme gère toutes les formes de données, quelle que soit leur nature, déterminée par des critères (très volumineuses, structurées, audio, vidéos, nécessitant un traitement d'extrême vélocité…) qui les orienteront vers les formes de stockage appropriées. Le cycle se termine par l'exposition et la présentation des données à l'aide d'outils de Dataviz ou de reporting, là aussi intégrés, afin d'obtenir rapidement des tableaux de bord ou des rapports utiles à différents usages. N'oublions pas enfin de mentionner que ces plateformes permettent d'assurer logiquement une totale gouvernance des données.
Une solution idéale pour les années à venir ?
S'il convient de rester prudent en matière de prédiction sur les types de technologies qui s'imposeront naturellement dans les usages, les nouvelles plateformes de données paraissent bien positionnées. L'utilisation toujours plus importante de la Data Science, de l'IA et de tout ce qui permet de valoriser la donnée, amène à penser que toutes les entreprises seront tôt ou tard concernées par ces plateformes qui apportent une réponse globale aux enjeux business, que l'on parle de construction d'offres ou de pilotage stratégique.
Les avantages d'une solution all-in-one sont évidents, en termes de simplicité d'utilisation, de mises à jour uniques, de coût global moins élevé, mais aussi d'aspect intégré de la chaine de traitement qui permet d'éviter de se procurer des produits très disparates auprès de multiples fournisseurs afin de créer une suite logicielle, exercice complexe et coûteux. Un choix toutefois très structurant et impactant, il faudra donc veiller à ne pas se rendre prisonnier d'un seul fournisseur trop longtemps en fixant une durée de vie à cette relation.
Les acteurs technologiques sont d'ailleurs déjà nombreux sur ce marché, à commencer par les principaux fournisseurs de cloud mondiaux (Microsoft Azure, Amazon WS, Google CP) qui offrent la possibilité de construire une plateforme à partir de différents composants. Mais il existe aussi d'autres acteurs plus spécialisés couvrant le périmètre complet comme Snowflake ou dans une moindre mesure Databriks, tandis que la société historique des technologies Hadoop, Cloudera, commence elle aussi à prendre le virage de ces nouveaux outils.
Quels métiers de la data sont concernés par ces plateformes ?
Puisque les nouvelles plateformes de données permettent de répondre à l'ensemble des besoins liés à la donnée, tous les métiers de la data y sont logiquement représentés. Ce qui change la donne dans ce contexte, c'est que les spécialistes de chaque métier vont devoir évoluer en acquérant des compétences des domaines connexes, afin de maîtriser le plus grand périmètre possible de ces plateformes intégrées et devenir ainsi multi-spécialistes.
Un Data Engineer qui pratiquait essentiellement l'ingestion de données en mode batch va pouvoir s'orienter vers du pseudo temps réel avec d'autres technologies. Un Data Architect spécialiste d'un mode de stockage va pouvoir élaborer son architecture sur plusieurs autres types de stockage. Un Data Scientist qui élabore des modèles à partir de données structurées va devoir étendre son savoir-faire sur d'autres types de données, etc. Ajoutons à cela les aspects de DataOps et de FinOps qui s'invitent aussi à la fête, tandis que tous devront maitriser les bases de connaissances des technologies cloud de plus en plus omniprésentes ou encore de l'incontournable RGPD.
On l'aura compris, la convergence se déroule également sur les métiers de la data et si pour certains, un léger ajustement technique sera suffisant pour devenir un Data Engineer Full Stack très recherché, d'autres métiers comme le Data Steward, en charge de la qualité de la donnée, auront davantage de formations à suivre. Des spécialisations perdureront néanmoins, notamment dans les grandes structures, comme la conception de modèles d'IA/Machine Learning.
Viser une employabilité maximale
Elargir ses compétences en débordant de sa zone de confort est donc devenu une démarche inévitable pour les experts de la data qui cherchent à maximiser leur employabilité, leurs revenus et l'intérêt des missions proposées. Les nouvelles plateformes de données leur offrent une formidable opportunité de valoriser leur talent, mais aussi de constater rapidement les résultats de leurs efforts avec des cas d'usage concrets en entreprise qui donneront plus de sens à leur travail.
La meilleure approche pour débuter sur ces nouvelles plateformes de données est d'intégrer directement un projet chapeauté par un senior expérimenté sur ce domaine et de compléter l'apprentissage par de courtes formations.
Quant aux étudiants de la data, le cursus le plus complet demeure celui de Data Scientists et on ne pourra que leur conseiller de multiplier les expériences en parallèle pour se former à ces nouvelles plateformes : suivre des mooks et des cours en ligne, passer des certifications et participer à des meet-ups sans attendre la fin de leur cycle d'étude pour se lancer. Car ce sont bien les plus motivés et impliqués qui profiteront de la meilleure employabilité.