« avec la GenAI, d’abord rechercher l’effet d’échelle »

Interviews

« Le compte-rendu de réunion est une application assez simple de la GenAI, sauf qu’Eiffage, avec ses quelque 80 000 collaborateurs et ses 100 000 chantiers par an, est une usine à faire des réunions ! » (Photo : Eiffage / Mikaël Lafontan)


Le groupe de travaux publics mise sur GCP et Dataiku pour mettre en oeuvre sa stratégie data et IA. Et déployer de premières applications d’IA générative exploitables par un maximum de ses quelque 78 000 collaborateurs.

PublicitéJusqu’alors très axée sur les technologies Microsoft, Eiffage (21,8 Md€ de chiffre d’affaires en 2023) se tourne vers Google Cloud et l’éditeur français Dataiku pour déployer sa stratégie data et IA. D’abord centrée sur les données issues de ses ERP finance et RH, la démarche vise à intégrer peu à peu les données métiers et à conférer aux branches une autonomie grandissante sur ces sujets.

DSI du groupe de BTP et de concessions depuis mai 2023 – après avoir dirigé le centre de services partagés d’Eiffage pendant 7 ans -, Jean-Philippe Faure détaille les raisons qui ont présidé à ces choix technologiques et les principes fondateurs de la stratégie data de la société.

Dans quel contexte s’inscrit le contrat qu’Eiffage vient de signer avec Google sur la data et l’IA ? Quelle place tient-il dans l’évolution de vos SI ?

Jean-Philippe Faure : Nous avons commencé notre démarche cloud en effectuant des prototypes, sur Azure, sur AWS, sur GCP ou encore sur Snowflake, en prenant le temps de mener des tests approfondis, soit presque 18 mois. Car, au-delà des discours sur la data et l’IA, être en mesure de présenter une analyse de rentabilité à une direction générale, associée à des engagements, reste un exercice délicat.

Il a fallu faire monter en compétences les équipes techniques sur ces plateformes et, à la fin, choisir une option. Nous nous sommes engagés sur le binôme GCP et Dataiku, pour des raisons clairement identifiées : un environnement ouvert, la richesse de la solution, le haut niveau de sécurité et l’attractivité de la solution pour les compétences. Sans oublier la volonté de conserver une solution simple. Ce qui nous a amené à écarter Snowflake par exemple, malgré les apports potentiels de cette technologie, afin de conserver un environnement data et IA très compact. Nous avons signé le contrat avec Google en janvier dernier, et nous sommes opérationnels sur cette plateforme depuis quelques semaines, les technologies Google et Dataiku ayant été interfacées avec le monde Eiffage.

Quelle place tient ce contrat dans votre paysage cloud global ?

Nous étions présents sur le cloud Azure avant la signature de ce contrat. Et je pense que nous resterons multicloud à l’avenir. Ne serait-ce qu’en raison des évolutions permanentes du paysage technologique. Mais le vaisseau amiral aujourd’hui, c’est bel et bien GCP (Google Cloud Platform, NDLR).

Concernant le datalake, qui est au coeur du contrat passé avec Google, comment avez-vous prévu de l’alimenter ?

Nous allons commencer par nos ERP historiques. Nous avons la chance de faire tourner un progiciel unique sur la finance et un autre sur les RH, renfermant respectivement 8 et 2 To de données. Une donnée propre, structurée, que nous maîtrisons parfaitement. Ensuite, le défi consistera à traiter les 64 To de données métiers supplémentaires que nous avons prévu d’ingérer au fil de l’eau, au gré des applications que la gouvernance groupe sur la data et l’IA va prioriser. Mon espoir, c’est que ces 64 To de données soient intégrés à notre plateforme d’ici à 3 ans.

PublicitéQuelle est votre stratégie en matière d’IA générative et quelle place y tient-elle dans le partenariat avec Google ?

Toutes les entreprises ont subi la vague ChatGPT et se sont interrogées sur la conduite à adopter face à ce phénomène. En interne, via notre outil Netskope, nous estimons qu’une personne sur deux est déjà allée sur ChatGPT pour découvrir l’outil et qu’une sur six en est un utilisateur régulier. Notre défi était de répondre à cette attente, tout en plaçant la sécurité de nos données en critère numéro un. Contrairement à la data, les usages sont en avance par rapport à que proposait la DSI.


« Nous voulions rééquilibrer nos relations avec les grands fournisseurs. Car, quand vous négociez avec ces très grandes capitalisations au niveau mondial, le rapport de force est rarement en votre faveur. » (Photo : Cyrille Dupont / The Pulses)

Pourquoi avoir opté pour Google Gemini, plutôt que ce qui ressemble à un consensus de place autour des offres OpenAI sur Azure ?

ChatGPT avait une longueur d’avance sur Gemini. Mais, au moment de la signature de notre contrat avec Google, nous savions que leur modèle arrivait sur le marché. Il était dès lors plus logique de se tourner vers cette solution pour exploiter toute la puissance de nos données, elles-mêmes hébergées sur GCP.

Par ailleurs, Microsoft est déjà extrêmement présent chez Eiffage. Trop présent, j’ai envie de dire. Nous voulions rééquilibrer nos relations avec les grands fournisseurs. Car, quand vous négociez avec ces très grandes capitalisations au niveau mondial, le rapport de force est rarement en votre faveur. Avec Google, nous souhaitons nous engager dans une démarche partenariale, sur le long terme.

Quelle démarche de spécialisation de Gemini envisagez-vous ? Plutôt du RAG, plutôt du fine-tuning ?

Je pense que nous aurons recours à ces deux approches, en fonction des cas d’usage. Et il faut garder à l’esprit que c’est une technologie en évolution rapide, ce qui nous pousse à réinterroger régulièrement nos choix. Ce que sera Gemini dans 6 mois ou dans un an est probablement très différent de ce qu’il est actuellement.

Avez-vous identifié de premiers cas d’usage de l’IA générative en interne ?

Dès que nous avons posé les bases de notre plateforme cloud et data, les équipes techniques d’Eiffage ont commencé à lancer des initiatives avec cette technologie. Dont une application de compte-rendu de réunion. Il s’agit certes d’un cas d’usage d’apparence simple, sauf qu’Eiffage, avec ses quelque 80 000 collaborateurs et ses 100 000 chantiers par an, est une usine à faire des réunions ! Or, précisément, notre objectif actuel avec l’IA générative est de développer des applications simples, mais apportant de la valeur au plus grand nombre.

Vos métiers produisent énormément de données non structurées. Voyez-vous l’IA générative comme un levier pour mieux exploiter cette information ?

Bien-sûr. Nous sommes en tests sur ces sujets avec des départements du groupe, car de nombreux opérationnels sont très volontaires dans l’utilisation de cette technologie. Nous voudrions, par exemple, associer des photos aux comptes-rendus de chantiers. Nous pensons que c’est un objectif atteignable, même si ces synthèses automatiques ne livreront pas un produit fini, mais 80% du travail. C’est bien l’humain qui devra finaliser le document.

Nous travaillons aussi sur toutes les étapes du cycle de vie de l’affaire, de l’appel d’offres au retour d’expérience. Sur chacune d’entre elles, nous avons identifié différents cas d’usage de la GenAI, des cas d’usage communs à tous nos métiers car c’est ainsi que l’effet d’échelle sera le plus important.

Pour le développement de ces modèles, que l’on parle de GenAI ou de Machine Learning, nous nous appuyons notamment sur la boîte à outils de Google, Vertex AI. Celle-ci nous a permis, par exemple, d’automatiser une partie de notre reporting extra-financier CSRD. Pour ce dernier, nous devons en effet extraire toutes nos consommations de carburant, d’eau, de gaz et d’électricité depuis les factures présentes dans notre ERP. Via Vertex AI et DocumentAI (un outil de traitement de documents de Google, NDLR), nous extrayons déjà toutes les données de ce type présentant un taux de fiabilité de plus de 99%, les autres restant traitées à la main. Et cela représente déjà la moitié des documents. Une proportion appelée à grandir avec le temps.

Comment contrôlez-vous les coûts engendrés par les projets data et IA ?

L’infrastructure et l’équipe projet sont prises en charge par le budget de la DSI, sans refacturation. La consommation de la donnée sur chaque projet est, à l’inverse, payée par les métiers. A chaque fois qu’un métier veut créer un nouveau projet, il va définir le montant qu’il souhaite y consacrer, en autonomie. Mais une fois ce budget atteint, le service s’arrête, afin de responsabiliser les branches sur la consommation de la data. Ce qui est plus difficile, c’est d’arrêter notre modèle de partage des coûts en matière d’IA générative. Sur ce terrain, nous sommes encore en réflexion.

Quels choix d’organisation avez-vous effectué pour embarquer les métiers dans votre stratégie data et IA ?

Au sein de notre université interne, nous avons mis en place un cycle de formation sur la data et l’IA. Notre ambition ? Former, en France, environ 400 personnes issues des métiers à ces sujets sur les prochaines années. Une fois ce parcours effectué, les collaborateurs auront accès aux outils Google et Dataiku. Les métiers sont appelés à devenir majoritaires dans l’utilisation de la donnée et de l’IA, car, dans nos activités d’ingénierie, les profils technophiles sont plus nombreux à l’extérieur de la DSI qu’à l’intérieur de celle-ci. Mais, pour que ces collaborateurs soient en mesure d’exploiter les 64 To de données métiers avec contrôle, éthique et maîtrise, ce cycle de formation reste indispensable. Car, si l’usage de l’IA générative est simple, la compréhension des modèles de données reste complexe.

Quel rôle sont appelés à jouer les métiers dans la qualité de la donnée, en amont de l’ingestion des données dans le datalake ?

Nous avons travaillé sur le rôle de data owner, qui reviendra au métier. Le métier reste propriétaire et responsable de la qualité de sa donnée. La DSI met, de son côté, en place les mécanismes et la technologie nécessaires à sa gestion et à son exploitation. En fonction des nombreux applicatifs existant sur nos activités opérationnelles, nous savons que nous allons trouver une qualité hétérogène et qu’un gros travail de nettoyage de la donnée nous attend. J’estime que d’ici trois ans, l’essentiel de ce travail devrait être effectué.

Votre environnement de données jouera-t-il un rôle dans les grands chantiers qu’Eiffage a récemment remportés, en particulier le génie civil des deux premiers EPR2 ?

Le client, EDF, donnera le la quant à l’environnement de données qui devra être mis en place. Ce sont des dossiers longs et complexes, ce projet d’une dizaine d’années étant appelé à générer des To de données.

Quelle est, à vos yeux, la prochaine étape clef de votre stratégie data et IA ?

Le prochain jalon consistera à transformer l’essai sur l’IA générative privée, en touchant le plus grand nombre de collaborateurs. Nous mènerons des tests grandeur nature de notre application de compte-rendu de réunions en septembre pour la déployer ensuite au fur et à mesure. Et nous travaillons sur d’autres cas d’usage, sur les RH par exemple. Mais nous nous donnerons le temps nécessaire. Se précipiter c’est prendre le risque de voir des outils peu matures multiplier les hallucinations et réduire la confiance des utilisateurs dans cette technologie.

Partager cet article

Crédit: Lien source

Les commentaires sont fermés.