Unstructured data governance avec Axa France et PwC
« Unstructured Data Governance » : de la nécessité de structurer et de gouverner efficacement les données non structurées pour en tirer de la valeur, tout en assurant la qualité et la conformité des données.
Comment gouverner les données non structurées à l’ère de la GenAI ? Lors de l’Agora des Chief Data Officers, AXA France a partagé un retour d’expérience concret sur la mise en place d’une gouvernance adaptée, tandis que PwC, en tant que partenaire de transformation, a apporté son éclairage sur les leviers à activer pour passer à l’échelle.
Un duo expertise–terrain au cœur des enjeux data de demain avec Jérôme Guignet, Head of Data Management Office chez AXA France, et Marcel Lee, Associé Data & IA chez PwC.
Interview
Julien Merali : Quelques mots sur AXA France et l’organisation du Data Office ?
Jérôme Guignet : AXA France est la grande filiale française du groupe AXA, représentant environ un tiers de son chiffre d’affaires. Nous sommes un leader du marché français de l’assurance, en vie et santé collective. Je dirige le Data Management Office, rattaché à Chafika Chettaoui, la CDO d’AXA France, elle-même sous la direction de Christophe Vermont, Directeur Tech et Transformation.
Nous sommes engagés dans un plan triennal (2024-2026) baptisé Unlock the Future, où la data joue un rôle central. Dans ce cadre, Chafika a lancé le programme NADIA (Nouvelle Ambition Data et IA), aligné sur nos ambitions stratégiques business : excellence technique, relation client, conquête de parts de marché, excellence opérationnelle et RSE.
À chacun de ces axes stratégiques correspond un programme transverse data, soutenu par cinq enablers : une Data Factory, une IA Factory, un Customer MDM, un Data Culture et enfin, mon périmètre, le Data Management Office, au sein d’une organisation très structurée.
Nous appliquons un modèle de décentralisation gouvernée : nous animons treize domaines métiers – assurance IARD (auto, habitation, MRP), vie, santé collective, client, distribution, marketing, ainsi que les fonctions support (finance, risques, RH, IT).
Julien Merali : Marcel, quelle est la position de PwC sur la data ?
Marcel Lee : PwC intervient à la fois en audit et en conseil. Je vais parler ici du conseil. Nous accompagnons les entreprises dans leur transformation data, analytics et IA, toujours dans une logique de transformation métier. Cela peut concerner le cœur de métier ou des fonctions clés comme finance, risques, conformité.
Comme chez AXA France, nous mettons en place tous les enablers data, car aujourd’hui, aucune transformation ne peut se faire sans data, analytics et IA. Notre accompagnement couvre la stratégie, l’opérationnel, et le delivery, aussi bien business que tech.
Julien Merali : Quelles typologies de données gérez-vous au sein de la Data Office ?
Jérôme Guignet : La donnée est notre matière première. On gère un capital important de données, notamment autour du contrat client et des sinistres. Ces données sont souvent structurées, décrites dans des référentiels métier.
Mais nous traitons aussi beaucoup de données non structurées. Je préfère ce terme à « déstructurées », qui suggérerait une perte de structure. Or, notre démarche consiste plutôt à structurer l’informel, à y ajouter des métadonnées.
Exemples :
- Images satellites pour détecter les risques d’inondation
- Contrats PDF historiques ou issus de concurrents
- Photos de sinistres fournies via les apps clients
On distingue donc deux mondes : les données non structurées historiques, déjà connues, et les données non structurées à fort potentiel, encore peu exploitées.
Julien Merali : Quelle est votre définition de la donnée non structurée ?
Jérôme Guignet : Chez AXA, on a beaucoup débattu du sujet. Plutôt que de se baser sur un format ou une extension, on s’est entendus sur l’intention initiale de création.
Une donnée est non structurée si elle a été conçue pour être lue par un humain, et non par une machine. C’est une définition évolutive : en cinq ans, j’ai vu le curseur bouger. Grâce aux nouvelles technologies, la frontière entre données structurées et non structurées devient plus floue.
Julien Merali : Pourquoi gouverner cette donnée non structurée ?
Jérôme Guignet : Historiquement, la gouvernance portait un objectif défensif : archivage, preuve, conformité. Avec l’arrivée de la GenIA, le paradigme change. On veut désormais créer de la valeur à partir de ces données, ce qui exige une gouvernance rigoureuse pour pouvoir les exploiter.
Julien Merali : Marcel, pourquoi une gouvernance est-elle clé ?
Marcel Lee : Sans gouvernance, chacun fait à sa manière, souvent de façon inefficace. On multiplie les efforts inutiles, les duplications, et on prend des risques.
Gouverner, c’est sécuriser, passer à l’échelle, optimiser, et réduire les risques – des enjeux majeurs pour l’ensemble de l’organisation.
Julien Merali : Quels leviers activez-vous pour exploiter ces données ?
Jérôme Guignet : On est au début, mais on commence à activer des enablers. Pour les données structurées, on s’est concentrés sur la qualité. Même principe ici. L’usage détermine les attentes qualité.
Mais pour les données non structurées, les approches sont multiples : search, RAG, computer vision, etc. Chacune nécessite des dimensions qualité spécifiques. En élargissant nos standards, on ouvre la voie à plus de valeur.
Julien Merali : Marcel, même question.
Marcel Lee : Le point critique, c’est la qualité. Selon Gartner, en 2025, le frein principal à la GenIA sera la qualité des données, notamment non structurées.
Il faut aussi travailler les métadonnées et la structure interne des documents pour assurer une exploitation cohérente.
Julien Merali : Quel est le niveau de maturité des entreprises ?
Marcel Lee : La GenIA a surpris tout le monde par sa rapidité. Les entreprises régulées (comme les banques, la pharma) sont souvent les premières à réagir, car elles ne peuvent plus faire du cas par cas.
Elles doivent garantir traçabilité, explicabilité et conformité. AXA est pionnière, mais on observe une dynamique croissante ailleurs, notamment en Amérique du Nord, au Royaume-Uni et dans les secteurs régulés.
Julien Merali : Ce projet va-t-il accélérer vos cas d’usage IA ?
Jérôme Guignet : Oui, l’objectif est d’anticiper la GenIA readiness de nos documents. Identifier les types de documents à fort potentiel, définir leur niveau de qualité, et les rendre accessibles aux outils de GenIA.
Julien Merali : Centralisation ou responsabilisation ?
Jérôme Guignet : Alors, je vous ai brièvement présenté notre modèle décentralisé : nous avons treize data leaders, chacun jouant en quelque sorte le rôle de CDO dans son domaine. Ils sont responsables de la qualité des données de leur périmètre. Pour l’instant, cette responsabilité porte uniquement sur les données structurées. Les travaux que nous menons actuellement en matière de gouvernance visent à élargir cette responsabilité à la qualité et à la gouvernance des données non structurées.
L’idée est donc de confier également au data leader la qualité des données non structurées, en s’appuyant probablement sur des rôles analogues à ceux de data owner ou data steward, comme c’est déjà le cas pour les données structurées. Ces rôles seraient alors rattachés à des objets tels que des typologies de documents. C’est peut-être un peu technique, mais concrètement, nous cherchons à revenir à des concepts que nous maîtrisons.
Cela dit, les personnes en charge ne seront pas forcément les mêmes, car les approches techniques diffèrent : par exemple, il faudra peut-être faire appel à un data scientist pour analyser la lisibilité d’une image, alors que vérifier la complétude d’une donnée structurée est bien plus simple avec du SQL.
Nous allons donc devoir adapter nos dispositifs et nos modèles. Mais, ce que nous avons constaté dans les travaux menés avec PwC, c’est qu’il existe une cohérence entre les rôles de la gouvernance des données structurées et ceux de la gouvernance des données non structurées. Mieux encore, ce que nous avons mis en place autour des produits de données constitue un bon point d’appui pour structurer la gouvernance des données non structurées.
Julien Merali : Quel ROI attendez-vous ?
Jérôme Guignet : Pas encore chiffré. Mais on travaille déjà sur deux projets clés. Le premier, la refonte du CRM de nos réseaux : une opportunité de créer de la documentation IA-ready, sur laquelle un LLM viendra appuyer un chatbot d’aide à la navigation.
Le second, déjà en production, c’est Smart in AXA, un outil pour nos agents, qui interroge la base documentaire en langage naturel.
Julien Merali : Marcel, comment maximiser le ROI de la gouvernance ?
Marcel Lee : Les données non structurées représentent trois fois le volume des données structurées. C’est là que se jouera le potentiel de la GenIA.
Le défi est de concentrer les efforts là où la valeur est. Les modèles décentralisés comme chez AXA, bien gouvernés, donnent une capacité métier accrue à tirer profit de cette masse de données.
Julien Merali : Prochaines étapes ?
Jérôme Guignet : Avec Marcel, on a défini les standards. Maintenant, on passe à l’opérationnel, avec des cas concrets. On va collaborer avec les métiers et, je l’espère, rapprocher les data scientists du Data Management Office.
Ce chantier des données non structurées pourrait bien faire tomber les silos et générer une nouvelle dynamique collaborative.
Julien Merali : Pour conclure, Marcel, d’autres entreprises avancent-elles sur ce sujet ?
Marcel Lee : Oui, comme je vous l’ai dit, les banques et des entreprises pharmaceutiques sont déjà engagées. Ce sont des secteurs très régulés, avec des enjeux de conformité forts, souvent très moteurs dans ce type de transformation.
Propos recueillis par Julien Merali, General Manager du pôle IT d’Agora Managers Groupe









