Nous avons déjà parlé des données qui évoluent constamment et leur conséquence sur le mapping de données automatisé. Ce changement constant dans les données, engendre une maintenance constante des logiciels d’automatisation comme l’ETL, EAI, ESB … et forcément un coût.

Mais en réalité la vrai raison de la problématique d’intégration des données est de ne pas pouvoir éviter l’intervention humaine dans la transformation des fichiers.

 

Exemple de mapping de donnée complexe

Prenons un exemple dans le domaine du tourisme. Bien sûr la problématique existe aussi dans d’autres domaines comme le Biomédical, pharmaceutique, électronique, etc.

Imaginons une entreprise qui souhaite proposer un service de recommandation d’hébergement saisonnier. Elle met en place un comparateur entre l’hôtel, le camping et airbnb. Ce service nécessite une récupération de la liste de tous les hôtels, campings et appartement airbnb par région. Nous avons pu récupérer un ensemble de jeu de données publiées sur le site Opendata.

Voici un extrait d’une description de deux hébergements, par la région de Soan et Loire, dans la même colonne d’un excel :

  • Hébergement 1 : “Hôtel rénové, climatisé, insonorisé. Chambres spacieuses pouvant toutes accueillir de 1 à 4 personnes. Groupes, séminaires. Terrasse et piscine.”
  • Hébergement 2 : “Le Croux accueille classes de découverte, séjours de vacances, mais aussi groupes d amis, comités d entreprises, en gite, demi-pension ou pension”
    (source : https://www.data.gouv.fr/fr/)

Si nous souhaitons mapper ces deux lignes vers un modèle de fichier excel générique ou un catalogue de site web. Comment le faire avec un logiciel de type EAI, ESB, ETL …?

La mapping manuel des données non structurées est inévitable

Imaginons que nous avons besoin d’identifier s’il s’agit d’un hôtel, camping ou gîte. Regardons l’hébergement 1, avec le mot “hôtel” nous déduisons immédiatement que c’est un hôtel car nous connaissons ce mot. Par contre si nous regardons l’hébergement 2, nous retrouvons le mot “gite” mais est ce une maison par airbnb ou un gîte loué par une entreprise indépendante. Pour cela, nous avons besoin de regarder d’autres colonnes dans le fichier pour le déduire. Il s’agit d’un exemple simple qui met en avant la difficulté de mapping basé sur des données non structurées ou textuelles.

Avec des logiciels de mapping, il est difficile de gérer ce type de cas. Ils nécessitent une analyse du langage, du vocabulaire et de la sémantique. Puis nécessite un croisemet de plusieurs informations pour déduire l’information recherchée. 

A date la seule solution des entreprises est de recevoir des fichiers au format csv. Utiliser Excel et ses fonctions de manipulation de texte pour créer le fichier csv cible adapaté à leur modèle de donner pour pouvoir l’intégrer dans l’application cible. Certaines essayent d’automatiser en utilisant des macros, mais lorsque le fichier source évolue, les macros sont à refaire!

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *