Actualités

[22/03/2017] Smile participe au salon Cloud Computing World Expo

Smile interviendra ce mercredi 22 mars au salon Cloud Computing World Expo pour présenter notre projet collaboratif OCCIware (plateforme standard outillée de connecteurs Cloud).

[22/03/2017] Smile vainqueur des IoT Awards 2017 !

Lors de l'IoT World à Paris, Smile a remporté l'IoT Award dans la catégorie "High-tech" pour son projet de cabine connectée avec Coved.

[17/03/2017] Smile dans le Journal de l'Emploi sur Demain TV

Géraldine Moreau-Luchaire, notre Responsable Recrutement, nous parle des 350 postes à pourvoir en 2017 !

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Qualité de données : couplage de Solr et Talend

Lors d'une mise en place d'une solution de qualité de données, on est régulièrement amené à devoir confronter des données sources avec des référentiels et proposer des corrections.
A ce niveau, Talend propose le composant tFuzzyMatch qui permet de faire correspondre une donnée approximative avec une colonne de référence. Ce qui est limité si l'on veut faire une recherche à travers plusieurs colonnes de référence : typiquement, un nom de pays dont on ne connaît pas la langue source auquel on voudrait appliquer des correspondances sur différentes colonnes contenant les libellés dans plusieurs langues. Il faudrait alors utiliser autant de tFuzzyMatch que de langues à parcourir.

L'idée serait d'effectuer une recherche parmi toutes les données références à notre disposition, et cela dans une seule et même requête, en recherchant les termes incomplets ou approximatifs. Pour ce faire, il est possible de coupler le moteur de recherche Solr avec Talend. En effet, Solr permet d'indexer différentes données comme un moteur de recherche, et permet donc de retrouver des correspondances en brassant beaucoup plus de choix qu'un simple tFuzzyMatch.

La pertinence du résultat renvoyé peut donc être bien plus grande : au lieu de faire une comparaison sur une seule colonne, on peut effectuer une recherche sur toutes les colonnes présentes dans l'index Solr avec une seule requête.

Pour revenir sur l'exemple des pays, il est impossible de réunir toutes les alternatives d'une dénomination dans une seule colonne : les noms varient souvent (doit-on choisir entre le terme "République Populaire de Chine" ou "Chine" ?) et il faut donc faire des recherches de correspondances sur plusieurs termes de référence pour obtenir une pertinence acceptable des résultats.

Et Solr se branche très facilement à Talend par le biais de composants disponibles sur TalendForge. Ainsi, on peut indexer des données provenant de différentes sources, que ce soit un fichier plat comme du CSV ou bien des tables provenant d'une base de données. Et la syntaxe des requêtes Solr est relativement simple.

A l'aide d'un composant tMap et tSolRInput, il est possible de lancer une reqûete sur le serveur Solr sur chaque ligne d'entrée (en rechargeant le flux de "lookup" du composant SolR à chaque ligne du flux principal). Il faut également mettre en paramètre global la valeur du champ que l'on souhaite passer dans la requête Solr.

Enfin, Solr est très performant sur de gros volumes de données indexées et il est donc possible d'en tirer profit dans Talend.

Pierre-Antoine
picto

Commentaires

Soyez la premiere personne à ajouter un commentaire sur cet article.
Ecrire un nouveau commentaire