Actualités

[21/06/2017] Smile dans le top 10 des entreprises où il fait bon travailler !

Smile entre dans le classement très fermé des entreprises où il fait bon débuter sa carrière. Un palmarès publié dans Les échos et réalisé par Meilleures-entreprises.com.

[20/06/2017] Smile classé 1er hébergeur en haute disponibilité depuis 3 mois

Depuis début mars, soit 3 mois consécutifs, Smile est à la tête du Classement des Hébergeurs en haute disponibilité, réalisé par ip-label et le Groupe NextRadio TV (01net, BFM, RMC).

[20/06/2017] Smile remporte l'Extending eZ Award !

Lors de l'eZ Conference 2017 qui s'est tenue du 6 au 8 juin, Smile a remporté l'Extending eZ Award.

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Qualité de données : couplage de Solr et Talend

Lors d'une mise en place d'une solution de qualité de données, on est régulièrement amené à devoir confronter des données sources avec des référentiels et proposer des corrections.
A ce niveau, Talend propose le composant tFuzzyMatch qui permet de faire correspondre une donnée approximative avec une colonne de référence. Ce qui est limité si l'on veut faire une recherche à travers plusieurs colonnes de référence : typiquement, un nom de pays dont on ne connaît pas la langue source auquel on voudrait appliquer des correspondances sur différentes colonnes contenant les libellés dans plusieurs langues. Il faudrait alors utiliser autant de tFuzzyMatch que de langues à parcourir.

L'idée serait d'effectuer une recherche parmi toutes les données références à notre disposition, et cela dans une seule et même requête, en recherchant les termes incomplets ou approximatifs. Pour ce faire, il est possible de coupler le moteur de recherche Solr avec Talend. En effet, Solr permet d'indexer différentes données comme un moteur de recherche, et permet donc de retrouver des correspondances en brassant beaucoup plus de choix qu'un simple tFuzzyMatch.

La pertinence du résultat renvoyé peut donc être bien plus grande : au lieu de faire une comparaison sur une seule colonne, on peut effectuer une recherche sur toutes les colonnes présentes dans l'index Solr avec une seule requête.

Pour revenir sur l'exemple des pays, il est impossible de réunir toutes les alternatives d'une dénomination dans une seule colonne : les noms varient souvent (doit-on choisir entre le terme "République Populaire de Chine" ou "Chine" ?) et il faut donc faire des recherches de correspondances sur plusieurs termes de référence pour obtenir une pertinence acceptable des résultats.

Et Solr se branche très facilement à Talend par le biais de composants disponibles sur TalendForge. Ainsi, on peut indexer des données provenant de différentes sources, que ce soit un fichier plat comme du CSV ou bien des tables provenant d'une base de données. Et la syntaxe des requêtes Solr est relativement simple.

A l'aide d'un composant tMap et tSolRInput, il est possible de lancer une reqûete sur le serveur Solr sur chaque ligne d'entrée (en rechargeant le flux de "lookup" du composant SolR à chaque ligne du flux principal). Il faut également mettre en paramètre global la valeur du champ que l'on souhaite passer dans la requête Solr.

Enfin, Solr est très performant sur de gros volumes de données indexées et il est donc possible d'en tirer profit dans Talend.

Pierre-Antoine
picto

Commentaires

Soyez la premiere personne à ajouter un commentaire sur cet article.
Ecrire un nouveau commentaire