Actualités

[22/05/2017] Des Smiliens récompensés lors du Hackathon Carrefour !

Notre équipe, composée en partie de Smiliens, a remporté le Prix du Code et celui de l'Incubation lors du Hackathon Carrefour, organisé ce week-end à Paris !

[18/05/2017] OpenShift, le nouveau livre blanc Smile !

Smile publie aujourd'hui un livre blanc dédié à OpenShift, le PaaS open source orienté DevOps. A télécharger dès maintenant !

[15/05/2017] Smile décroche le label HappyAtWork 2017 !

Pour la 2ème année consécutive, Smile obtient le label HappyAtWork for Starters qui récompense les entreprises où il fait bon débuter sa carrière !

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Panama-Papers, merci l’Open Source!

Panama Papers vous connaissez? 400 journalistes travaillant pour 100 médias pendant plusieurs mois dans le secret et coordonnés par l’ International Consortium of Investigative Journalists (ICIJ) ont dépouillé les étonnants documents de la compagnie Mossack Fonseka.

C’est une véritable plaque tournante de la domiciliation offshore et de ses dérives : détournement de fonds, dissimulation d’avoir, corruption... utilisée par de nombreuses personnalités, légalement ou non : David Cameron, Balkany, Cahuzac, Poutine... et de grandes entreprises et institutions : HSBC, Société Générale, UEFA, Front-National, etc.

Le nombre de documents à traiter fût un énorme challenge pour le consortium, 11 millions de documents correspondant à 2,6 TB de données. A titre de comparaison Wikileaks ce n’était que 1,7 GB de documents. Pour y répondre et pour rester dans l’esprit de transparence du consortium, celui-ci a décidé de baser son infrastructure technologique sur une base Open Source.

  • VeraCrypt : pour crypter l’ensemble des données
  • Apache Tika : pour extraire les données des documents et les indexer dans Solr
  • Apache Solr : pour fouiller les données
  • Blacklight : UI pour restituer les informations contenu dans Solr
  • Neo4j : pour stocker les relations entre les entités identifiées
  • Linkurious : pour visualiser et comprendre les relations entre entités
  • Oxwall : pour fournir un réseau social dédié à la communication entre les journalistes qui travaillent sur l’affaire

L’ensemble de ces technologies ont été installées sur la plate-forme d’Amazon AWS et leur accès sécurisé au moyen de 2 facteurs (mot de passe et OLTP) par Google Authenticator.

Rappelons également l'existence du projet Open Source Open Semantic Search (http://www.opensemanticsearch.org/) dédié à la fouille de données confidentielles pour les journalistes basé sur les même briques technologiques, Apache Solr et Tika.

Sources:

Gregory Eve
picto

Commentaires

Soyez la premiere personne à ajouter un commentaire sur cet article.
Ecrire un nouveau commentaire