Etre au plus proche du temps réel, le principal défi des applications big data

Xavier Guérin, directeur France de MapR Technologie

«En moyenne, si nous prenons les projets déjà en place depuis 18 à 24 mois dans les entreprises américaines, les solutions big data ont permis à ces entreprises des gains de performances de 15 à 20% », admet Xavier Guérin, responsable France de MapR Technologies, l'un des pionniers de la distribution Hadoop (avec Hortonworks et Cloudera). Car l'objectif du big data, au-delà de la volumétrie conséquente des données, est la rapidité à laquelle les données vont être traitées ; être le plus proche du temps réel. Pour Xavier Guérin, tous les clients potentiels qu'il rencontre sont limités avec des outils actuels (bases de données clients), « Les solutions traditionnelles ne savent pas faire de l'analyse en temps réel ». Un avis que partage Eric Biernat, responsable big data analytics chez Octo Technology, qui ajoute que les systèmes IT en place ne suffisent effectivement plus pour absorber les données qui sont générées.

« Avant, on bâtissait des systèmes qui fonctionnaient bien dans des limites acceptables, aujourd'hui, nous assistons à une spécialisation des systèmes. Et ce sont les géants du Web qui ont impulsé le big data. Le big data est ainsi à la fois une problématique de stockage et de computing, ça vient de Google et de Yahoo, il faut conserver un temps de recherche instantanée et gratuit. Quant au temps réel, il correspond au transactionnel et à l'évènementiel. Par exemple, Twitter est dans cette logique comme EDF et ses nouveaux compteurs intelligents. D'autre part, il faut bien prendre aussi en compte les limites du stockage, notamment celles liées aux entrées sorties. Le stockage n'a fait qu'augmenter, il a été multiplié par 100 000 en 30 ans, le débit a également augmenté mais de 1 à 100 Mbits en moyenne, donc seulement 100 fois plus ! Aujourd'hui, je mets donc 1 000 fois plus de temps pour traiter des données à cause des goulets d'étranglement, cela pose problème », explique Eric Biernat.

A chacun sa stratégie

Pour s'approcher du temps réel, des solutions techniques existent, certains mettent par exemple l'installation de plateformes et de cellules Hadoop (data lake) qui apportent performance et évolutivité à des coûts moindres (500 € par Go en moyenne contre 5 000 à 7 000 € par Go pour une solution propriétaire). D'autres comme SAS misent sur la data visualisation et cette approche de faire monter les données en mémoire comme l'application SAS Visual Analytics développée en avril 2012 et qui aurait déjà séduit 1000 entreprises dans le monde dont une quarantaine en France selon l'éditeur. « SAS Visual Analytics renferme une technologie capable de faire monter les données provenant de bases traditionnelles en mémoire pour accélérer les processus d'analyse. Nous ne sommes pas obligés de changer une infrastructure existante pour faire de l'analyse de données », souligne Jérôme Cornillet qui précise malgré tout que le temps réel n'est pas forcément une obligation en soi. D'ailleurs, le porte-parole de SAS n'hésite pas à citer l'anecdote sur les chiffres du chômage faussés en septembre dernier. S'adapter sur un système existant et faire du temps réel sont aussi les messages que souhaite faire passer l'éditeur Pentaho avec son application Business Analytics. Pour cela, l'éditeur met, par exemple, en avant la technologie de blending data qui mélange des données traditionnelles et des données non structurées provenant de bases de données de type No SQL. « La mise en oeuvre de notre technologie permet de prendre rapidement des décisions. Nous sommes ainsi capables de fournir une offre facile d'intégration avec des projets en production en moins de 8 semaines », avance Emmanuel Brochard.

Prendre en compte la véracité des données

IBM, de son côté, relève deux défis aux big data, le temps réel et la véracité des données. « Concernant le temps réel, nous y répondons avec le stream computing qui permet l'analyse de volumes massifs de flux de données en continu avec des temps de réponse inférieurs à la milliseconde. Cette technologie s'adapte aux systèmes existants et va également capter les informations issues de la blogosphère ou de la twittosphère. Elle est utilisée dans le secteur de l'industrie, le médical et dans l'automobile. Bien sûr, nous proposons aussi, à l'instar de SAP HANA, IBM Blue, une technologie basée sur l'in-memory dont le but est de charger en mémoire les données à analyser pour un traitement plus rapide », détaille Patrice Poiraud, directeur de l'activité big data et analytique au sein d'IBM. Hormis ce défi du temps réel, Big Blue insiste sur la véracité des données car, selon Big Blue, un décideur sur trois ne fait pas confiance aux données sur lesquelles il se base pour prendre ses décisions. « Comment pouvez-vous vous appuyer sur une information si vous n'avez pas confiance en elle ? Aujourd'hui, on ne peut pas faire grand-chose contre les personnes qui fournissent de fausses données. De plus, il faut pouvoir analyser la donnée dans son contexte, elle n'a pas la même signification en psychologie, dans l'automobile ou encore dans les mathématiques d'où l'importance de l'informatique contextuelle », défend Patrice Poiraud.

D'ailleurs, le responsable d'IBM n'hésite pas à mettre en avant l'exemple de Watson, ce superordinateur (système massivement parallèle d'analyses sémantiques et statistiques) capable de produire des algorithmes pour comprendre la corrélation des données. C'est notamment le cas de l'université de l'Ontario. En effet, les chercheurs développent un service fondé sur le cloud utilisant l'analytique en continu qui permettra de prévoir l'état de santé des gens, particulièrement des enfants prématurés, de 24 à 72 heures avant l'apparition des symptômes comme les maladies nosocomiales par exemple. Pour accélérer les traitements, HP, pour sa part, mise sur la complémentarité de sa plateforme Haven (Hadoop + Autonomy + Vertica + Enterprise security + n applications) qui a pour vocation de traiter tous les cas d'usages (M2M, problématiques autour des données structurées, non structurées, etc.). « Je suis d'ailleurs assez impressionné par la capacité à traiter rapidement d'énormes quantités de données de Vertica, notre base massivement parallèle », prend pour exemple Laurent Ridoux, responsable big data chez HP qui note toutefois la rupture technologique qu'entrainent toutes ces solutions dans l'entreprise. « L'adoption de ces nouvelles technologies va prendre du temps. Il faudra mettre en place des règles d'architecture et des outils pour les administrer », conclut-il.