PuppyGraph interroge tous vos datalakes

Logiciels,

Les deux cofondateurs de PuppyGraph, Weimo Liu (CEO) et Zhenni Wu (GTM) , lors d'un IT Press Tour début juin dans la Silicon Valley. (Crédit S.L.)

Fondé par Weimo Liu et Zhenni Wu, PuppyGraph propose une approche inédite pour exécuter des requêtes graphe directement sur les datalakes et entrepôts de données existants, sans recourir à des pipelines ETL ni à des stockages dédiés.

Créé en 2024 pour répondre aux besoins croissants d'analyse au sein de très grands volumes de données, PuppyGraph s'appuie sur une architecture distribuée capable de se connecter en quelques minutes à des sources aussi diversifiées que MySQL, PostgreSQL, Apache Iceberg, Delta Lake ou Apache Hudi, sans dupliquer ni transformer les données. « Nous avons voulu bâtir un moteur de requête qui disparaît derrière vos données, plutôt qu'une nouvelle base à administrer », explique Weimo Liu, CEO et co-fondateur de la start-up.

Avant de lancer PuppyGraph, Weimo Liu et Zhenni Wu (cofondatrice et Go to market strategy) avaient identifié trois freins majeurs à l'adoption des technologies graphe : le coût prohibitif des licences, la complexité des processus d'ingestion et les limitations de scalabilité des architectures classiques. « Nous voulions proposer une solution prête à l'emploi, capable d'être déployée en moins de dix minutes, sans qu'il soit nécessaire de modifier la configuration de vos entrepôts », précise Zhenni Wu. Cette ambition les a conduits à développer un connecteur Docker universel, documenté par un guide pas-à-pas sur Docker Hub, afin que tout utilisateur puisse activer PuppyGraph à la demande, et désactiver le service sans impacter ses données sources.

Une architecture modulaire Le coeur de PuppyGraph repose sur un moteur de requête en trois couches, proposant à la fois agilité et performances :

- Le noeud leader, qui capture la requête en openCypher ou Apache Gremlin, élabore un plan logique puis le segmente en tâches distribuées ;

- Les noeuds de calcul, qui exécutent ces fragments en parallèle, en tirant parti des optimisations SQL natives de l'entrepôt hôte et en traitant les données au format colonne, sans recourir à une couche de stockage additionnelle ;

- Le système de cache, composé d'une mémoire locale et d'un cache disque spécialisé, réduit drastiquement les allers-retours vers le stockage, en conservant les résultats des parcours récents ;

« Nous unissons traitement vectorisé massivement parallèle, exploitation du format de stockage en colonnes et indexation croisée entre le cache interne et les index existants dans l'entrepôt pour proposer des temps de réponse inégalés », détaille Weimo Liu. Grâce à cette approche, PuppyGraph atteint une montée en charge quasi linéaire : l'ajout de chaque nouveau noeud de calcul se traduit par un gain de débit et de rapidité.

Performances et cas d'usage Les benchmarks réalisés par PuppyGraph démontrent l'efficacité de la plateforme : sur un graphe issu de données Twitter rassemblant 50 millions de noeuds et 2 milliards d'arêtes, une requête classique à trois sauts s'exécute entre 20 et 70 fois plus vite que sur Neo4j. Et, toujours selon la jeune pousse une exploration à dix sauts sur un graphe de 500 millions d'arêtes peut être rendue en 2,26 secondes sur un cluster de quatre machines. Ces performances séduisent déjà des acteurs de renom : une grande plateforme d'échange de cryptoactifs se sert de PuppyGraph pour détecter en temps réel des comportements frauduleux au sein de communautés interconnectées, tandis qu'un acteur de la fintech a vu le temps de parcours de son graphe interne chuter de quinze minutes à trois secondes, après avoir remplacé un système maison lent et coûteux. De même, Prevalent AI, entreprise de la cybersécurité, a multiplié par trente la volumétrie de logs analysée (passant de sept à trente jours d'historique) tout en conservant un temps de réponse inférieur à dix secondes. Enfin, Dog Capital, un fonds britannique, utilise PuppyGraph pour cartographier les réseaux d'investisseurs et d'administrateurs, optimisant ainsi ses stratégies de co-investissement.

Consciente des besoins variés de ses clients, PuppyGraph propose des packages d'images Docker, des AMI pour AWS Marketplace, et garantit une compatibilité cross-cloud (AWS, GCP, Azure) ainsi qu'on premise. Les développeurs peuvent orchestrer et superviser les clusters grâce aux SDK Java, Go ou Python, ou s'appuyer sur des outils de monitoring tels que Datadog. « Notre objectif est de ne pas vous enfermer dans une plateforme fermée : si vous préférez intégrer PuppyGraph via votre propre pipeline CI/CD ou vos scripts Python, c'est tout à fait possible », affirme Zhenni Wu. L'équipe planche par ailleurs sur une offre serverless et un plan de contrôle automatisé des clusters, pour garantir une élasticité et une résilience optimales sans compromis sur la sécurité des données.

Un positionnement complémentaire Plutôt que de chercher à concurrencer frontalement les bases graphe installées ou les moteurs massivement distribués, PuppyGraph se présente comme une surcouche de datalake SQL. Ce positionnement lui a valu de nouer des partenariats avec Trino, Databricks, MongoDB et des spécialistes du data mesh comme Starburst, favorisant ainsi une intégration fluide et sans heurt dans les écosystèmes existants. Sur le plan commercial, PuppyGraph adopte un modèle d'abonnement à la machine, incluant un noeud leader et plusieurs noeuds de calcul. Les tarifs démarrent autour de 10 000 $ par machine et par an, ce qui, selon la startup, reste particulièrement compétitif au regard des gains de productivité et de performance obtenus.

Avec une levée de fonds de 5 M$ bouclée en 2024 et une trentaine de collaborateurs répartis entre San Francisco et Pékin, PuppyGraph entend continuer d'enrichir sa plateforme : optimisations pour atteindre le temps réel sous la milliseconde, tableau de bord de monitoring avancé et prise en charge de nouveaux connecteurs sous un délai de deux à quatre semaines.