L'injection de données 2.0 avec Tabsdata

Dirigée par Arvind Prabhakar (en photo) et Alejandro Abdelnur, Tabsdata a déposé plusieurs brevets et accéléré le développement de sa plateforme, dont la version 1.0 est attendue à l’été 2025. (Crédit S.L.)

Avec son intégration des données sans pipeline, au service de l'IA et de l'analytique, Tabsdata propose une plateforme où la data circule sous forme de tables publiées, transformées et consommées selon un modèle Pub/Sub.

Fondée en mai 2024 à San Francisco par Arvind Prabhakar et Alejandro Abdelnur, deux figures reconnues de l'intégration de données, Tabsadta a bénéficié d'un financement d'amorçage de 7 millions de dollars en juillet de la même année. Leur ambition : transformer radicalement la manière dont les entreprises préparent et injectent les données pour l'intelligence artificielle et l'analytique, en s'attaquant à des problématiques devenues critiques à l'heure de l'IA générative et des applications temps réel. Lors d'un IT Press Tour dans la Silicon Valley, début juin, Tabsdata nous a indiqué s'attaquer à un problème structurel : la fragilité et la complexité des pipelines de données traditionnels, souvent optimisés pour le volume et la vitesse mais rarement pour la qualité, la traçabilité et la gouvernance. « Les pipelines de données sont optimisés pour la vitesse et le volume, pas pour la qualité ou la confiance, ce qui conduit à des infrastructures fragiles et à une perte de temps considérable pour les équipes », explique Arvind Prabhakar, soulignant la nécessité d'un changement de paradigme. La solution technique de Tabsdata repose sur un modèle Pub/Sub appliqué non pas aux messages, mais aux tables de données. Ce choix structurel permet de publier, transformer et consommer des jeux de données entiers, versionnés et gouvernés, plutôt que de manipuler des flux d'événements ou des lots de messages. À la différence des architectures classiques, chaque département d'une entreprise peut publier ses propres tables, enrichies de métadonnées, puis les rendre immédiatement accessibles à d'autres équipes via un mécanisme d'abonnement. Cette approche favorise la clarté de la propriété des données, la réduction des redondances et l'alignement avec la stratégie data globale de l'entreprise.

Au coeur de la plateforme, le serveur Tabsdata orchestre l'ensemble des opérations : il stocke les tables publiées, conserve l'historique complet des écritures et des métadonnées, et maintient un catalogue centralisé. Les fonctions de la solution s'articulent autour de trois rôles principaux : publisher, transformer et subscriber. Les publishers permettent d'ingérer des données depuis une grande diversité de sources - bases de données relationnelles comme MySQL, Oracle ou PostgreSQL, systèmes de fichiers locaux ou cloud (Amazon S3, Azure), applications SaaS telles que Salesforce, ou encore MongoDB - grâce à des connecteurs intégrés ou développés sur mesure. Les transformers offrent la possibilité de réaliser des opérations complexes sur les données, directement via des API Python, pour les nettoyer, les enrichir ou les agréger. Les résultats sont stockés sous forme de nouvelles tables, elles-mêmes versionnées et traçables. Enfin, les subscribers exportent les jeux de données vers des systèmes externes, qu'il s'agisse de data lakes, de data warehouses ou d'API métiers, sans nécessiter de logique de connecteur supplémentaire.

Fournir un accès en libre service aux données La spécificité de Tabsdata réside dans la gestion fine de la version des tables et la capacité à remonter l'historique complet de chaque jeu de données. Cette traçabilité native permet non seulement de simplifier la gouvernance et la conformité, mais aussi de faciliter le débogage et la reproductibilité des analyses. « L'avenir de la donnée d'entreprise passe par des jeux de données de confiance, instantanément accessibles et prêts pour l'IA, sans les lourdeurs de l'intégration classique », affirme Arvind Prabhakar, insistant sur l'importance d'une gouvernance intégrée dès la conception. L'architecture de Tabsdata, avec un coeur ouvert et des extensions propriétaires pour les besoins avancés, vise en priorité les data engineers Python. La distribution est disponible sur PyPi et la licence développeur est gratuite, ce qui facilite l'adoption et l'expérimentation en environnement de développement. Le modèle de déploiement est totalement flexible : la solution peut être auto-hébergée sur n'importe quelle infrastructure, garantissant une indépendance vis-à-vis des clouds et une maîtrise des coûts.

En pratique, Tabsdata permet de couvrir des cas d'usage variés, de la capture de changements (CDC) à l'automatisation de l'ingénierie de données, en passant par la simplification de l'intégration de sources hétérogènes, la mise en place de contrôles de qualité, la gestion de contrats de données et la construction de data products prêts pour l'IA. L'ensemble de ces fonctionnalités vise à offrir un accès self-service, fiable et gouverné aux données, tout en réduisant drastiquement les coûts opérationnels liés à la maintenance des pipelines traditionnels. précisons pour conclure, que la version définitive 1.0 de Tabsdata est attendue pour juillet 2025, avec une sortie en version publique à cette date.