Data Ingestion | Concepts

RÉSUMÉ

L'ingestion de données consiste à collecter des données à partir de sources multiples et à les transporter vers un système centralisé à des fins de stockage, d'analyse et de traitement. Elle est cruciale pour les organisations qui utilisent l'analyse en temps réel, la veille stratégique, l'apprentissage automatique et l'efficacité opérationnelle. Le processus peut utiliser l'ingestion par lots, en temps réel ou hybride et comprend des étapes telles que la collecte de données, le prétraitement, le transfert, le stockage, la surveillance et l'optimisation. Il est essentiel de choisir les bons outils et les bonnes stratégies pour surmonter les problèmes de qualité, de latence et d'évolutivité des données tout en garantissant des informations fiables et opportunes.

Qu'est-ce que l'ingestion de données ?

L'ingestion de données est le processus de collecte et d'importation de données provenant de diverses sources dans un système où elles peuvent être stockées, analysées et traitées. Il s'agit de la première étape du pipeline de données, qui permet aux organisations d'utiliser des données structurées, semi-structuréet données non structurées à partir de bases de données, d'applications, de capteurs et de plateformes de diffusion en continu. Que le processus soit effectué en temps réel ou par lots, l'ingestion de données garantit que les données alimentent l'analyse, le reporting et la prise de décision précise.

Poursuivez la lecture de cette ressource pour en savoir plus sur l'ingestion de données, sa différence avec l'intégration, les cas d'utilisation, le pipeline d'ingestion de données et les outils que vous pouvez utiliser pour simplifier le processus.

Quel est l'objectif de l'ingestion de données ?
L'ingestion de données par rapport à l'intégration de données
Types d'ingestion de données
Cas d'utilisation pour l'ingestion de données
Défis liés à l'ingestion de données
Pipeline d'ingestion de données
Outils d'ingestion de données
Principaux enseignements
FAQ

Quel est l'objectif de l'ingestion de données ?

L'ingestion de données permet de rassembler des données provenant de sources multiples afin de les rendre accessibles à des fins d'analyse, d'établissement de rapports et d'exploitation. Les objectifs spécifiques sont les suivants

Centraliser les données provenant de diverses sources en un seul endroit pour en faciliter l'accès et la gestion
Permettre un traitement en temps réel ou par lots pour répondre aux différents besoins analytiques et opérationnels
Alimenter les outils de veille stratégique avec des données actualisées et fiables pour des rapports précis
Soutenir la prise de décision fondée sur des données en garantissant un accès rapide aux informations importantes
Alimenter les modèles d'apprentissage automatique et les analyses avancées avec des données fraîches et de haute qualité
Amélioration de la cohérence et de la qualité des données entre les plateformes grâce à des processus d'ingestion normalisés

L'ingestion de données par rapport à l'intégration de données

L'ingestion et l'intégration des données sont deux éléments fondamentaux des systèmes modernes de gestion des données. les architectures de données, mais ils ont des objectifs distincts. Alors que l'ingestion de données se concentre sur la collecte et le transfert de données dans un référentiel central, l'intégration des données garantit que les données sont organisées, cohérentes et prêtes à être analysées. En comprenant la différence entre les deux, les organisations sont mieux placées pour concevoir des systèmes efficaces et évolutifs. Voici une comparaison côte à côte :

Fonctionnalité	L'ingestion de données	Intégration des données
Objectif	Collecte et transfert de données à partir de différentes sources	Combine et harmonise des données provenant de différentes sources
Fonction	Transférer des données brutes dans des systèmes de stockage ou de traitement	Nettoyer, transformer et unifier les données
Calendrier	Souvent en temps réel ou par lots	Fait généralement suite à l'ingestion
Focus	Flux et fourniture de données	Cohérence des données et facilité d'utilisation
Outils utilisés	Pipelines ETL/ELT, services de streaming	Virtualisation des données, outils de transformation
Objectif final	Mettre rapidement les données à disposition	Rendre les données précises et prêtes pour l'analyse

Types d'ingestion de données

L'ingestion de données peut être adaptée à différents besoins en fonction de la rapidité avec laquelle vos données doivent être traitées et utilisées. Les trois principaux types d'ingestion de données, le batch, le temps réel et l'hybride, offrent des avantages différents en fonction de votre cas d'utilisation. Voici une brève description de chacun d'entre eux :

Ingestion par lots

Ingestion par lots collecte et traite les données à intervalles réguliers. Il est idéal pour les scénarios dans lesquels les données n'ont pas besoin d'être accessibles instantanément, comme les rapports quotidiens, les analyses historiques et les procédures de sauvegarde. Ce type d'ingestion de données est rentable et efficace pour traiter simultanément de gros volumes de données, mais il peut entraîner des temps de latence.

Ingestion en temps réel (streaming)

L'ingestion en temps réel, également connue sous le nom d'ingestion en continu, implique la collecte et le traitement continus des données au fur et à mesure qu'elles sont générées. Cette approche est idéale pour les applications qui nécessitent des informations instantanées, comme les systèmes de surveillance, la détection des fraudes et les expériences personnalisées des utilisateurs. L'ingestion en temps réel garantit un délai minimal entre la génération des données et leur disponibilité.

Ingestion hybride

L'ingestion hybride combine les approches par lots et en temps réel, ce qui offre une certaine flexibilité lorsqu'il s'agit de traiter différents types de données et de charges de travail. Par exemple, une entreprise peut utiliser l'ingestion en temps réel pour le suivi de l'activité des utilisateurs tout en s'appuyant sur l'ingestion par lots pour les mises à jour nocturnes de l'entrepôt de données. Cette approche permet aux entreprises d'équilibrer la vitesse, l'efficacité et la complexité en fonction de leurs besoins.

Cas d'utilisation pour l'ingestion de données

L'ingestion de données joue un rôle essentiel dans tous les secteurs d'activité et toutes les applications. Voici quelques-uns des cas d'utilisation les plus courants :

Analyse en temps réel: Alimente les tableaux de bord et les outils d'analyse avec des données actualisées pour surveiller les performances, suivre les indicateurs clés de performance et réagir instantanément aux changements.
Apprentissage automatique et IA: Alimente les modèles d'apprentissage automatique avec des données propres et actualisées pour une formation, des prédictions et une automatisation précises.
IdO et données de capteurs: Elle ingère des flux de données continus provenant d'appareils et de capteurs afin de soutenir les systèmes de fabrication, de transport et de soins de santé.
Personnalisation du client: Collecte des données comportementales et transactionnelles afin d'adapter les expériences des utilisateurs et les efforts de marketing en temps réel.
Efficacité opérationnelle: Intégrer des données provenant de systèmes internes afin d'améliorer les prévisions, la planification des ressources et les opérations commerciales.
Conformité et rapports : Rassemble des données provenant de plusieurs plateformes afin de soutenir les rapports réglementaires, les pistes d'audit et les efforts de gouvernance des données.

Que vous l'utilisiez pour obtenir des informations en temps réel ou pour traiter des données à grande échelle, l'ingestion de données est fondamentale pour des systèmes plus intelligents et plus réactifs.

Défis liés à l'ingestion de données

L'ingestion de données présente plusieurs défis qui peuvent avoir un impact sur les performances, la fiabilité et l'évolutivité. Il est donc essentiel de s'y attaquer de front pour construire un pipeline de données robuste et efficace.

Qualité des données : L'ingestion de données provenant de différentes sources peut entraîner des incohérences, des valeurs manquantes ou des erreurs qui réduisent la confiance dans les analyses et les rapports.
Évolutivité : Au fur et à mesure que les volumes de données augmentent, les systèmes d'ingestion doivent s'adapter pour gérer la charge accrue sans dégradation des performances ou temps d'arrêt.
Temps de latence : Pour les cas d'utilisation en temps réel, même des retards mineurs dans l'ingestion peuvent conduire à des informations obsolètes et à des opportunités manquées.
Formats complexes : Le traitement de données structurées, semi-structurées et non structurées provenant de sources multiples nécessite une logique de traitement flexible et souvent complexe.
Sécurité et conformité : L'ingestion de données sensibles doit être conforme à des réglementations telles que GDPR ou HIPAA, exigeant le cryptage, les contrôles d'accès et les pistes d'audit.
Intégration du système : La connexion des systèmes existants, des services en nuage et des API peut s'avérer techniquement difficile et nécessiter une maintenance continue.
Gestion des coûts : Les processus d'ingestion à grande vitesse ou à grand volume peuvent entraîner des coûts d'infrastructure et de traitement importants.

Pour relever ces défis, il faut une planification minutieuse, les bons outils et une architecture évolutive permettant d'assurer la performance et la gouvernance.

Pipeline d'ingestion de données

Identification de la source des données

La première étape du processus d'ingestion consiste à identifier l'origine de vos données. Ces sources peuvent être internes (systèmes de gestion de la relation client, plates-formes ERP ou systèmes de gestion de la relation client). bases de données) ou externes (API, flux de médias sociaux, applications tierces ou systèmes partenaires). Il est essentiel de comprendre le type, le format et la fréquence des données générées pour concevoir la bonne stratégie d'ingestion.

Collecte de données

Une fois les sources identifiées, vous pouvez collecter les données par lots, en temps réel (flux) ou par des méthodes hybrides. La collecte par lots recueille les données à intervalles réguliers, tandis que l'ingestion en temps réel capture les données au fur et à mesure qu'elles sont créées. La méthode que vous choisirez dépendra du niveau de fraîcheur des données dont votre organisation a besoin.

Prétraitement des données

Au cours de cette étape, les données brutes subissent prétraitement de base pour préparer le stockage ou la transformation ultérieure. Le prétraitement peut comprendre la suppression des doublons, la validation des formats, la normalisation des valeurs et l'enrichissement des données avec un contexte supplémentaire. Il s'agit d'une partie utile du pipeline car il améliore la qualité des données et réduit la complexité du traitement en aval.

Transfert de données

Après le prétraitement, vous devez déplacer les données de leur source vers le système cible. Cette étape implique souvent l'utilisation de pipelines de données ou d'outils d'ingestion pour assurer un transfert de données sécurisé, fiable et évolutif. Les considérations relatives aux performances, à la latence et à la bande passante sont essentielles, en particulier pour l'ingestion en temps réel.

Stockage des données

Les données ingérées sont stockées dans un référentiel centralisé, tel qu'un lac de données, un entrepôt de données ou une plateforme de stockage en nuage, en fonction de leur structure, de l'utilisation prévue et de l'accessibilité requise. Les données structurées peuvent être stockées dans un entrepôt, tandis que les données non structurées ou semi-structurées sont stockées dans un lac de données en vue d'une analyse flexible.

Surveillance et journalisation

La surveillance garantit le bon fonctionnement du pipeline d'ingestion, grâce à des outils qui suivent le flux de données, la latence et les taux d'échec. La journalisation permet de savoir quelles données ont été ingérées, quand et d'où, ce qui facilite le débogage, l'audit et les besoins de conformité.

Mise à l'échelle et optimisation

À mesure que les données augmentent en volume, en vitesse et en variété, vos pipelines doivent être optimisés en termes de performances et de coûts. L'optimisation implique de régler les programmes d'ingestion, d'adapter l'infrastructure, d'automatiser le traitement des erreurs et d'adopter de nouveaux outils pour répondre à l'évolution des besoins. L'évolutivité garantit que le pipeline fournit des données fiables et opportunes à mesure que la demande augmente.

Ces étapes permettent une ingestion efficace et précise qui soutient les objectifs analytiques et opérationnels de votre entreprise.

Outils d'ingestion de données

Choisir les bons outils d'ingestion de données permet de construire des pipelines de données fiables, évolutifs et efficaces. Ils doivent permettre d'automatiser la collecte, le transfert et le traitement des données provenant de sources multiples. En choisissant les bons outils, votre équipe pourra se concentrer davantage sur les connaissances et moins sur l'infrastructure. Voici une liste d'outils qui devraient répondre à vos besoins, que vous utilisiez l'ingestion par lots, en temps réel ou hybride.

Plateformes ETL/ELT : Des outils comme Apache NiFi, Talend et Fivetran permettent d'extraire, de transformer et de charger des données dans des systèmes de stockage, en prenant souvent en charge des flux de travail complexes et des contrôles de qualité des données.
Plateformes de données en continu : Des technologies telles que Apache Kafka, Apache Flink et Amazon Kinesis prennent en charge l'ingestion en temps réel de flux de données à grande vitesse, ce qui est idéal pour les applications IoT, de surveillance et axées sur les événements.
Services en nuage : Des solutions gérées comme AWS Glue, Google Cloud Dataflowet Azure Data Factory (ADF) offrent une ingestion évolutive, sans serveur, avec des intégrations profondes dans les écosystèmes cloud.
Outils d'orchestration des pipelines de données : Des plateformes comme Airbyte, Prefect et Apache Airflow permettent de coordonner, de planifier et de contrôler les flux de travail d'ingestion de données entre différents outils et services.

Les outils que vous choisirez dépendront de vos sources de données, de leur format, de leur volume et de leurs exigences en matière de latence. En choisissant les bons outils, vous pouvez améliorer considérablement la fiabilité des données, réduire les frais généraux d'ingénierie et accélérer le temps de compréhension.

Principaux enseignements et ressources

L'ingestion de données est fondamentale pour construire des systèmes modernes, axés sur les données. Qu'il s'agisse d'alimenter des analyses en temps réel, des modèles d'apprentissage automatique ou de centraliser des données à des fins de reporting, un pipeline d'ingestion efficace est essentiel pour exploiter toute la valeur de vos données. En comprenant le processus d'ingestion des données et les outils disponibles, vous pouvez concevoir des systèmes plus réactifs et plus résilients. Voici les principaux points à retenir de cette ressource :

L'ingestion de données permet de collecter et de transporter des données structurées, semi-structurées ou non structurées vers des systèmes centralisés en vue de leur analyse et de leur traitement.
Il prend en charge les méthodes d'ingestion en temps réel et par lots, les approches hybrides offrant une flexibilité accrue.
L'objectif de l'ingestion de données est d'alimenter l'analyse, de permettre une prise de décision plus rapide et d'unifier les données pour une meilleure efficacité opérationnelle.
L'ingestion des données diffère de l'intégration des données, qui se concentre sur la transformation et l'harmonisation des données après l'ingestion pour en faciliter l'utilisation.
Les cas d'utilisation courants comprennent l'analyse en temps réel, l'IoT, la personnalisation, la conformité et l'apprentissage automatique.
Les pipelines d'ingestion impliquent l'identification des sources, la collecte, le prétraitement, le transfert, le stockage, la surveillance et la mise à l'échelle.
Les principaux défis sont la qualité des données, la latence, l'évolutivité, la complexité de l'intégration et la conformité aux règles de sécurité.
Le choix des bons outils, tels que les plateformes ETL, les frameworks de streaming ou les services cloud-native, est important pour construire un pipeline évolutif et fiable.

Ressources

Explorez ces ressources Couchbase pour en savoir plus sur la gestion des données :

Qu'est-ce que la gestion des données ? - Concepts
Qu'est-ce qu'une plateforme de données ? - Concepts
Ingestion de données Customer 360 - Développeurs
Intégrations et outils - Développeurs
Intégration de Big Data à l'aide de connecteurs Couchbase - Docs
Qu'est-ce que Zero-ETL ? - Concepts

FAQ

Que signifie l'ingestion de données ? L'ingestion de données désigne le processus de collecte, d'importation et de transfert de données provenant de diverses sources dans un système de stockage ou de traitement à des fins d'analyse et d'utilisation.

Quelle est la différence entre la collecte et l'ingestion de données ? La collecte de données consiste à recueillir des données brutes à partir de sources telles que des capteurs, des applications ou des bases de données. L'ingestion de données va encore plus loin, car elle transfère ces données dans un système centralisé pour le stockage, le traitement et l'analyse.

L'ingestion de données est-elle la même chose que l'ETL ? Non, l'ingestion de données n'est pas la même chose que l'ETL. L'ingestion se concentre sur le déplacement des données des sources vers une destination, tandis que l'ETL comprend également la transformation et la préparation des données pour l'analyse.

Qu'est-ce que l'ingestion de données dans le cadre du big data ? Dans le domaine du big data, l'ingestion de données est le processus d'importation de gros volumes de données provenant de diverses sources dans un système où elles peuvent être stockées et analysées. Elle prend en charge les méthodes par lots et en temps réel afin de garantir un flux de données opportun et évolutif pour l'analyse, l'apprentissage automatique et d'autres applications.

Quelles sont les étapes de l'ingestion des données ? Les étapes de l'ingestion de données comprennent généralement l'identification des sources de données, la collecte des données à l'aide de méthodes par lots ou en temps réel, et leur prétraitement pour en assurer la qualité et la cohérence. Les données sont ensuite transférées vers un système cible, tel qu'un lac de données ou un entrepôt, où elles sont stockées pour être analysées. La surveillance continue, la journalisation et la mise à l'échelle garantissent que le pipeline d'ingestion reste fiable et efficace au fur et à mesure que les volumes de données augmentent.

Commencer à construire

Consultez notre portail pour développeurs afin d'explorer NoSQL, de parcourir les ressources et de commencer à utiliser les tutoriels.

Développer maintenant

Utiliser Capella gratuitement

Prenez en main Couchbase en quelques clics. Capella DBaaS est le moyen le plus simple et le plus rapide de démarrer.

Utiliser gratuitement

Prendre contact

Vous souhaitez en savoir plus sur les offres Couchbase ? Laissez-nous vous aider.

Contactez nous

Plate-forme

Autogestion

Services

Capacités

Par cas d'utilisation

Par secteur d'activité

Docs populaires

Démarrage rapide

Centre de ressources

A propos de

Partenariats

Ingestion de données

L'ingestion de données consiste à collecter et à importer des données provenant de différentes sources dans un système à des fins de stockage, d'analyse ou de traitement.