A Guide to Data Chunking

O que é fragmentação de dados?

A fragmentação de dados é uma técnica que divide grandes conjuntos de dados em partes menores e mais gerenciáveis. Ela é crucial para inteligência artificial, análise de big datae computação em nuvem porque otimiza o uso da memória, acelera o processamento e melhora a escalabilidade. Continue lendo para saber que tipos de dados podem ser divididos em pedaços e analise os diferentes tipos de divisão em pedaços, casos de uso, estratégias e considerações gerais para a implementação da estratégia.

Que tipo de dados podem ser divididos em pedaços?

Você pode dividir quase todos os tipos de dados em pedaços. Aqui estão alguns exemplos:

Dados de texto

Documentos de texto grandes, livros e registros podem ser divididos em parágrafos menores, frases e unidades tokenizadas no processamento de linguagem natural (NLP) e na análise de sentimentos.

Dados numéricos

Grandes conjuntos de dados, como dados tabulares ou de séries temporais, podem ser divididos em subconjuntos menores ou intervalos de tempo para facilitar a análise, a visualização e o treinamento de modelos de aprendizado de máquina.

Dados binários

Arquivos como pacotes de software e bancos de dados podem ser divididos em blocos para transmissão, armazenamento e deduplicação.

Dados de imagem, vídeo e áudio

Imagens, vídeo e áudio podem ser divididos em segmentos menores, como blocos de imagens, quadros de vídeo e amostras de áudio, para permitir tarefas como compactação, streaming e processamento localizado.

Dados de rede ou de streaming

Fluxos de dados contínuos, como saídas de sensores de IoT ou registros de tráfego em tempo real, podem ser divididos em partes baseadas no tempo ou no tamanho para análise ou armazenamento em tempo real.

O chunking simplifica o manuseio de dados e melhora o desempenho, a escalabilidade e a usabilidade, tornando-o essencial para a análise.

Tipos de fragmentação

Há vários tipos de fragmentação de dados, alguns dos quais são:

Fragmentação de tamanho fixo

Nesse cenário, os dados são divididos em partes de tamanho igual. É simples e ideal para sistemas de armazenamento de arquivos, processamento de dados de streaming e dosagem em aprendizado de máquina.

Fragmentos de tamanho variável

Nesse cenário, os dados são divididos em pedaços de vários tamanhos. É ideal para deduplicação em sistemas de armazenamento e para lidar com padrões de dados irregulares.

Agrupamento baseado em conteúdo

Nesse cenário, os dados são divididos em pedaços de acordo com padrões específicos no conteúdo, e não no tamanho. Geralmente, pode ser usado para sistemas de backup e deduplicação com conteúdo semelhante.

Agrupamento lógico

Com esse tipo de fragmentação, os dados são divididos de acordo com unidades lógicas em vez de tamanho. Ele processa textos por frases ou parágrafos, dados de séries temporais por intervalos de tempo e registros de bancos de dados por chaves.

Agrupamento dinâmico

Com esse tipo de fragmentação, os dados são dimensionados e ajustados com base em restrições como disponibilidade de memória e distribuição da carga de trabalho. É ideal para aplicativos de streaming, análise em tempo reale sistemas adaptativos.

Chunking baseado em arquivos

Com esse tipo de fragmentação, os arquivos grandes são divididos em partes menores para transferência, armazenamento e processamento. Ele é usado em sistemas de compartilhamento de arquivos, armazenamento em nuvem e streaming de vídeo. Um exemplo de fragmentação baseada em arquivos é a divisão de um vídeo em segmentos menores para streaming adaptável.

Agrupamento baseado em tarefas

Com esse tipo de chunking, os dados são divididos em pedaços otimizados para tarefas de processamento paralelo. Ele é usado para treinamento paralelo de modelos de aprendizado de máquina e sistemas distribuídos.

Para que é usado o chunking de dados?

A fragmentação de dados resolve problemas relacionados a limites de memória, transferência de dados e velocidade de processamento. Aqui estão algumas das maneiras específicas em que ele é usado:

Otimização do uso da memória

O chunking permite que os sistemas lidem com grandes conjuntos de dados sem exceder a capacidade de memória. A prevenção da sobrecarga de memória permite operações eficientes mesmo em sistemas com recursos limitados. Por exemplo, no aprendizado de máquina, os dados podem ser processados em pequenos lotes durante o treinamento para evitar a sobrecarga dos recursos do sistema e, ao mesmo tempo, garantir cálculos mais rápidos e eficientes.

Melhorar a transferência de dados

O chunking melhora a transferência de dados ao dividir arquivos grandes em partes menores, otimizando a utilização da largura de banda. Essa abordagem reduz o tempo de inatividade durante erros, pois somente o trecho corrompido precisa ser reenviado em vez do arquivo inteiro. O chunking também melhora a resiliência diante de limitações de largura de banda e garante transferências de dados mais suaves e confiáveis nas redes.

Processamento paralelo de dados

O chunking permite que grandes conjuntos de dados sejam divididos em partes menores que podem ser processadas simultaneamente em vários processadores ou nós. Cada bloco é tratado de forma independente, permitindo que as tarefas sejam executadas em paralelo, reduzindo o tempo total de processamento e aumentando a eficiência. Após o processamento, os pedaços individuais são combinados para produzir um resultado unificado.

Geração Aumentada por Recuperação (RAG) e Modelos de Linguagem Grandes (LLMs)

A fragmentação de dados é essencial em estruturas RAG e LLMs porque gerencia grandes conjuntos de dados e otimiza o processamento dentro de limites fixos de tokens. No RAG, documentos grandes são divididos em partes menores e semanticamente coerentes que podem ser indexadas e recuperadas com eficiência. Quando uma consulta é feita, apenas os pedaços mais relevantes são obtidos e passados para o LLM, garantindo respostas precisas e contextualmente relevantes. De modo geral, a fragmentação aumenta a precisão da recuperação, reduz a latência e permite o tratamento perfeito de consultas complexas.

Estratégias de fragmentação

Sua estratégia escolhida depende do tipo de dados, do caso de uso e do resultado pretendido. Veja a seguir algumas estratégias comuns de fragmentação:

- Processamento em lote: Divide grandes conjuntos de dados em lotes menores que podem ser processados sequencialmente. Cada lote fornece outra parte incremental, atualizando os sistemas de forma iterativa.
- Janelamento: Uma técnica de fragmentação em que um fluxo contínuo de dados é dividido em pedaços menores chamados janelas. Essa estratégia permite a análise em tempo real e a detecção de padrões porque processa cada janela de forma independente.
- Chunking distribuído: Divide os dados para processamento em vários nós. Ao permitir que os pedaços sejam processados de forma independente, você aumenta a tolerância a falhas, a escalabilidade e a eficiência.
- Estratégias híbridas: Combina várias estratégias de fragmentação para cenários com requisitos complexos. Por exemplo, você pode utilizar chunking lógico e de tamanho fixo para dividir os arquivos de vídeo em pedaços de tamanho fixo e, ao mesmo tempo, preservar os limites da cena para uma reprodução e análise perfeitas.
- Chunking em tempo real: Em vez de os blocos serem predefinidos, essa estratégia os distribui em tempo real durante o processamento. Isso funciona bem para aplicativos em tempo real, como streaming ao vivo ou processamento de dados de sensores.

Considerações sobre a fragmentação de dados

Ao implementar o chunking, é importante considerar o seguinte para garantir a eficiência e a precisão:

- Tamanho do pedaço: A seleção de um tamanho de bloco adequado é fundamental. Se for muito grande, pode sobrecarregar a memória ou tornar o processamento mais lento; se for muito pequeno, pode aumentar a sobrecarga, reduzindo a eficiência.
- Características dos dados: É importante considerar se os dados estão estruturados, não estruturadoou sensíveis ao tempo quando você seleciona a melhor abordagem de chunking. Por exemplo, os dados de texto se beneficiam da fragmentação baseada em conteúdo, enquanto os dados numéricos podem se adequar melhor à fragmentação de tamanho fixo.
- Ambiente de processamento: Os recursos de hardware e software, como a RAM disponível e a capacidade de processamento, desempenham um papel importante na determinação do tamanho e da estratégia dos blocos. Os sistemas com recursos limitados podem exigir pedaços menores.
- Pedido: Garantir que os blocos mantenham a ordem lógica dos dados é fundamental para dados temporais ou de séries temporais. Alinhamentos inadequados de blocos podem resultar em análises ou treinamento de modelos incorretos.
- Escalabilidade: Sua estratégia de fragmentação deve ser dimensionada com os conjuntos de dados à medida que eles crescem.

Conclusão e recursos adicionais

Ao dividir grandes conjuntos de dados em partes menores e gerenciáveis, a fragmentação de dados otimiza o uso da memória, melhora a velocidade de processamento e garante a escalabilidade em todos os aplicativos, desde RAGs e LLMs até análises em tempo real e streaming de vídeo. Independentemente de você estar trabalhando com documentos de texto, imagens e vídeos maciços ou sistemas distribuídos, o chunking permite que você entenda conjuntos de dados desafiadores e, ao mesmo tempo, maximize o desempenho de forma eficiente. Ao compreender os diferentes tipos de chunking e aplicar as estratégias corretas, você pode aproveitar ao máximo seus dados.

Para saber mais sobre tópicos relacionados à análise de dados com tecnologia de IA, confira os recursos abaixo:

Matthew Groves

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

Todas as publicações

Um guia para a fragmentação de dados