O Data Version Control (DVC) é uma ferramenta de código aberto projetada para gerenciar e versionar grandes volumes de dados não estruturados, como imagens, áudio, vídeo e arquivos de texto, em projetos de aprendizado de máquina (ML). Baseado nos princípios do GitOps, o DVC permite que os usuários organizem seus processos de modelagem de ML em fluxos de trabalho reproduzíveis, conectando dados versionados, código e modelos para um rastreamento eficaz de experimentos.
Uma das principais características do DVC é a sua capacidade de lidar com a gestão de dados em escala, permitindo o processamento e versionamento de milhões de arquivos em armazenamentos em nuvem. Isso facilita a exploração e enriquecimento de conjuntos de dados, além de construir uma camada semântica para dados não estruturados. Com o DVC, é possível versionar e salvar dados, conectar-se ao código, rastrear experimentos e registrar modelos, tudo isso mantendo a reprodutibilidade e a eficiência.
Além disso, o DVC oferece integração com o DataChain, uma nova maneira de gerenciar dados não estruturados, permitindo a criação de pipelines que conectam conjuntos de dados versionados, código e modelos. Essa integração facilita a iteração rápida e eficiente, mesmo com conjuntos de dados cada vez maiores. O DVC também permite configurar etapas conforme necessário, rastrear experimentos no Git e manter grandes arquivos de dados e modelos ao lado do código, compartilhando-os por meio de armazenamento em nuvem.
Com uma comunidade ativa e suporte para milhares de usuários, desde startups até empresas da Fortune 500, o DVC continua a evoluir, oferecendo novas funcionalidades e melhorias. Para começar a usar o DVC, os usuários podem baixar a ferramenta via pip, conda ou brew, e também há uma extensão disponível para o Visual Studio Code, que facilita ainda mais a integração e o uso da ferramenta.