Sketch é uma ferramenta inovadora projetada para auxiliar usuários de pandas na escrita de código, utilizando inteligência artificial para entender o contexto dos dados. Isso resulta em sugestões de código altamente relevantes e úteis. A instalação do Sketch é simples e rápida, não exigindo a adição de plugins ao seu IDE, o que facilita o início imediato do uso.
A ferramenta oferece uma interface de linguagem natural que facilita a navegação por várias tarefas no cenário de análise de dados. Entre as funcionalidades oferecidas estão a catalogação de dados, engenharia de dados e análise de dados, incluindo a geração de metadados, limpeza e mascaramento de dados para conformidade, criação de recursos derivados, visualização de dados e muito mais.
Para utilizar o Sketch, basta importá-lo e usar a extensão .sketch
em qualquer dataframe do pandas. Isso permite acessar funcionalidades como .sketch.ask
, para obter respostas baseadas em estatísticas resumidas e descrição dos dados; .sketch.howto
, para gerar blocos de código que podem ser usados como ponto de partida para diversas tarefas; e .sketch.apply
, para operações mais avançadas como geração de novos recursos e análise de campos.
Sketch utiliza algoritmos de aproximação eficientes para resumir rapidamente seus dados e alimentar essas informações em modelos de linguagem. Atualmente, ele faz isso resumindo as colunas e escrevendo essas estatísticas resumidas como contexto adicional para ser usado pelo prompt de escrita de código. No futuro, espera-se alimentar esses esboços diretamente em modelos de fundação personalizados de "dados + linguagem" para obter resultados ainda mais precisos.
A ferramenta é compatível com modelos pré-construídos do Hugging Face, como MPT-7B e StarCoder, que podem ser executados localmente após o download dos pesos do modelo. Além disso, é possível usar diretamente a API da OpenAI, configurando as variáveis de ambiente apropriadas.
Sketch é uma solução poderosa para quem busca melhorar a eficiência e a relevância na escrita de código para análise de dados, combinando a praticidade do pandas com a inteligência artificial para oferecer sugestões de código contextualizadas e precisas.