Sketch 是一款专为 pandas 用户设计的 AI 代码编写助手,它能够深入理解您的数据上下文,从而提供更加精准和相关的代码建议。这款工具的最大优势在于其即插即用的特性,用户无需在 IDE 中添加任何插件即可开始使用。
通过简单的 pip 安装命令,用户即可快速集成 Sketch 到现有的数据分析和处理流程中。Sketch 提供了一个自然语言界面,能够有效地导航数据堆栈中的多种任务,包括数据目录标记、元数据生成、数据清洗和掩码、派生特征的创建和提取、数据问题解答以及数据可视化等。
Sketch 的使用极为简便,只需导入 sketch 模块,然后在任何 pandas dataframe 上使用 .sketch 扩展即可。这个新扩展为 dataframe 提供了多种功能,包括 .sketch.ask 用于基于数据的统计摘要和描述进行问答,.sketch.howto 用于生成代码块以解决数据相关问题,以及 .sketch.apply 用于更高级的数据生成任务。
此外,Sketch 还支持直接使用 Hugging Face 的预建模型(如 MPT-7B 和 StarCoder),这些模型可以在本地完全运行,只需从 HF 下载模型权重即可。对于希望直接使用 OpenAI 的用户,Sketch 也提供了相应的支持,用户只需设置相应的环境变量即可。
Sketch 的工作原理是利用高效的数据草图算法快速总结数据,并将这些摘要信息输入到语言模型中。目前,它通过总结列并将这些统计摘要作为额外上下文提供给代码编写提示来实现这一点。未来,Sketch 计划将这些草图直接输入到定制的“数据+语言”基础模型中,以获得更准确的结果。