PandasAI:使数据分析变得对话式
PandasAI 是一个强大的 Python 平台,它允许用户以自然语言与数据进行交互。这个平台为非技术用户提供了一种更直观的方式来处理数据,同时也为技术用户节省了时间和精力。
一、部署 PandasAI PandasAI 可以通过多种方式使用。您可以在 Jupyter 笔记本或 Streamlit 应用中轻松使用它,也可以将其作为 REST API 进行部署,例如使用 FastAPI 或 Flask。如果您对托管的 PandasAI Cloud 或我们的自托管企业产品感兴趣,可以与我们联系。
二、开始使用 您可以在此处找到 PandasAI 的完整文档。您可以选择在 Jupyter 笔记本、Streamlit 应用中使用 PandasAI,或者使用存储库中的客户端和服务器架构。
三、使用平台
- 安装:PandasAI 平台使用 Docker 化的客户端 - 服务器架构。您需要在您的机器上安装 Docker。
git clone https://github.com/sinaptik-ai/pandas-ai/
cd pandas-ai
docker-compose build
- 运行平台:一旦构建了平台,您可以使用以下命令运行它:
docker-compose up
。这将启动客户端和服务器,您可以在http://localhost:3000
访问客户端。
四、使用库
- 安装:您可以使用
pip
或poetry
安装 PandasAI 库。- 使用
pip
:pip install pandasai
- 使用
poetry
:poetry add pandasai
- 使用
五、演示 您可以在浏览器中亲自试用 PandasAI 库。
六、使用示例
- 询问问题
- 示例数据框:创建了一个包含国家和收入的示例数据框
sales_by_country
。 - 提问:通过
Agent
类向 PandasAI 提问,例如“Which are the top 5 countries by sales?”,得到了相应的回答。 - 复杂问题:还可以提出更复杂的问题,如“What is the total sales for the top 3 countries by sales?”,并得到了准确的回答。
- 示例数据框:创建了一个包含国家和收入的示例数据框
- 可视化图表:可以要求 PandasAI 为您生成图表。
- 多个数据框:可以将多个数据框传递给 PandasAI 并提出相关问题。
七、隐私与安全
为了生成要运行的 Python 代码,我们从数据框中抽取一些随机样本,对其进行随机化处理(对敏感数据使用随机生成,对非敏感数据进行打乱),并将随机化的头部发送到 LLM。如果您想要进一步加强隐私保护,可以将 enforce_privacy = True
实例化 PandasAI,这样就不会将头部(而只是列名)发送到 LLM。
总之,PandasAI 为数据分析提供了一种创新的、便捷的方式,使数据处理更加自然和高效。