Sketchは、pandasユーザー向けのAIコード記述アシスタントとして設計されており、データのコンテキストを深く理解することで、コード提案の関連性と精度を大幅に向上させます。このツールは、IDEにプラグインを追加する必要なく、数秒で使用可能です。
Sketchの主な機能には、データカタログ作成、データエンジニアリング、データ分析が含まれます。データカタログ作成では、一般的なタグ付け(例:PII識別)やメタデータ生成(名前と説明)をサポートします。データエンジニアリングでは、データのクリーニングとマスキング(コンプライアンス)、派生特徴の作成と抽出を容易にします。データ分析では、データに関する質問やデータの視覚化を支援します。
Sketchを使用するには、まずpip install sketch
でインストールし、import sketch
でpandasデータフレームに拡張機能を登録します。その後、.sketch
拡張機能を使用して、データフレームに対して質問をしたり、コードを生成したりすることができます。例えば、df.sketch.ask("Which columns are integer type?")
とすることで、整数型の列を特定することができます。
さらに、.sketch.howto
を使用して、データのクリーニング、正規化、新しい特徴の作成、プロット、さらにはモデルの構築に関するコードブロックを生成することができます。また、.sketch.apply
を使用して、フィールドの解析、新しい特徴の生成など、より高度なデータ生成タスクを実行することも可能です。
Sketchは、効率的な近似アルゴリズム(データスケッチ)を使用してデータを迅速に要約し、その情報を言語モデルにフィードします。現在は、列を要約し、これらの要約統計をコード記述プロンプトの追加コンテキストとして使用しています。将来的には、これらのスケッチを直接「データ+言語」基盤モデルにフィードして、より正確な結果を得ることを目指しています。