Weave with TypeScript クイックスタートガイド
W&B Weave を TypeScript で使用すると、以下のことが可能になります。- 言語モデルの入力、出力、および トレース のログ記録とデバッグ
- 言語モデルのユースケースに対する、厳密で公平な 評価 (Evaluations) の構築
- 実験から 評価 、プロダクションに至るまでの LLM ワークフロー全体で生成されるすべての情報の整理
関数のトラッキング
TypeScript コードで Weave を使用するには、新しい Weave プロジェクトを初期化し、トラッキングしたい関数にweave.op ラッパーを追加します。
weave.op を追加して関数を呼び出した後、W&B ダッシュボードにアクセスすると、プロジェクト内でトラッキングされていることが確認できます。
コードは自動的にトラッキングされます。UI のコードタブを確認してください。
OpenAI インテグレーション
Weave は、以下を含むすべての OpenAI 呼び出しを自動的にトラッキングします。- トークン使用量
- API コスト
- リクエスト/レスポンスのペア
- モデル設定
OpenAI に加えて、Weave は Anthropic や Mistral などの他の LLM プロバイダーの自動ログ記録もサポートしています。全リストについては、インテグレーションドキュメントの LLM プロバイダー を参照してください。
入れ子になった関数のトラッキング
Weave を使用すると、複数のトラッキング対象関数と LLM 呼び出しを組み合わせることで、実行 トレース 全体を保持しながら複雑なワークフローをトラッキングできます。これには以下の利点があります。- アプリケーションのロジックフローを完全に可視化
- 複雑なオペレーションチェーンのデバッグが容易
- パフォーマンス最適化の機会の特定
データセット管理
weave.Dataset クラスを使用して、Weave で Datasets を作成・管理できます。Weave Models と同様に、weave.Dataset は以下のことに役立ちます。
- データのトラッキングとバージョニング
- テストケースの整理
- チームメンバー 間での Datasets の共有
- 体系的な 評価 の実行
評価フレームワーク
Weave はEvaluation クラス による評価駆動開発をサポートしています。評価 (Evaluations) は、GenAI アプリケーションを確実に反復改善するのに役立ちます。Evaluation クラスは以下のことを行います。
Datasetに対するModelのパフォーマンスを測定- カスタムスコアリング関数の適用
- 詳細なパフォーマンス レポート の生成
- モデル バージョン 間の比較を可能にする
main 関数は、すべてのデモンストレーションを実行します。