ドキュメント

コアコンセプト

Schift は Schift Embed 1 の標準経路と migration-first のベクトル変換経路を分けて、それぞれの責務を明確にしています。

異なる埋め込みモデルのベクトルは、そのままでは互換ではありません。次元数が同じでも、モデルが変われば幾何構造が変わります。

2 つのプロダクトサーフェス

サーフェス主なオブジェクト用途
Schift Embed 1 の標準経路Schift, catalog, embed, db, query, usage新規埋め込み呼び出し、ホストコレクション、canonical space 検索
migration-first ランタイムClient, Projection, migrate(), adapters生テキストを再埋め込みせずに projection を学習し、保存済みベクトルを書き換える

Projection matrix

textsource vectors (N, src_dim)
        -> learned matrix W (src_dim, tgt_dim)
        -> projected vectors (N, tgt_dim)

Schift は両モデルで埋め込んだペアサンプルから W を学習します。本番移行では既存ベクトルへの行列積だけで処理できます。

アダプタパイプライン

textAdapter(source store)
        -> Projection.transform(batch.embeddings)
        -> Adapter(sink store)
項目一般的な範囲
必要なペアサンプル数500-2,000
対応する移行形状1536->768, 3072->1024 など
実行コスト1 ベクトルあたりサブミリ秒
大量の元テキスト不要

運用メモ

Projection は brownfield 経路で、Schift Embed 1 は greenfield の標準経路です。どちらも同じ canonical space に入ります。