llama-cpp-python + CUDA + Windows ビルドメモ

CUDA をインストールする。この記事ではバージョン 12.4。
https://visualstudio.microsoft.com/ja/visual-cpp-build-tools/ から Visual Studio をダウンロードして「Desktop development with C++」のみインストール
「C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtensions」にある４つのファイルを、「C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\MSBuild\Microsoft\VC\v170\BuildCustomizations」へコピペ
venv を使用しているなら venv を有効化
$env:FORCE_CMAKE='1'; $env:CMAKE_ARGS='-DGGML_CUDA=on' を実行
pip install llama-cpp-python --no-cache-dir --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124 を実行

プロンプトを embeddings に変換するサンプルコード

from llama_cpp import Llama

if __name__ == "__main__":
    try:
        # load
        llm = Llama(
            model_path="gemma-3-4b-it-Q8_0.gguf",
            n_ctx=2048,
            n_gpu_layers=-1,    # すべて GPU にロード
            embedding=True, # 埋め込み層の出力を取得するために必要
        )

        # get embedding
        embedding_object = llm.create_embedding("test")

    except Exception as e:
        print(f"エラーが発生しました: {e}")

    embedding = embedding_object['data'][0]['embedding']
    print(f'Dimension: y={len(embedding)}, x={len(embedding[0])}')

外部リンク

llama-cpp-python