llama-cpp-python + CUDA + Windows ビルドメモ
カテゴリ:deeplearning
- CUDA をインストールする。この記事ではバージョン 12.4。
- https://visualstudio.microsoft.com/ja/visual-cpp-build-tools/ から Visual Studio をダウンロードして「Desktop development with C++」のみインストール
- 「C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtensions」 にある4つのファイルを、「C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\MSBuild\Microsoft\VC\v170\BuildCustomizations」へコピペ
- venv を使用しているなら venv を有効化
- $env:FORCE_CMAKE='1'; $env:CMAKE_ARGS='-DGGML_CUDA=on' を実行
- pip install llama-cpp-python --no-cache-dir --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124 を実行
プロンプトを embeddings に変換するサンプルコード
from llama_cpp import Llama if __name__ == "__main__": try: # load llm = Llama( model_path="gemma-3-4b-it-Q8_0.gguf", n_ctx=2048, n_gpu_layers=-1, # すべて GPU にロード embedding=True, # 埋め込み層の出力を取得するために必要 ) # get embedding embedding_object = llm.create_embedding("test") except Exception as e: print(f"エラーが発生しました: {e}") embedding = embedding_object['data'][0]['embedding'] print(f'Dimension: y={len(embedding)}, x={len(embedding[0])}')