llama-cpp-python + CUDA + Windows ビルドメモ
カテゴリ:deeplearning
- CUDA をインストールする。この記事ではバージョン 12.4。
- https://visualstudio.microsoft.com/ja/visual-cpp-build-tools/ から Visual Studio をダウンロードして「Desktop development with C++」のみインストール
- 「C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtensions」 にある4つのファイルを、「C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\MSBuild\Microsoft\VC\v170\BuildCustomizations」へコピペ
- venv を使用しているなら venv を有効化
- $env:FORCE_CMAKE='1'; $env:CMAKE_ARGS='-DGGML_CUDA=on' を実行
- pip install llama-cpp-python --no-cache-dir --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124 を実行
プロンプトを embeddings に変換するサンプルコード
from llama_cpp import Llama
if __name__ == "__main__":
try:
# load
llm = Llama(
model_path="gemma-3-4b-it-Q8_0.gguf",
n_ctx=2048,
n_gpu_layers=-1, # すべて GPU にロード
embedding=True, # 埋め込み層の出力を取得するために必要
)
# get embedding
embedding_object = llm.create_embedding("test")
except Exception as e:
print(f"エラーが発生しました: {e}")
embedding = embedding_object['data'][0]['embedding']
print(f'Dimension: y={len(embedding)}, x={len(embedding[0])}')