add AWQ quantization script (llm-compressor)

2026-06-01 04:15:15 +02:00
parent 26e776db71
commit 0fa46c9fed
1 changed files with 49 additions and 0 deletions
@@ -0,0 +1,49 @@
 """AWQ quantization via llm-compressor.
 Run in .venv-quant (llmcompressor + transformers 4.57.6).
 Uses domain calibration data from substrate_v5.jsonl.
 """
 import json
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from llmcompressor.modifiers.quantization import QuantizationModifier
 from llmcompressor import oneshot
 MODEL = "/workspace/substrate-qwen36-27b-merged"
 OUTPUT = "/workspace/substrate-qwen36-27b-awq"
 CALIB_DATA = "/workspace/substrate_v5.jsonl"
 print("Loading tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
 print("Loading model...")
 model = AutoModelForCausalLM.from_pretrained(
    MODEL, torch_dtype=torch.float16, device_map="auto"
 )
 # Domain calibration from training data
 print("Loading calibration data...")
 with open(CALIB_DATA) as f:
    calib = [json.loads(line)["text"] for line in f][:128]
 print(f"Calibration samples: {len(calib)}")
 recipe = QuantizationModifier(
    targets="Linear",
    scheme="W4A16",
    ignore=["lm_head"],
 )
 print("Running AWQ quantization...")
 oneshot(
    model=model,
    tokenizer=tokenizer,
    dataset=calib,
    recipe=recipe,
    output_dir=OUTPUT,
    max_seq_length=2048,
    num_calibration_samples=len(calib),
 )
 print(f"Done! Output: {OUTPUT}")