Skip to content
tinAI
Go back

I-DLM: Mô hình ngôn ngữ diffusion có khả năng tự kiểm tra

Bài gốc: I-DLM: Introspective Diffusion Language Models

Tác giả: Yifan Yu et al. (Together AI, UIUC, Princeton, Stanford)

Ngày đăng: Dịch ngày:

TL;DR

I-DLM là diffusion language model đầu tiên đạt chất lượng ngang mô hình autoregressive cùng kích thước, với throughput cao hơn 2.9-4.1x. Kỹ thuật cốt lõi: introspective strided decoding — generate N token mới và verify token cũ trong cùng một forward pass.

Vấn đề với Diffusion Language Models hiện tại

Diffusion language models (DLM) có một promise hấp dẫn: generate toàn bộ output từ noise rồi refine dần, thay vì generate token từ trái sang phải như autoregressive (AR) models. Về lý thuyết điều này cho phép parallelize hoàn toàn và tăng tốc đáng kể.

Thực tế? DLM hiện tại consistently tệ hơn AR models về chất lượng.

Tác giả cho rằng nguyên nhân là thiếu introspective consistency: AR models “đồng ý” với những gì chúng generate vì generation và verification xảy ra trong cùng một forward pass. DLM thì không — chúng học denoise nhưng không học introspect.

Ba bottleneck cụ thể:

  1. Low introspective consistency: DLM sinh token nhưng không verify lại — SDAR đạt 0.699, I-DLM đạt 0.984
  2. Compute inefficiency: các approach verify cũ tốn ~7.8x overhead so với I-DLM chỉ ~2.5x
  3. Infrastructure mismatch: DLM cũ không tận dụng được continuous batching và paged KV cache

Giải pháp: Introspective Strided Decoding (ISD)

Introspective-Consistency Training

Convert pretrained AR model thành I-DLM:

Introspective Strided Decoding

Trong mỗi forward pass:

AR-Compatible Serving

Strict causal attention cho phép tích hợp trực tiếp vào SGLang — không cần custom infrastructure:

Kết quả

I-DLM-8B là DLM đầu tiên match chất lượng AR model cùng kích thước:

BenchmarkQwen3-8B (AR)LLaDA-2.1-mini (DLM 16B)I-DLM-8B
AIME-2473.143.369.6
MATH-50095.885.096.8
HumanEval95.186.093.3
MMLU83.574.582.4
LiveCodeBench-v650.330.445.7

I-DLM-8B vượt trội LLaDA-2.1-mini (16B, gấp đôi parameters) +26 điểm trên AIME-24 và +15 điểm trên LiveCodeBench-v6.

Throughput so với LLaDA-2.1-mini tại batch size C=64: 2.9-4.1x cao hơn.

Quick Start

# Launch server
python -m sglang.launch_server \
    --model-path yifanyu/I-DLM-8B \
    --trust-remote-code --tp-size 1 --dtype bfloat16 \
    --attention-backend flashinfer --dllm-algorithm IDLMBlockN \
    --dllm-algorithm-config inference/configs/idlm_blockN4_config.yaml \
    --port 30000

# Generate
curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "default", "messages": [{"role": "user", "content": "Prove sqrt(2) is irrational"}], "max_tokens": 4096}'

Models

ModelBaseGhi chú
yifanyu/I-DLM-8BQwen3-8BModel chính, match AR quality
yifanyu/I-DLM-32BQwen3-32BVượt LLaDA-2.1-flash (100B)
yifanyu/I-DLM-8B-lora-r128Qwen3-8BLossless variant (bit-for-bit identical với AR)

Tất cả models cần trust_remote_code=True.

Tại sao Dev nên quan tâm

Nếu inference latency là bottleneck — đặc biệt ở high concurrency (batch size lớn) — I-DLM là hướng đáng thử nghiệm. Không cần custom infrastructure: tích hợp trực tiếp vào SGLang giống AR models. Lossless variant (R-ISD với gated LoRA) cho output bit-for-bit giống base AR model — không có quality tradeoff.


Read Original (EN) Quay lại Newsletter