Tóm tắt
Diffusion Language Models (DLMs) hứa hẹn phá vỡ bottleneck tuần tự của autoregressive (AR) decoding bằng cách sinh token song song. Tuy nhiên trong thực tế, DLMs liên tục thua kém AR models về chất lượng.
Nhóm nghiên cứu từ Together AI, UIUC, Princeton và Stanford lập luận rằng khoảng cách này xuất phát từ một vấn đề cơ bản: thiếu introspective consistency — AR models đồng thuận với những gì chúng sinh ra, còn DLMs thì không.
I-DLM (Introspective Diffusion Language Model) giải quyết vấn đề này bằng cách dùng introspective strided decoding (ISD): xác minh các token đã sinh trong khi tiến thêm các token mới — tất cả trong cùng một forward pass.
Phát hiện chính
- I-DLM-8B là DLM đầu tiên đạt chất lượng ngang bằng AR counterpart cùng kích thước
- Vượt trội LLaDA-2.1-mini (16B) với chỉ nửa số tham số:
- +26 điểm trên AIME-24 (69.6 vs 43.3)
- +15 điểm trên LiveCodeBench-v6 (45.7 vs 30.4)
- Throughput 2.9–4.1x so với LLaDA-2.1-mini ở high concurrency
- Với gated LoRA: tăng tốc bit-for-bit lossless (kết quả giống hệt base AR model)
Ba bottleneck mà I-DLM giải quyết
1. Introspective consistency thấp: DLMs hiện tại (SDAR) chỉ đạt 0.699; I-DLM đạt 0.984
2. Compute không hiệu quả: TiDAR tốn ~7.8x overhead; I-DLM chỉ ~2.5x
3. Infrastructure mismatch: SDAR throughput slope=84; I-DLM slope=549 — scale tốt hơn rõ rệt ở high concurrency
Phương pháp
Introspective-Consistency Training
Chuyển đổi pretrained AR models qua causal attention, logit shift, và all-masked objective. Không cần train lại từ đầu.
Introspective Strided Decoding (ISD)
Sinh N token mỗi forward pass trong khi xác minh các token trước thông qua p/q acceptance criterion. Verification và generation xảy ra đồng thời — không tốn thêm forward pass riêng.
AR-Compatible Serving
Strict causal attention cho phép tích hợp trực tiếp vào SGLang mà không cần custom infrastructure.
Ý nghĩa với Dev
Ngắn hạn: Nếu bạn đang chạy inference workloads với high concurrency (batch serving, API endpoints), DLMs với I-DLM có thể là lựa chọn cost-effective hơn. Throughput 2.9–4.1x là con số thực đo, không phải lý thuyết.
Trung hạn: I-DLM chứng minh rằng DLMs không nhất thiết phải thua kém AR về quality. Điều này mở ra cạnh tranh thực sự trong không gian model serving — nếu Together AI hoặc ai đó commercialize I-DLM, các API providers sẽ có thêm lựa chọn kiến trúc.
Dài hạn: Parallel token generation là hướng đi rõ ràng để giảm latency. Việc I-DLM giải quyết được quality gap là milestone quan trọng. Theo dõi các model releases từ HuggingFace collection của nhóm này.
Code và models: Có trên GitHub và HuggingFace, tích hợp được vào SGLang — không phải research-only.