Skip to content
tinAI
Go back

Laguna XS.2 và Laguna M.1: Poolside ship coding model open-weight đầu tiên

Bài gốc: Laguna XS.2 and M.1: A Deeper Dive

Tác giả: Poolside

Ngày đăng: Dịch ngày:

TL;DR

Poolside (lab vốn focus public sector + air-gapped) lần đầu release open-weight: Laguna XS.2 33B-A3B (Apache 2.0) đạt SWE-bench Verified 68.2 / Pro 44.5, ngang Qwen3.5 35B-A3B và vượt Devstral Small 2. Laguna M.1 225B-A23B train from scratch trên 30T token với Muon optimizer (-15% step so với AdamW) và async on-policy RL. Cả hai có Day-1 TensorRT-LLM, NVFP4 cho Blackwell, free trial qua API + OpenRouter + Ollama.

Có gì mới

Poolside ship hai model đầu tiên trong family Laguna, cùng agent runtime mà họ dùng nội bộ để train + operate agent.

Cả hai free trong thời gian giới hạn qua API và OpenRouter. Laguna XS.2 weight available dưới Apache 2.0.

Vị trí của Poolside

Lab này lâu nay focus vào government + public sector — họ build model cho môi trường air-gapped và high-security. Đây là lần đầu họ ship cho cộng đồng wider, và là lần đầu ship open-weight.

Định hướng: agent capable hơn → coding capability + long-horizon task. Họ argue tool calling là transitional pattern, vì code là interface expressive hơn nhiều — agent viết và execute code có thể compose action, parallelize work, build ad-hoc system.

Spec model

Laguna M.1

Benchmark vs các model lớn:

Laguna M.1Devstral 2 (123B dense)GLM-4.7 (355B-A32B)DeepSeek-V4-Flash (284B-A13B)Qwen3.5 (397B-A17B)Claude Sonnet 4.6
SWE-bench Verified72.572.273.879.076.279.6
SWE-bench Multilingual67.361.366.773.369.3-
SWE-bench Pro46.9--52.650.9-
Terminal-Bench 2.040.732.641.056.952.559.1

Laguna XS.2 (open-weight)

Laguna XS.2Devstral Small 2 (24B)Gemma 4 (31B)Qwen3.5 (35B-A3B)Qwen3.6 (35B-A3B)Claude Haiku 4.5GPT-5.4 Nano
SWE-bench Verified68.268.052.069.273.473.3-
SWE-bench Multilingual62.455.751.760.367.2--
SWE-bench Pro44.5-35.744.649.539.552.4
Terminal-Bench 2.030.122.542.940.551.529.846.3

Reading benchmark: Laguna XS.2 ngang Qwen3.5 35B-A3B trên SWE-bench Verified và Pro, vượt Devstral Small 2. Nhưng Terminal-Bench 2.0 chỉ 30.1 — thua xa Claude Sonnet 4.6 (59.1) và DeepSeek-V4-Flash (56.9). Reading: Laguna mạnh ở patch-style task (SWE-bench), chưa phải shell agent generic (Terminal-Bench).

Architecture quyết định kỹ thuật

Data pipeline + AutoMixer

Total 30T token. Web data curation treat như joint optimization của quality + diversity — không chỉ keep top-quality (vì biased toward STEM/reasoning) mà retain mid- và lower-quality buckets để preserve diversity.

AutoMixer: framework để optimize data mixture. Mỗi run train ~60 proxy model trên data mix khác nhau, đo performance trên capability group (code, math, STEM, common sense), fit surrogate regressor để approximate tác động của tỷ lệ dataset đến downstream eval. Inspired by Olmix, MDE, RegMix.

Learning signal recovered: code performance driven mạnh bởi synthetic + curated code source, web data hurt nó. Math benefit từ diverse web math. STEM correlate với academic/educational text.

Synthetic data: ~13% final mix cho Laguna XS.2, ~4.4T+ synthetic token cho cả family. Spectrum giữa seed-heavy (reshape content qua format Q&A, list, dialogue) và pipeline-heavy (feature extraction + recomposition).

Muon optimizer

All training stage dùng distributed implementation của Muon. Initial pre-training ablation: cùng training loss với AdamW baseline trong 15% step ít hơn, evaluation uplift lớn ở final model, learning rate transfer được giữa các scale.

Muon naive có compute overhead lớn (Newton-Schulz orthogonalization). Implementation của Poolside assign mỗi parameter và gradient cho 1 rank, gather full param/grad trên rank đó, do Newton-Schulz, redistribute orthogonalized gradient shard về các rank khác. Overlapped batched communication với Newton-Schulz computation.

Kết quả: trong pre-training của Laguna M.1, overhead optimizer dưới 1% training step time.

Benefit thêm: Muon chỉ cần 1 state per parameter (vs AdamW 2) → checkpoint nhỏ hơn, save/load nhanh hơn.

Hash check chống silent data corruption

Update và compute replicated qua DDP rank → có periodic hash check trên model weight để assert mọi replica hold cùng weight. Mục đích chính: catch silent data corruption từ GPU defective (lỗi origin trong arithmetic logic + pipeline register, không được ECC bảo vệ như DRAM/SRAM). Cũng catch race condition + collective communication bug + replica divergence.

Async on-policy RL

Fully async online RL system, dùng agentic harness của họ inside training loop, chạy cross task end-to-end SE + terminal + tool-integrated reasoning thật.

Loop: trainer publish checkpoint mới → deploy lên inference cluster → actor pull task từ dataset, spin up sandboxed container, chạy production agent binary với fresh model → trajectory được score, filter, write vào Iceberg table → trainer consume continuous, produce next checkpoint.

Weight transfer custom qua GPUDirect RDMA: transfer hàng trăm GB weight trong vài giây. Cho Laguna M.1, BF16 weight transfer giữa training và inference trong <5s cross-node.

Token-in token-out actor: token ID preserved qua nhiều agentic turn trong cả trajectory, tránh re-tokenization mismatch — vấn đề common gây off-policy.

Dùng variant của CISPO algorithm cho off-policy stability. Run RL maintain stability nhiều ngày training, không cần technique bổ sung như entropy regularization.

Cách sử dụng

Dev nên quan tâm vì…

  1. Nếu deploy on-prem / air-gapped: Laguna XS.2 (Apache 2.0, NVFP4) là option mới ngoài Qwen / Llama — đặc biệt build cho high-security environment.
  2. Nếu compare với Qwen3.5 35B-A3B: số liệu rất sát (SWE-bench Verified 68.2 vs 69.2). Khác biệt lớn nhất: Laguna có Day-1 TensorRT-LLM optimization và NVFP4 build cho Blackwell.
  3. Nếu task là patch generation kiểu SWE-bench: Laguna XS.2 competitive. Nếu task là shell agent (Terminal-Bench style), Qwen3.6 hoặc Claude Haiku 4.5 vẫn lead — chưa thay được.
  4. Nếu interested kỹ thuật train: Muon optimizer (15% fewer step), async on-policy RL với weight transfer <5s, AutoMixer cho data mix, hash check cho SDC — đều là pattern reusable cho team self-host training.

Read Original (EN) Quay lại Newsletter