Sparse Experts

LLaMA 4 Maverick 17B 128E (Original)

Meta’s experimental ultra-sparse MoE model with 128 experts, designed to explore efficient large-scale scaling and routing strategies for future LLaMA architectures.