Cerebras

Gemma 4 31B runs at over 1,800 tokens per second on Cerebras Inference. This is the world’s fastest multimodal model. >>

Performance comparisons are based on third-party benchmarking or internal testing. Observed inference speed improvements versus GPU-based systems may vary depending on workload, configuration, date and models being tested.

info@cerebras.ai

1237 E. Arques Ave  Sunnyvale, CA 94085

© 2026 Cerebras.
All rights reserved.

Cerebras