RL Data Infrastructure

RL data that makes models think harder

We build high-quality reinforcement learning datasets — from code reasoning and competitive programming to multimodal tasks. Every sample is verifiable, every reward signal is grounded.

Get in touch Learn more

What we deliver

End-to-end RL data pipelines — from problem curation to verified reward signals.

Code RL & OJ Datasets

Competitive programming problems with verified test cases, automated judging, and outcome-based reward signals. Built on our own online judge infrastructure.

Reasoning & Math

Chain-of-thought datasets for mathematical reasoning, proof generation, and logical deduction. Ground-truth verifiable outputs for reliable reward modeling.

Multimodal & Embodied

Vision-language pairs, spatial reasoning tasks, and embodied action sequences. Expanding into robotics and real-world interaction data.

RLHF & Preference Data

Human preference rankings, comparison pairs, and reward model training sets. Scalable annotation pipelines with expert labelers.

Data domains

Currently focused on code & reasoning. Expanding across every modality.

Code RL Competitive Programming Math Olympiad Reasoning Chains RLHF Preference Instruction Tuning Multimodal Embodied Intelligence Multilingual