MinecraftVLA: Vision-Language-Action Model for Playing Minecraft

Replicated Lumine paper from ByteDance training recipe on Minecraft, created stage 1/2/3 datasets by using the same training phases recipe from Lumine using Qwen3.

MinecraftVLA Training

Datasets:

minecraft-vla-stage1
minecraft-vla-stage2
minecraft-vla-stage3