NEW HERE — WHAT TEAHOSE DOES

We read the entire AI & tech firehose — so you don't have to.

HOW IT WORKS →

PODPodcasts

NEWNewsletters

PAPPapers

PHProduct Hunt

VCInvestor Scout

7 reads, 30 sec each — free, 6 AM ET.

+ a live graph of the companies, people & themes underneath.

NEW HERE — WHAT TEAHOSE DOES

We read the entire AI & tech firehose — so you don't have to.

PODPodcastsAll-In, No Priors, Acquired…

NEWNewslettersStratechery, Newcomer…

PAPPapersPhysical AI research

PHProduct Huntdaily launches

VCInvestor ScoutSequoia, a16z, Benchmark…

CLAUDE DISTILLS →

7 reads, 30 sec each — free, 6 AM ET.

+ a live graph of the companies, people & themes underneath.

HOME/ARXIV PHYSICAL AI

PAPR

arXiv Physical AI

PAPERS 212LATEST JUL 30, 2026HOST YUKANG CAO, ZIWEI LIU, ET AL. (ARXIV PHYSICAL AI)

Topics covered

Physical AI Robotics Robot Manipulation Deep Learning Sim-to-Real Transfer Reinforcement Learning Vision-Language Models Imitation Learning AI Agents Humanoid Robots Product & Design World Models

ACE-Data-0: Human-Centric Ambient Capture as Embodied Data Engine

YUKANG CAO, ZIWEI LIU, ET AL. (ARXIV PHYSICAL AI)

FA-RDP: A Frequency-Adaptive Reactive Diffusion Policy for Contact-Rich Manipulation

LIFENG ZHUO, CHUAN WEN, ET AL. (ARXIV PHYSICAL AI)

FasTac: A Curved Multispectral Vision-Based Tactile Sensor for High-Speed High-Precision 3D Shape and Force Perception

XIAOFAN LU, ZHOUPING YIN, ET AL. (ARXIV PHYSICAL AI)

PAC-MAN: Perception-Aware CBF-RL for Whole-Body Safety in Humanoid Dodgeball

LIZHI YANG, JUNHENG LI, AARON D. AMES

ContactFlow: A video action conditioning that transfers across embodiments

SAMI AZIRAR, HERMANN BLUM, ET AL. (ARXIV PHYSICAL AI)

TurboVLA: Real-Time Vision-Language-Action Model at 32 Hz on an RTX 4090 with <1 GB VRAM

HENGYI XIE, HAN DING, ET AL. (ARXIV PHYSICAL AI)

Reeling It In: Flexible Needle Pick Up via Thread Manipulation for Autonomous Suturing

EMMA HUANG, MICHAEL C. YIP, ET AL. (ARXIV PHYSICAL AI)

Transformer Transformer: A Unified Model for Motion-Conditioned Robot Co-design

HUY HA, C. KAREN LIU, SHURAN SONG

πR2: Reactive Real-time Flow Policies

SUNGJAE PARK, SHUBHAM TULSIANI

Data Pyramid for Embodied Manipulation

YIFAN YE, SHANGHANG ZHANG, ET AL. (ARXIV PHYSICAL AI)

Drop-Then-Recovery: How Redundant Are Vision-Language-Action Models?

GUOHENG SUN, ANG LI, ET AL. (ARXIV PHYSICAL AI)

WOLF-VLA: Whole-Body Humanoid Optimal Locomotion Framework for Vision-Language-Action Learning

MELYA BOUKHEDDIMI, FRANK KIRCHNER, ET AL. (ARXIV PHYSICAL AI)

DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation

TAIYI SU, YI XU, ET AL. (ARXIV PHYSICAL AI)

N0-TWAM: Scaling Tactile-Native World-Action Model for Contact-Rich Manipulation

NEOTEAI TEAM, FUDAN TEAI TEAM

N0-VTLA: Scaling Vision-Tactile-Language-Action Model with Latent Tactile Tokens

NEOTEAI TEAM, FUDAN TEAI TEAM

AXIS: A Growable Community-Driven Data Engine for Scalable Robot Manipulation

MENGFEI ZHAO, JIACHEN LI, ET AL. (ARXIV PHYSICAL AI)

Xiaomi-Robotics-1: Scaling Vision-Language-Action Models with over 100K Hours of Real-World Trajectories

XIAOMI ROBOTICS TEAM JUN GUO, QUANYUN ZHOU, ET AL. (ARXIV PHYSICAL AI)

Closing the Lab-to-Store Gap: A Data-Efficient Post-Training and Experience-Driven Learning VLA Framework for Retail Humanoids

ROGER SALA SISÓ, TRAN NGUYEN LE, ET AL. (ARXIV PHYSICAL AI)

Exp2VLA: Enabling Vision-Language-Action for Drone Navigation from Expert Demonstrations

V. DANG, ERDAL KAYACAN, ET AL. (ARXIV PHYSICAL AI)

FELT: Generating Tactile Signals from Vision for Visuo-Tactile Manipulation

ZINAN LI, DANIEL SEITA, ET AL. (ARXIV PHYSICAL AI)

LENS: LLM-guided Environment Simplification for Planning and Control in Clutter

AILEEN LIAO, MICHAEL POSA, ET AL. (ARXIV PHYSICAL AI)

Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation

HONGYU DING, JIEBO LUO, ET AL. (ARXIV PHYSICAL AI)

DiMaS: Distribution Matching for Steering Vision-Language-Action Models

PEGAH KHAYATAN, MATTHIEU CORD, ET AL. (ARXIV PHYSICAL AI)

Directional Constraints for Efficient Exploration in Safe Reinforcement Learning

PAOLO MAGLIANO, R. CAMORIANO, ET AL. (ARXIV PHYSICAL AI)

Masked Visual Actions for Unified World Modeling

HADI ALZAYER, JIA-BIN HUANG, ET AL. (ARXIV PHYSICAL AI)

DSWAM: A Dual-System World Action Foundation Model for Fine-Grained Robot Manipulation

JIAN ZHU, YI XU, ET AL. (ARXIV PHYSICAL AI)

Patch Policy: Efficient Embodied Control via Dense Visual Representations

GAOYUE ZHOU, LERREL PINTO, ET AL. (ARXIV PHYSICAL AI)

Handroid: Bridging Dexterous Hand and Humanoid

RUOGU LI, MINGYU DING, ET AL. (ARXIV PHYSICAL AI)

Reflex: Real-Time VLA Control through Streaming Inference

YUANCHUN GUO, BINGYAN LIU

RoboTTT: Context Scaling for Robot Policies

YUNFAN JIANG, LINXI "JIM" FAN, ET AL. (ARXIV PHYSICAL AI)

Agile perceptive multi-skill locomotion for quadrupedal robots in the wild

JUN-GILL KANG, HAE-WON PARK, ET AL. (ARXIV PHYSICAL AI)

Never Too Late for Force: Accelerating VLA Post-Training with Reactive Force Injection

YI WANG, CEWU LU, ET AL. (ARXIV PHYSICAL AI)

Worlds in One Demo: A Synthetic Data Engine for Learning Open-World Mobile Manipulation

LINGXIAO GUO, HUANYU LI, GUANYA SHI

Towards Human-level Dexterous Teleoperation

PUHAO LI, SIYUAN HUANG, ET AL. (ARXIV PHYSICAL AI)

VIA: Visual Interface Agent for Robot Control

HENGYUAN HU, DORSA SADIGH, ET AL. (ARXIV PHYSICAL AI)

VLAFlow: A Unified Training Framework for Vision-Language-Action Models via Co-training and Future Latent Alignment

GUOYANG XIA, YAN XIE, ET AL. (ARXIV PHYSICAL AI)

B-spline Policy: Accelerating Manipulation Policies via B-spline Action Representations

XIAOSHEN HAN, YILUN DU, ET AL. (ARXIV PHYSICAL AI)

DemoBridge: A Simulation-in-the-Loop Toolkit for Single-View Human Demonstration Retargeting

ZEHAO WANG, RAHAF ALJUNDI, ET AL. (ARXIV PHYSICAL AI)

AnyDexRT: Calibration-Free Dexterous Hand Retargeting with Few-Shot Human Guidance

CHENXI WANG, CEWU LU, ET AL. (ARXIV PHYSICAL AI)

ContactMimic: Humanoid Object Interaction via Contact Control

XINYAO LI, SAURABH GUPTA, ET AL. (ARXIV PHYSICAL AI)

DexVerse: A Modular Benchmark for Multi-Task, Multi-Embodiment Dexterous Manipulation

YUNCHAO YAO, MINGYU DING, ET AL. (ARXIV PHYSICAL AI)

Native Video-Action Pretraining for Generalizable Robot Control

QIHANG ZHANG, YINGHAO XU, ET AL. (ARXIV PHYSICAL AI)

Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models

HAOQI YUAN, XIONG-HUI CHEN, ET AL. (ARXIV PHYSICAL AI)

TouchWorld: A Predictive and Reactive Tactile Foundation Model for Dexterous Manipulation

JIANYI ZHOU, SHUO YANG, ET AL. (ARXIV PHYSICAL AI)

Calf-Integrated Arms for Bimanual Quadruped Loco-Manipulation

YAN PAN, CHENGXU ZHOU, ET AL. (ARXIV PHYSICAL AI)

LAMP: Latent Motion Prior-Guided Real-World Learning for Dexterous Hand Manipulation

XINYE YANG, CHAO YU, ET AL. (ARXIV PHYSICAL AI)

RynnWorld-Teleop: An Action-Conditioned World Model for Digital Teleoperation

HAOYU ZHAO, ZHONGYU LI, ET AL. (ARXIV PHYSICAL AI)

Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation

ZHE ZHAO, MENGSHI QI, ET AL. (ARXIV PHYSICAL AI)

Improving Vision-Language-Action Model Fine-Tuning with Structured Stage and Keyframe Supervision

YUAN XU, LIANG WANG, ET AL. (ARXIV PHYSICAL AI)

S2-VLA: State-Space Guided Vision-Language-Action Models for Long-Horizon Manipulation

ZHIPENG XIE, JING ZHAO, ET AL. (ARXIV PHYSICAL AI)

SILO: Simulation-in-the-Loop Sim-to-Real Transfer for Multi-Stage Cable Routing

STONE TAO, IRETIAYO AKINOLA, ET AL. (ARXIV PHYSICAL AI)

In-Context World Modeling for Robotic Control

SIYIN WANG, XIPENG QIU, ET AL. (ARXIV PHYSICAL AI)

ThinkingVLA: Interleaved Vision and Language Reasoning for Robotic Manipulation

TIANYI LU, YU-GANG JIANG, ET AL. (ARXIV PHYSICAL AI)

Decoupling the Declarative from the Procedural in Vision-Language-Action Models

NIKOLAOS TSAGKAS, ALEXANDROS KOURIS, ET AL. (ARXIV PHYSICAL AI)

CoDex: Learning Compositional Dexterous Functional Manipulation without Demonstrations

BOWEN JIANG, WILLIAM PAINTER REGER, ROBERTO MARTÍN-MARTÍN

Z-1: Efficient Reinforcement Learning for Vision-Language-Action Models

LANG CAO, YITONG LI, ET AL. (ARXIV PHYSICAL AI)

VT-WAM: Visual-Tactile World Action Model for Contact-Rich Manipulation

SHUAI TIAN, DONGBIN ZHAO, ET AL. (ARXIV PHYSICAL AI)

FurnitureVLA: Learning Long-Horizon Bimanual Furniture Assembly with Vision-Language-Action Model

CHENYANG MA, DIEGO ROMERES, ET AL. (ARXIV PHYSICAL AI)

Adapting Generalist Robot Policies with Semantic Reinforcement Learning

JAGDEEP SINGH BHATIA, SERGEY LEVINE, ET AL. (ARXIV PHYSICAL AI)

Human-as-Humanoid: Enabling Zero-Shot Humanoid Learning from Ego-Exo Human Videos with Human-Aligned Embodiments

XIAOPENG LIN, KAI CHEN, ET AL. (ARXIV PHYSICAL AI)

SPACE: Enabling Learning from Cross-Robot Data Toward Generalist Policies

HAEONE LEE, KIMIN LEE, ET AL. (ARXIV PHYSICAL AI)

TactX: Learning Shared Tactile Representations Across Diverse Sensors

JUNSUNG PARK, XIAOLONG WANG, ET AL. (ARXIV PHYSICAL AI)

VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes

YEN-JEN WANG, KAREN LIU, ET AL. (ARXIV PHYSICAL AI)

DexCompose: Reusing Dexterous Policies for Multi-Task Manipulation with a Single Hand

DIHONG HUANG, MINGYU DING, ET AL. (ARXIV PHYSICAL AI)

SimFoundry: Modular and Automated Scene Generation for Policy Learning and Evaluation

NADUN RANAWAKA, YUKE ZHU, ET AL. (ARXIV PHYSICAL AI)

Bridging Performance and Generalization in Reinforcement Learning for Agile Flight

JONATHAN GREEN, DAVIDE SCARAMUZZA, ET AL. (ARXIV PHYSICAL AI)

Humanoid-DART: Humanoid Loco-Manipulation using Diffusion-guided Augmentation through Relabeling and Tracking

PRANAV DEBBAD, MAJID KHADIV, ET AL. (ARXIV PHYSICAL AI)

Scalable Behavior Cloning with Open Data, Training, and Evaluation

ARTHUR ALLSHIRE, ANGJOO KANAZAWA, ET AL. (ARXIV PHYSICAL AI)

VibeAct: Vibration to Actions for Contact-Rich Reactive Robot Dexterity

YUEMIN MAO, JEFFREY ICHNOWSKI, ET AL. (ARXIV PHYSICAL AI)

CoStream: Composing Simple Behaviors for Generalizable Complex Manipulation

HAONAN CHEN, YILUN DU, ET AL. (ARXIV PHYSICAL AI)

ForceBand: Learning Forceful Manipulation with sEMG

BOTAO HE, YIANNIS ALOIMONOS, ET AL. (ARXIV PHYSICAL AI)

Play2Perfect: What Matters in Dexterous Play Pretraining for Precise Assembly?

TYLER GA WEI LUM, JEANNETTE BOHG, ET AL. (ARXIV PHYSICAL AI)

InSight: Self-Guided Skill Acquisition via Steerable VLAs

MAGGIE WANG, MAC SCHWAGER, ET AL. (ARXIV PHYSICAL AI)

CoorDex: Coordinating Body and Hand Priors for Continuous Dexterous Humanoid Loco-Manipulation

SIKAI LI, MINGYU DING, ET AL. (ARXIV PHYSICAL AI)

Learning What to Say to Your VLA: Mostly Harmless Vision Language Action Model Steering

HYUNDOO JEONG, GOKUL SWAMY, ANDREA V. BAJCSY

PanoVine: Whole-Body Visuomotor Control for Soft Growing Vine Robot

YIMENG QIN, ALLISON OKAMURA, ET AL. (ARXIV PHYSICAL AI)

PhysVLA: Towards Physically-Grounded VLA for Embodied Robotic Manipulation

NAMAI CHANDRA, SHRIRAM DAMODARAN, LIN WANG

SkyJEPA: Learning Long-Horizon World Models for Zero-Shot Sim-to-Real Control of Quadrotors

PRATYAKSH RAO, GIUSEPPE LOIANNO, ET AL. (ARXIV PHYSICAL AI)

HITTER: A HumanoId Table TEnnis Robot via Hierarchical Planning and Learning

ZHI SU, S. SASTRY, ET AL. (ARXIV PHYSICAL AI)

OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation

YINGDONG HU, YANG GAO, ET AL. (ARXIV PHYSICAL AI)

Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems

YANDONG WANG, CHAO ZHANG, ET AL. (ARXIV PHYSICAL AI)

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

WENLI XIAO, GUANYA SHI, ET AL. (ARXIV PHYSICAL AI)

Generating Robot Hands from Human Demonstrations

SHA YI, XIAOLONG WANG, ET AL. (ARXIV PHYSICAL AI)

Pose6DAug: Physically Plausible Multi-view Object Swapping for Robot Data Augmentation

JONGHOON LEE, JINWOO SHIN, ET AL. (ARXIV PHYSICAL AI)

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

BHAWNA PALIWAL, JITENDRA MALIK, ET AL. (ARXIV PHYSICAL AI)

Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement

KINAM KIM, YASUYUKI MATSUSHITA, ET AL. (ARXIV PHYSICAL AI)

TactSpace: Learning a Physics-enriched Shared Latent Space for Tactile Sim-to-Real Transfer

ARUNIM JOARDER, MARCO HUTTER, ET AL. (ARXIV PHYSICAL AI)

Kairos: A Native World Model Stack for Physical AI

KAIROS TEAM, XIAOGANG WANG, ET AL. (ARXIV PHYSICAL AI)

T-Rex: Tactile-Reactive Dexterous Manipulation

DANTONG NIU, TREVOR DARRELL, ET AL. (ARXIV PHYSICAL AI)

What Matters in Orchestrating Robot Policies: A Systematic Study of Hierarchical VLA Agents

JIAHENG HU, ANNIE XIE, ET AL. (ARXIV PHYSICAL AI)

Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

HE ZHANG, ZHENGYOU ZHANG, ET AL. (ARXIV PHYSICAL AI)

Improving Robotic Generalist Policies via Flow Reversal Steering

ANDY TANG, SERGEY LEVINE, ET AL. (ARXIV PHYSICAL AI)

Mana: Dexterous Manipulation of Articulated Tools

ZHAO-HENG YIN, C. KAREN LIU, ET AL. (ARXIV PHYSICAL AI)

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

ARNAV KUMAR JAIN, ANDREA BAJCSY, ET AL. (ARXIV PHYSICAL AI)

WT-UMI: Tactile-based Whole-Body Manipulation via Force-Supervised Contact-Aware Planning

JAEHWI JANG, YE ZHAO, ET AL. (ARXIV PHYSICAL AI)

CHORUS: Decentralized Multi-Embodiment Collaboration with One VLA Policy

RIA DOSHI, JEANNETTE BOHG, ET AL. (ARXIV PHYSICAL AI)

FACTR 2: Learning External Force Sensing for Commodity Robot Arms Improves Policy Learning

STEVEN OH, DEEPAK PATHAK, ET AL. (ARXIV PHYSICAL AI)

IMPACT: Learning Internal-Model Predictive Control for Forceful Robotic Manipulation

JIAWEI GAO, YILUN DU, ET AL. (ARXIV PHYSICAL AI)

TacForeSight: Force-Guided Tactile World Model for Contact-Rich Manipulation

YUJIE ZANG, WENCHAO DING, ET AL. (ARXIV PHYSICAL AI)

MotionWAM: Towards Foundation World Action Models for Real-Time Humanoid Loco-Manipulation

JIA ZHENG, JUNWEI LIANG, ET AL. (ARXIV PHYSICAL AI)

OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

ZEHAO YU, XUELONG LI, ET AL. (ARXIV PHYSICAL AI)

LARA: Latent Action Representation Alignment for Vision-Language-Action Models

MENGYA LIU, SIYUAN HUANG, ET AL. (ARXIV PHYSICAL AI)

Shield-Loco: Shielding Locomotion Policies with Predictive Safety Filtering

ADITYA SHIRWATKAR, MAJID KHADIV, ET AL. (ARXIV PHYSICAL AI)

OneVLA: A Unified Framework for Embodied Tasks

LINGFENG ZHANG, WENBO DING, ET AL. (ARXIV PHYSICAL AI)

ProGAL-VLA: Grounded Alignment through Prospective Reasoning in Vision-Language-Action Models

NASTARAN DARABI, A. TRIVEDI

FlowPRO: Reward-Free Reinforced Fine-Tuning of Flow-Matching VLAs via Proximalized Preference Optimization

YIHAO WU, ZHENGYOU ZHANG, ET AL. (ARXIV PHYSICAL AI)

GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

TIANYI XIE, YE YUAN, ET AL. (ARXIV PHYSICAL AI)

ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models

YE LI, ZHI WANG, ET AL. (ARXIV PHYSICAL AI)

Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

ZEKUN QI, LI YI, ET AL. (ARXIV PHYSICAL AI)

NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation

NVIDIA, ZIAN WANG, ET AL. (ARXIV PHYSICAL AI)

RDGen: Demonstration Generation for High-Quality Robot Learning via Reinforcement Learning

ZIJIA ZHU, XINHAI SUN, ET AL. (ARXIV PHYSICAL AI)

Colosseum V2: Benchmarking Generalization for Vision Language Action Models

JEREMY MORGAN, ISHIKA SINGH, ET AL. (ARXIV PHYSICAL AI)

VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models

SHENGYUN SI, YU-GANG JIANG, ET AL. (ARXIV PHYSICAL AI)

How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning

BOSUNG KIM, PRITHVIRAJ AMMANABROLU, ET AL. (ARXIV PHYSICAL AI)

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

ZHONGXI CHEN, WENZHAO LIAN, ET AL. (ARXIV PHYSICAL AI)

EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models

PERRY DONG, CHELSEA FINN, ET AL. (ARXIV PHYSICAL AI)

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

XINTONG HU, TAO YU, ET AL. (ARXIV PHYSICAL AI)

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

QIUYUE WANG, XIONGHUI CHEN, ET AL. (ARXIV PHYSICAL AI)

VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

MINGJIAN GAO, YUETING ZHUANG, ET AL. (ARXIV PHYSICAL AI)

Beyond Binary: Sim-to-Real Dexterous Manipulation with Physics-Grounded Contact Representation

JIAHE PAN, TORU LIN, ET AL. (ARXIV PHYSICAL AI)

Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation

PENGHUA REN, KAIYANG CHEN, ET AL. (ARXIV PHYSICAL AI)

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation

ZHENYU ZHAO, YUE WANG, ET AL. (ARXIV PHYSICAL AI)

RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning

PABLO ORTEGA-KRAL, JEAN OH, ET AL. (ARXIV PHYSICAL AI)

GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

XIAOSONG JIA, YU-GANG JIANG, ET AL. (ARXIV PHYSICAL AI)

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

ZIXING LEI, SIHENG CHEN, ET AL. (ARXIV PHYSICAL AI)

Factored Diffusion Policies:Compositionally Generalized Robot Control with a Single Score Network

SAYAN MITRA, ABHISHEK PAI, ET AL. (ARXIV PHYSICAL AI)

Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

JIAHE CHEN, JINGBO WANG, ET AL. (ARXIV PHYSICAL AI)

Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving

LIJIN YANG, HAO YANG, ET AL. (ARXIV PHYSICAL AI)

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

YUPENG ZHENG, WENCHAO DING, ET AL. (ARXIV PHYSICAL AI)

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

ISMAIL GELES, DAVIDE SCARAMUZZA, ET AL. (ARXIV PHYSICAL AI)

PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction

SHIZHE CHEN, PAUL PACAUD, CORDELIA SCHMID

MolmoAct2: Action Reasoning Models for Real-world Deployment

HAOQUAN FANG, RANJAY KRISHNA, ET AL. (ARXIV PHYSICAL AI)

StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

YIYANG FU, DAQUAN ZHOU, ET AL. (ARXIV PHYSICAL AI)

TacSE3: Equivariant SE(3) Motion Estimation from Low-Texture Visuotactile Images for In-Gripper Tracking and Compensation

ZHONGYUAN LIAO, MICHAEL YU WANG, ET AL. (ARXIV PHYSICAL AI)

Do World Action Models Generalize Better than VLAs? A Robustness Study

ZHANGUANG ZHANG, YINGXUE ZHANG, ET AL. (ARXIV PHYSICAL AI)

VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model

WENHAO LI, CHANG XU, ET AL. (ARXIV PHYSICAL AI)

Offline Semantic Guidance for Efficient Vision-Language-Action Policy Distillation

JIN SHI, BRADY ZHANG, YISHUN LU

RLDX-1 Technical Report

DONGYOUNG KIM, JINWOO SHIN, ET AL. (ARXIV PHYSICAL AI)

CoCo-InEKF: State Estimation with Learned Contact Covariances in Dynamic, Contact-Rich Scenarios

MICHAEL BAUMGARTNER, MORITZ BÄCHER, ET AL. (ARXIV PHYSICAL AI)

Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

JIAHUI NIU, HUAWEI LI, ET AL. (ARXIV PHYSICAL AI)

What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

YUANFANG PENG, RUI WANG, ET AL. (ARXIV PHYSICAL AI)

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

WILLIAM SHEN, TOM'AS LOZANO-P'EREZ, ET AL. (ARXIV PHYSICAL AI)

$\Delta$VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

YIJIE ZHU, ZITONG YU, ET AL. (ARXIV PHYSICAL AI)

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

YI WANG, JIANLAN LUO, ET AL. (ARXIV PHYSICAL AI)

DOT-Sim: Differentiable Optical Tactile Simulation with Precise Real-to-Sim Physical Calibration

YANG YOU, LEONIDAS GUIBAS, ET AL. (ARXIV PHYSICAL AI)

FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems

BINGHAO HUANG, YUNZHU LI

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

HAO CHEN, PHENG-ANN HENG, ET AL. (ARXIV PHYSICAL AI)

MotuBrain: An Advanced World Action Model for Robot Control

MOTUBRAIN TEAM, JUN ZHU, ET AL. (ARXIV PHYSICAL AI)

RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

TIM MISSAL, PAULA DORNHOFER PARO COSTA, ET AL. (ARXIV PHYSICAL AI)

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

JUN GUO, HUAPING LIU, ET AL. (ARXIV PHYSICAL AI)

RedVLA: Physical Red Teaming for Vision-Language-Action Models

YUHAO ZHANG, JIAMING JI, ET AL. (ARXIV PHYSICAL AI)

dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

YAXUAN LI, YICHEN ZHU, ET AL. (ARXIV PHYSICAL AI)

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

ADRIANA AIDA, PAVAN UPPUTURI, ET AL. (ARXIV PHYSICAL AI)

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

YIYANG DU, CHENYAN XIONG, ET AL. (ARXIV PHYSICAL AI)

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

BOYU CHEN, YIXIAO GE, ET AL. (ARXIV PHYSICAL AI)

AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation

YUSUKE TAKAGI, KOMEI SUGIURA, ET AL. (ARXIV PHYSICAL AI)

FLASH: Fast Learning via GPU-Accelerated Simulation for High-Fidelity Deformable Manipulation in Minutes

SIYUAN LUO, FAN SHI, ET AL. (ARXIV PHYSICAL AI)

Novel Algorithms for Smoothly Differentiable and Efficiently Vectorizable Contact Manifold Construction

ONUR BEKER, GEORG MARTIUS, ET AL. (ARXIV PHYSICAL AI)

Observing and Controlling Features in Vision-Language-Action Models

HUGO BUURMEIJER, MARCO PAVONE, ET AL. (ARXIV PHYSICAL AI)

VADF: Vision-Adaptive Diffusion Policy Framework for Efficient Robotic Manipulation

XINGLEI YU, YANWEI FU, ET AL. (ARXIV PHYSICAL AI)

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

ZIXUAN WANG, JIAYA JIA, ET AL. (ARXIV PHYSICAL AI)

DEX-Mouse: A Low-cost Portable and Universal Interface with Force Feedback for Data Collection of Dexterous Robotic Hands

JOONHO KOH, CHANGJOO NAM, ET AL. (ARXIV PHYSICAL AI)

R3D: Revisiting 3D Policy Learning

ZHENGDONG HONG, JIAYUAN GU, ET AL. (ARXIV PHYSICAL AI)

Switch: Learning Agile Skills Switching for Humanoid Robots

YUEN-FUI LAU, PING TAN, ET AL. (ARXIV PHYSICAL AI)

Vision-Based Safe Human-Robot Collaboration with Uncertainty Guarantees

JAKOB THUMM, MARCO PAVONE, ET AL. (ARXIV PHYSICAL AI)

A Mechanistic Analysis of Sim-and-Real Co-Training in Generative Robot Policies

YU LEI, YUKE ZHU, ET AL. (ARXIV PHYSICAL AI)

Learning Versatile Humanoid Manipulation with Touch Dreaming

YARU NIU, DING ZHAO, ET AL. (ARXIV PHYSICAL AI)

Simulator Adaptation for Sim-to-Real Learning of Legged Locomotion via Proprioceptive Distribution Matching

JEREMY DAO, ALAN FERN

Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

ZHILONG ZHANG, YANG YU, ET AL. (ARXIV PHYSICAL AI)

ViserDex: Visual Sim-to-Real for Robust Dexterous In-hand Reorientation

ARJUN BHARDWAJ, MARCO HUTTER, ET AL. (ARXIV PHYSICAL AI)

Sim-to-Real Transfer for Muscle-Actuated Robots via Generalized Actuator Networks

JAN SCHNEIDER, DIETER BÜCHLER, ET AL. (ARXIV PHYSICAL AI)

A-SLIP: Acoustic Sensing for Continuous In-hand Slip Estimation

UKSANG YOO, JEFFREY ICHNOWSKI, ET AL. (ARXIV PHYSICAL AI)

HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

SHUANGHAO BAI, BADONG CHEN, ET AL. (ARXIV PHYSICAL AI)

LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation

JINGJING WANG, GUOFENG ZHANG, ET AL. (ARXIV PHYSICAL AI)

Learning Humanoid Standing-up Control across Diverse Postures

TAO HUANG, JIANGMIAO PANG, ET AL. (ARXIV PHYSICAL AI)

RPL: Learning Robust Humanoid Perceptive Locomotion on Challenging Terrains

YUANHANG ZHANG, GUANYA SHI, ET AL. (ARXIV PHYSICAL AI)

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

YUNSONG ZHOU, JIANGMIAO PANG, ET AL. (ARXIV PHYSICAL AI)

Sumo: Dynamic and Generalizable Whole-Body Loco-Manipulation

JOHN Z. ZHANG, SIMON LE CLÉAC'H, ET AL. (ARXIV PHYSICAL AI)

CMP: Robust Whole-Body Tracking for Loco-Manipulation via Competence Manifold Projection

ZIYANG CHENG, JIWEN LU, ET AL. (ARXIV PHYSICAL AI)

Action Images: End-to-End Policy Learning via Multiview Video Generation

HAOYU ZHEN, CHUANG GAN, ET AL. (ARXIV PHYSICAL AI)

SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation

WUYANG LUAN, RUI MA, ET AL. (ARXIV PHYSICAL AI)

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

ZEBIN YANG, MENG LI, ET AL. (ARXIV PHYSICAL AI)

Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

YANRU WU, YUE WANG, ET AL. (ARXIV PHYSICAL AI)

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

YUANCHANG LIANG, PRAHLAD VADAKKEPAT, ET AL. (ARXIV PHYSICAL AI)

MobileManiBench: Simplifying Model Verification for Mobile Manipulation

WENBO WANG, BAINING GUO, ET AL. (ARXIV PHYSICAL AI)

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

BRYCE GRANT, XIJIA ZHAO, PENG WANG

frax: Fast Robot Kinematics and Dynamics in JAX

DANIEL MORTON, MARCO PAVONE

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

YANDAN YANG, MU XU, ET AL. (ARXIV PHYSICAL AI)

ForeAct: Steering Your VLA with Efficient Visual Foresight Planning

ZHUOYANG ZHANG, SONG HAN, ET AL. (ARXIV PHYSICAL AI)

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

RUISI CAI, QUAN ZHOU, ET AL. (ARXIV PHYSICAL AI)

Functional Force-Aware Retargeting from Virtual Human Demos to Soft Robot Policies

UKSANG YOO, HARSHA PRAHLAD, ET AL. (ARXIV PHYSICAL AI)

Learning Humanoid Navigation from Human Data

WEIZHUO WANG, MONROE KENNEDY, ET AL. (ARXIV PHYSICAL AI)

SMASH: Mastering Scalable Whole-Body Skills for Humanoid Ping-Pong with Egocentric Vision

JUNLI REN, PING LUO, ET AL. (ARXIV PHYSICAL AI)

Coordinated Humanoid Manipulation with Choice Policies

HAOZHI QI, JITENDRA MALIK, ET AL. (ARXIV PHYSICAL AI)

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

YI CHEN, XIHUI LIU, ET AL. (ARXIV PHYSICAL AI)

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

YICHI ZHANG, JIA WAN, ET AL. (ARXIV PHYSICAL AI)

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

YUNZHOU SONG, KOSTAS DANIILIDIS, ET AL. (ARXIV PHYSICAL AI)

SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning

PHILIP SCHROEDER, ONDREJ BIZA, ET AL. (ARXIV PHYSICAL AI)

Scaling World Model for Hierarchical Manipulation Policies

QIAN LONG, XINGHANG LI, ET AL. (ARXIV PHYSICAL AI)

Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization

YE WANG, QIN JIN, ET AL. (ARXIV PHYSICAL AI)

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

JI-LU YE, JIANGMIAO PANG, ET AL. (ARXIV PHYSICAL AI)

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

YANJIANG GUO, CHELSEA FINN, ET AL. (ARXIV PHYSICAL AI)

Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

WENYAO ZHANG, LI ZHANG, ET AL. (ARXIV PHYSICAL AI)

A Unified and General Humanoid Whole-Body Controller for Versatile Locomotion

YUFEI XUE, JIANGMIAO PANG, ET AL. (ARXIV PHYSICAL AI)

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

LUJIE YANG, GUANYA SHI, ET AL. (ARXIV PHYSICAL AI)

SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation

MASOUD MOGHANI, AJAY MANDLEKAR, ET AL. (ARXIV PHYSICAL AI)

Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control

WILLIAM CHEN, SERGEY LEVINE, ET AL. (ARXIV PHYSICAL AI)

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models

ZHIDE ZHONG, HAOANG LI, ET AL. (ARXIV PHYSICAL AI)

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

GU ZHANG, HUAZHE XU, ET AL. (ARXIV PHYSICAL AI)

WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control

HAORAN JIANG, HONGYANG LI, ET AL. (ARXIV PHYSICAL AI)

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

SHENYUAN GAO, LINXIJIMFAN, ET AL. (ARXIV PHYSICAL AI)

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation

YUHANG ZHENG, WENCHAO DING, ET AL. (ARXIV PHYSICAL AI)