: A Vision-Language-Action Flow Model for General Robot Control

“: A Vision-Language-Action Flow Model for General Robot Control” (2024) has been cited 2,506 times according to Google Scholar. CitationMap has resolved 101 citing papers from institutions across 21 countries.

2024View paper

See Brian Ichter's full citation map →

Where this paper is cited

China · 27United States · 15Germany · 4Hong Kong · 2Japan · 2South Korea · 2France · 2Australia · 1

Top citing institutions

Peking University (6)
Tsinghua University (4)
Fudan University (3)
Department of Psychiatry and Behavioral Sciences, Medical University of South Carolina (MUSC), Charleston, South Carolina, USA. (3)
Hefei National Laboratory for Physical Sciences at the Microscale, School of Life Sciences, University of Science and Technology of China, Hefei, China. (2)
Zhejiang University (2)
University of Science and Technology of China (2)
State Key Laboratory of Antiviral Drugs, School of Pharmacy, Henan University, Kaifeng 475004, China. (2)
Guangxi Key Laboratory of Agro-environment and Agro-product Safety, College of Agriculture, Guangxi University, Nanning 530004, China. (2)
Frontiers Science Center for Transformative Molecules, School of Chemistry and Chemical Engineering, National Center for Translational Medicine, State Key Laboratory of Oncogenes and Related Genes, Shanghai Jiao Tong University, Shanghai 200240, P. R. China. (2)
Carnegie Mellon University (2)
Fuwai Hospital, National Center for Cardiovascular Diseases, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing, 100037, People's Republic of China. (2)

Papers citing this work (101 resolved)

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding
· Wenxuan Song, Jiayi Chen, Pengxiang Ding, Han Zhao +8 more
Disambiguate Gripper State in Grasp-Based Tasks: Pseudo-Tactile as Feedback Enables Pure Simulation Learning
· Yifei Yang, Lu Chen, Zherui Song, Yenan Chen +6 more
Stable Offline Hand-Eye Calibration for any Robot with Just One Mark
· Sicheng Xie, Lingchen Meng, Zhiying Du, Shuyuan Tu +4 more
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
· Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen +3 more
Query-Centric Diffusion Policy for Generalizable Robotic Assembly
· Ziyi Xu, Hao-ming Lin, Shiqi Liu, Ding Zhao +2 more
VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation
· Arthur Zhang, Xiangyun Meng, L. Calliari, Dong-Ki Kim +5 more
Robust Instant Policy: Leveraging Student’s t-Regression Model for Robust In-context Imitation Learning of Robot Manipulation
· Hanbit Oh, Andrea M. Salcedo-V'azquez, I. Ramirez-Alpizar, Y. Domae +3 more
ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
· Ge Yan, Jiyue Zhu, Yuquan Deng, Shiqi Yang +9 more
Zero-Shot Peg Insertion: Identifying Mating Holes and Estimating SE(2) Poses with Vision-Language Models
· M. Yajima, Keita Ota, Asako Kanezaki, Rei Kawakami
Hierarchical Framework for Constrained Dual-Arm Cooperative Manipulation with Whole-Body Collision Avoidance
· Silong Zhang, Quecheng Qiu, Yingtai Ni, Yuechen Shao +4 more
CREATE: Cross-Layer Resilience Characterization and Optimization for Efficient yet Reliable Embodied AI Systems
· Tong Xie, Yijiahao Qi, Jinqi Wen, Zishen Wan +8 more
The Dual-System Hierarchical Architecture: A Future Paradigm for Vision-Language-Action Models
· Wenlong Chen, Zhen Tian, Zhou Zhou, Youhua Xia
ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration
· Rongfeng Zhao, Xuanhao Zhang, Zhaochen Guo, Xi Shao +4 more
An Object Placement Optimization System for Efficient and Unbiased Imitation Learning Data Collection
· Hiromasa Yamaguchi, Yuga Yano, H. Tamukoh, Hakaru Tamukoh
Robotic Task Ambiguity Resolution via Natural Language Interaction
· Eugenio Chisari, Jan Ole von Hartz, Fabien Despinoy, A. Valada
RoboEnvision: A Long-Horizon Video Generation Model for Multi-Task Robot Manipulation
· Liudi Yang, Yang Bai, George Eskandar, Fengyi Shen +8 more
Scaling World Model for Hierarchical Manipulation Policies
· Qian Long, Yueze Wang, Jiaxin Song, Junbo Zhang +12 more
Eye-In-Finger: Smart Fingers for Delicate Assembly and Disassembly of LEGO
· Zhenran Tang, Ruixuan Liu, Changliu Liu
Autonomous Human-Robot Interaction via Operator Imitation
· S. Christen, David Muller, Agon Serifi, R. Grandia +4 more
SurgiPose: Estimating Surgical Tool Kinematics from Monocular Video for Surgical Robot Learning
· Juo-Tung Chen, Xinhao Chen, Ji Woong Kim, P. M. Scheikl +4 more
Interactive Object Detection by Mitigating Uncertainty of Robot Task Plans using Large Language Model
· Kanata Suzuki, Akane Ushizaka, Kazuki Hori, Tetsuya Ogata
MEAT: Mixture of Experts in Action Transformer for Robotic Arm Control
· N. Islam, H. Mai, Ying-Jen Chen, Naeem Ul Islam +1 more
Efficient Inference for Vision-Language-Action Models: A Comprehensive Review of Acceleration Techniques
· Fuxiong Zhou, Md Maruf Hossain Shuvo, Syed K. Islam, Jianlin Cheng +1 more
Learning a Unified Policy for Position and Force Control in Legged Loco-Manipulation
· Peiyuan Zhi, Peiyang Li, Jianqin Yin, Baoxiong Jia +1 more
Efficient Task-Specific Conditional Diffusion Policies: Shortcut Model Acceleration and SO(3) Optimization
· Haiyong Yu, Yanqiong Jin, Yonghao He, Wei Sui +2 more
Affordance-based Robot Manipulation with Flow Matching
· Fan Zhang, Michael Gienger
DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning
· Junha Lee, Eunha Park, Minsu Cho
Adelia: A 4-nm LLM Processing Unit With Streamlined Dataflow and Dual-Mode Parallelism for Maximizing Hardware Efficiency
· Sukbin Lim, Jung-Hoon Kim, Seungjae Moon, Junseo Cha +6 more
AgiBot World Colosseo: A Large-Scale Manipulation Platform for Scalable and Intelligent Embodied Systems
· AgiBot-World-Contributors, Qingwen Bu, Jisong Cai, Li Chen +47 more
Survey of π0, π0-FAST, and π0.5: Vision-Language-Action Models in the Physical AI Framework
· Seonghyun Kim, Samyeul Noh, Ingook Jang, Wei Li +4 more
STEP Planner: Constructing cross-hierarchical subgoal tree as an embodied long-horizon task planner
· Tianxing Zhou, Zhirui Wang, Haojia Ao, Guangyan Chen +6 more
FLAME: A Federated Learning Benchmark for Robotic Manipulation
· Santiago Bou Betran, A. Longhini, Miguel Vasco, Yuchong Zhang +1 more
From Modular to End-to-End: Practical Exploration of Vision-Language-Action(VLA) Systems in Power Distribution Gird Inspections
· Ankai Zhang, Guozheng Peng, Rui Song, Zheng Wang +2 more
Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation
· Xiaohuan Pei, Yuxin Chen, Siyu Xu, Yunke Wang +2 more
History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
· Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou +1 more
MORE: Mobile Manipulation Rearrangement Through Grounded Language Reasoning
· Mohammad Mohammadi, Daniel Honerkamp, M. Büchner, Matteo Cassinelli +7 more
UniBiDex: A Unified Teleoperation Framework for Robotic Bimanual Dexterous Manipulation
· Zhongxuan Li, Zeliang Guo, Jun Hu, D. Navarro-Alarcón +4 more
Open-source vision-language-action models for robotics
· Linfeng Wang, Deok-Jin Lee
LLM-Based Decision Making Framework for Autonomous Drone Navigation
· Mirza Aarish Baig, Brad Alvarez, Richard Lage, Jayesh Soni +2 more
Sampling-Based Model Predictive Control for Dexterous Manipulation on a Biomimetic Tendon-Driven Hand
· Adrian Hess, Alexander M. Kübler, Benedek Forrai, M. Dogar +4 more
XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation
· Zhigen Zhao, Liuchuan Yu, Ke Jing, Ning Yang +1 more
Collaborative Multi-Robot Non-Prehensile Manipulation via Flow-Matching Co-Generation
· Yorai Shaoul, Zhe Chen, M. Mohamed, Federico Pecora +3 more
Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning
· Xiefeng Wu, Jing Zhao, Shu Zhang, Ming Hu +2 more
Learning Generalizable Language-Conditioned Cloth Manipulation from Long Demonstrations
· Han Zhao, Jinxuan Zhu, Zihao Yan, Yichen Li +2 more
DRL-VLA: An Optimization Method for VLA Model Based on Deep Reinforcement Learning
· Mengkun Zhang, Pengfei Gao, Yinuo Sheng, Ran Li +6 more
RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning
· Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei +12 more
From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models
· Wentao Zhang, Aolan Sun, Wentao Mo, Xiaoyang Qu +3 more
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
· Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang +27 more
ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning
· T. Vo, Tan Q. Nguyen, Khang Nguyen, Nhat Tran +8 more
Embodied AI: From LLMs to World Models [Feature]
· Tongtong Feng, Xin Wang, Yu-Gang Jiang, Wenwu Zhu
VLC: A Human-Robot-Collaboration Framework with Vision-Language-Model
· Zilong Chen, Lebin Liang, Hao Dong, Dehao Kong +3 more
Building Explicit World Model for Zero-Shot Open-World Object Manipulation
· Xiaotong Li, Gang Chen, Javier Alonso-Mora
A Memory-Augmented Dual-Stream Framework to Achieve Long-Horizon Generalization In Robotic Manipulation
· Yuxin Zheng, W. Tao, Wentao Mo, Naifu Zhang +4 more
HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models
· Kun Wang, Xiaokun Feng, M. Qu, Tonghua Su +3 more
HannesImitation: Grasping with the Hannes Prosthetic Hand via Imitation Learning
· Carlo Alessi, F. Vasile, Federico Ceola, Giulia Pasquale +3 more
Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning
· Jiyuan Shi, Xinzhe Liu, Dewei Wang, Ouyang Lu +12 more
End-to-End Seam Tracking with Flow Matching-Based Diffusion Policy
· Zhaoqi Chu, Xiangrong Liu, Xuhui Que, Bo Yu +1 more
Closed-Form Robustness Bounds for Second-Order Pruning of Neural Controller Policies
· Maksym Shamrai, Ramin Hasani, Mathias Lechner, Alexander Amini +5 more
Steering Diffusion Policies with Value-Guided Denoising
Can Multimodal LLMs Perform Time Series Anomaly Detection?
· Xiongxiao Xu, Haoran Wang, Yueqing Liang, Philip S. Yu +2 more
DailyArt: Discovering Articulation from Single Static Images via Latent Dynamics
· Hang Zhang, Qijian Tian, Jingyu Gong, Daoguo Dong +3 more
Rethinking Video Generation Model for the Embodied World
· Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li +5 more
M100: An Orchestrated Dataflow Architecture Powering General AI Computing
· Yancheng Xie, Changkui Mao, Chan-gui Wu, Chaochao Lu +47 more
ForeAct: Steering Your VLA with Efficient Visual Foresight Planning
· Zhuoyang Zhang, Shang Yang, Qinghao Hu, Luke J. Huang +4 more
Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning
· Carl Qi, Xiaojie Wang, Silong Yong, Stephen Sheng +5 more
RT-Cache: Training-Free Retrieval for Real-Time Manipulation
· O.-Kil Kwon, Abraham George, Alison Bartsch, A. Farimani +2 more
HACTS: a Human-As-Copilot Teleoperation System for Robot Learning
· Zhiyuan Xu, Yinuo Zhao, Kun Wu, Ning Liu +4 more
Extremum Flow Matching for Offline Goal Conditioned Reinforcement Learning
· Quentin Rouxel, Clemente Donoso, Fei Chen, S. Ivaldi +1 more
Taking Shortcuts for Categorical VQA Using Super Neurons
· Pierre Musacchio, Jae-Yong Jeong, Dahun Kim, Jaesik Park +1 more
Enhancing Robustness in Language-Driven Robotics: A Modular Approach to Failure Reduction
· Émiland Garrabé, Pierre Teixeira, Mahdi Khoramshahi, Stéphane Doncieux
Skin-Machine Interface with Multimodal Contact Motion Classifier
· Alberto Confente, Takanori Jin, Taisuke Kobayashi, J. R. Guadarrama-Olvera +1 more
Wellness Robots and the Path to Full Autonomy
Reversal Q-Learning
EgoCS-400K: An Egocentric Gameplay Dataset for World Models
· Rongjin Guo, Dong Liang, Yuhao Liu, Fang Liu +3 more
MuseVLA: An Adaptive Multimodal Sensing Vision-Language-Action Model for Robotic Manipulation
· Xingyuming Liu, Ru Z, Heyu Guo, Qi Li +6 more
ThinkingVLA: Interleaved Vision and Language Reasoning for Robotic Manipulation
· Tianyi Lu, Hui Zhang, Zijie Diao, Yi-Xiang Wang +7 more
Uncertainty Quantification for Flow-Based Vision-Language-Action Models
Where Should Action Generation Begin? A Learnable Source Prior for Generative Robot Policies
GASE: Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments
· Yan Xu, Yantai Yang, Yingqiao Wang, Qin Jin +7 more
PearlVLA: Progressive Embodied Action-Plan Refinement in Latent Space
· Bochen Yang, Lianlei Shan
What Matters: Datasets or Robust Frameworks in Modern Robot Learning?
Visuo-Tactile World Models for Dexterous Manipulation: From Simulation Benchmarks to Real-World Skin Sensing
Receding Horizon Trajectory Optimization Through Waypoints and Path Segments
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
EquiVLA: A General Framework for Rotationally Equivariant Vision-Language-Action Models
Frequency-Aware Flow Matching for Continuous and Consistent Robotic Action Generation
FlowMaps: Modeling Long-Term Multimodal Object Dynamics with Flow Matching
Start Right, Arrive Right: Asynchronous Execution via Initial Noise Selection
Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
· Juncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai +18 more
Slow Brain, Fast Planner: Latency-Resilient VLM-Augmented Urban Navigation
Halide: Exposure-Weighted Latent Fixation for Rapid Photographic-Style Imprinting of Deployment Experience
Silt: Sediment-Style Layered Deposition of Embedding Experience for On-Device Manipulation Policy Specialization
Watershed: Basin-Partitioned Retrieval over Frozen Embedding Terrain for Multi-Task Policy Narrowing
Ossify: Progressive Rigidity Scheduling Across Adapter Layers During Prolonged Policy Specialization
Parallax-Act: Motion-Parallax Cues as Conditioning for Future-Frame Feature Synthesis in Robotic Interception
· Ricardo Almeida, Swati Kulshrestha, Miguel Ferreira, Joana Carvalho +2 more
PreEmpt: Saliency-Restricted Future Token Synthesis for Manipulation of Objects in Sustained Motion
· Antti Koskinen, Syed Taha Zaman
SlipStream: Flow-Anchored Latent Advection for Delay-Robust Robotic Manipulation
· Tomáš Jelínek, Nidhi Arora, · Klára Dvořáková, Pavel Kratochvíl +2 more
Quorum: Cross-Cell Consensus Gating for Federated Specialization of Vision-Language-Action Policies
· Nattapon Kittisak, Priya Krishnamurthy, Chanin Boonchai, Somchai Wattanakul +1 more
JoyNexus: Service-Oriented Multi-Tenant Post-Training for VLA Models

Showing the top 100 of 101 resolved citing papers — see the full interactive list on Brian Ichter's profile.

Map your own citations

CitationMap turns any Google Scholar profile into an interactive world map of citing institutions — free, no sign-up. Used for EB-1A / O-1 / NIW visa evidence, tenure files, and grant applications.

Create your citation map →