Quand le robot va trop vite : les VLA face au double piège de la latence et des actions hallucinées

Deux prépublications qui tombent au même moment

La robotique généraliste progresse vite, mais deux travaux déposés sur arXiv rappellent que le passage du laboratoire au monde réel reste semé d’embûches. Le premier, intitulé « Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete », propose de réduire la latence des robots Vision-Language-Action, ou VLA, en les autorisant à commencer à se préparer — et parfois à agir — avant que l’humain ait terminé sa consigne. Le second, « Action Hallucination in Generative Vision-Language-Action Models », analyse un risque plus fondamental : les modèles génératifs de robotique peuvent produire des actions qui ne respectent pas les contraintes physiques ou qui échouent au niveau du plan d’exécution.

Ces deux textes ont été rendus disponibles sous forme de prépublications. Cela signifie qu’ils n’ont pas encore été évalués par les pairs, et qu’il faut les lire comme des contributions de recherche prometteuses, non comme des preuves définitives. C’est particulièrement important ici : Premover rapporte ses propres résultats sur un banc d’essai, tandis que l’article sur les hallucinations d’actions propose une analyse théorique des limites structurelles des architectures génératives. Dans les deux cas, la valeur est réelle, mais la validation indépendante reste à faire.

Le problème de départ : un robot qui attend trop longtemps

Les VLA sont conçus pour relier trois mondes : la vision, le langage et l’action. En pratique, le robot observe une scène, reçoit une instruction en langage naturel, puis produit des commandes motrices. C’est l’héritage de travaux comme RT-2 de Google DeepMind, qui a popularisé l’idée qu’un modèle entraîné sur des données web et robotiques pouvait transformer des concepts visuels et linguistiques en gestes physiques. Depuis, OpenVLA, Open X-Embodiment, Gemini Robotics et GR00T N1 ont renforcé cette direction : le robot n’est plus seulement programmé tâche par tâche, il apprend à généraliser.

Mais les démonstrations masquent souvent un détail trivial : l’utilisateur parle ou tape lentement. Dans les bancs d’essai classiques, on suppose que l’instruction complète est déjà disponible au moment où le robot démarre son raisonnement. Dans la vraie vie, la consigne arrive mot par mot : « prends le… petit bol… rouge… à gauche… ». Pendant ces secondes, le robot peut rester immobile, même si l’image de la scène est déjà disponible.

C’est précisément la fenêtre que Premover veut exploiter. Selon les auteurs Joonha Park, Jiseung Jeong et Taesik Gong, le système garde le modèle VLA principal gelé, puis ajoute deux petites têtes de projection : l’une pour les morceaux d’image, l’autre pour les jetons de langage. Ces projections construisent une carte d’attention qui permet au robot de commencer à se concentrer sur les objets probablement pertinents avant la fin de la phrase. Un seuil de « readiness », ou disponibilité, décide ensuite du moment où il devient raisonnable d’agir.

Premover : gagner du temps sans casser la tâche

Sur la suite de tests LIBERO, utilisée pour évaluer l’apprentissage robotique de manipulation, Premover rapporte une baisse du temps moyen d’exécution de 34,0 à 29,4 secondes, soit 13,6 % de réduction, tout en conservant un taux de réussite comparable au scénario où l’instruction complète est disponible dès le départ : 95,1 % contre 95,0 %. Les auteurs soulignent aussi qu’une stratégie naïve d’action anticipée s’effondre à 66,4 %, ce qui montre bien que « bouger plus tôt » n’est pas automatiquement une bonne idée.

L’intérêt est évident pour les robots domestiques, les bras de laboratoire, les assistants en entrepôt ou les futurs humanoïdes : quelques secondes gagnées à chaque interaction peuvent rendre l’expérience beaucoup moins frustrante. Un robot qui commence à orienter sa caméra, à préparer sa trajectoire ou à se rapprocher d’une zone probable pendant que l’humain parle semblera plus fluide, plus attentif, presque plus naturel.

Mais c’est aussi là que le sujet devient délicat. Dans un chatbot, répondre trop tôt produit une phrase maladroite. Dans un robot, agir trop tôt peut déplacer un objet, heurter un obstacle ou créer une situation irréversible. Premover tente de traiter ce risque avec son seuil de readiness, mais le principe même d’anticipation introduit une tension : plus le robot agit tôt, plus il travaille avec une instruction incomplète.

L’autre verrou : les hallucinations d’actions

Le deuxième article, signé Harold Soh et Eugene Lim, s’attaque à une limite encore plus inquiétante. Les hallucinations ne concernent pas seulement les modèles de langage qui inventent une référence ou une citation. En robotique, une hallucination peut devenir une trajectoire, une pression sur une pince, une collision ou une séquence de gestes incohérente.

Les auteurs parlent d’« action hallucination » pour désigner des sorties qui violent les contraintes physiques ou se propagent en échecs de planification. Leur analyse cible notamment les politiques génératives à variables latentes, de plus en plus utilisées pour produire des mouvements riches et flexibles. Le problème, selon eux, ne vient pas seulement d’un manque de données ou d’un mauvais entraînement. Il peut émerger d’un décalage structurel entre l’espace des comportements physiquement faisables et la manière dont les architectures génératives représentent les actions.

Trois barrières sont mises en avant : la topologie, la précision et l’horizon. La barrière topologique concerne la forme même de l’espace des actions possibles : certains comportements faisables ne se laissent pas représenter proprement par un modèle continu ou simplifié. La barrière de précision rappelle qu’un geste robotique peut échouer pour quelques millimètres, même si le plan semble sémantiquement correct. La barrière d’horizon touche aux tâches longues : plus une séquence comporte d’étapes, plus les petites erreurs locales peuvent se transformer en échec global.

Pourquoi ces deux papiers se répondent

Pris séparément, Premover parle d’efficacité et l’article sur les hallucinations parle de fiabilité. Ensemble, ils décrivent le dilemme central de la robotique IA : il faut des machines plus rapides, mais aussi plus sûres. Or ces objectifs peuvent entrer en conflit.

Un système qui anticipe la consigne doit deviner l’intention avant de disposer de tous les éléments. S’il se trompe d’objet, de couleur, de destination ou de contrainte implicite, il peut générer exactement le type d’écart que les chercheurs sur les hallucinations d’actions cherchent à formaliser. À l’inverse, un système ultra-prudent qui attend la fin de chaque phrase, vérifie chaque hypothèse et simule chaque trajectoire sera plus sûr, mais risque de paraître lent et inutilisable.

La vraie question n’est donc pas seulement : « peut-on faire bouger le robot plus vite ? » C’est plutôt : « à quelles conditions un robot a-t-il le droit de commencer à agir avant d’avoir tout compris ? » Dans un environnement industriel fermé, avec des objets connus et des zones de sécurité, la réponse peut être relativement favorable. Dans une cuisine, une chambre d’enfant ou un hôpital, elle devient beaucoup plus exigeante.

Le contexte industriel : tout le monde court vers le robot généraliste

Ces travaux arrivent dans un contexte de forte accélération. Google DeepMind présente Gemini Robotics comme une extension des modèles multimodaux vers le monde physique, avec des sorties d’action pour contrôler des robots. NVIDIA pousse GR00T N1 comme modèle de fondation pour humanoïdes. Physical Intelligence a mis en avant π0, un modèle VLA fondé sur des politiques de flux. OpenVLA, de son côté, a montré qu’un modèle ouvert de 7 milliards de paramètres pouvait être adapté à de nouvelles tâches de manipulation.

Ce mouvement repose sur une conviction : la robotique a besoin de modèles généralistes, entraînés sur des données diverses, plutôt que de milliers de systèmes spécialisés. Open X-Embodiment, coordonné avec Google DeepMind et plusieurs laboratoires, illustre cette logique avec des données provenant de nombreux robots et de centaines de compétences. L’objectif est de transférer l’expérience d’un bras robotique, d’un environnement ou d’une tâche vers d’autres configurations.

Mais la généralisation est précisément ce qui rend la validation difficile. Un robot qui réussit 95 % des tâches dans LIBERO peut encore échouer dans une maison encombrée. Un modèle qui reconnaît correctement un objet peut mal estimer la force nécessaire pour le saisir. Une instruction parfaitement comprise au niveau sémantique peut se traduire par un geste imprécis.

Sécurité : au-delà de l’évitement de collision

Les travaux récents sur ASIMOV de Google DeepMind rappellent que la sécurité robotique ne peut plus se limiter à éviter les collisions. Dès qu’un robot comprend des scènes, dialogue avec un humain et prend des décisions en langage naturel, la sécurité devient aussi sémantique : faut-il obéir à cette consigne ? L’objet demandé est-il dangereux ? Le contexte rend-il l’action inappropriée ?

Le cadre de gestion des risques de l’IA du NIST va dans le même sens en insistant sur des systèmes valides, fiables, sûrs, résilients, explicables et responsables. Pour les VLA, cela implique des garde-fous à plusieurs niveaux : validation de l’intention, estimation de l’incertitude, arrêt d’urgence, contrôle bas niveau indépendant, journalisation des décisions, simulation avant action et tests adversariaux.

Premover pourrait devenir utile si son anticipation reste confinée à des actions réversibles : déplacer l’attention visuelle, préparer une trajectoire, ralentir ou repositionner légèrement un bras sans contact risqué. En revanche, autoriser une action physique irréversible avant la fin d’une instruction devrait exiger un seuil de confiance beaucoup plus élevé.

Ce que cela annonce

La prochaine étape de la robotique généraliste ne sera pas seulement de rendre les modèles plus gros. Elle consistera à les rendre temporellement intelligents : savoir quand attendre, quand demander une clarification, quand préparer une action et quand s’abstenir. La latence n’est pas un simple problème d’optimisation ; c’est une dimension de la sûreté.

Les deux prépublications d’arXiv mettent le doigt sur une frontière critique. Premover montre qu’il est possible de récupérer une partie du temps perdu pendant la formulation d’une consigne. L’article sur les hallucinations d’actions rappelle que les politiques génératives ne produisent pas toujours des gestes compatibles avec le monde physique. Entre les deux, il y a l’espace où se jouera la robotique utile : des machines assez rapides pour être acceptées, mais assez prudentes pour mériter notre confiance.