Une option inopinée est apparue dans Gemini et le coup d’œil furtif qu’ont pu en prendre certains utilisateurs laisse entrevoir une avancée majeure : « Gemini Omni », un modèle de génération vidéo sur lequel Google travaillerait en secret. Sans annonce officielle pour l’heure, les premières démos fuitées montrent des résultats prometteurs — et posent déjà des questions concrètes sur l’usage, le coût et les garde‑fous nécessaires. Voici ce que l’on sait et ce que cela implique pour la création de contenu.
Qu’est‑ce que Gemini Omni selon les premières traces ?
Gemini Omni apparaît comme une extension — ou une évolution — de Veo, le modèle vidéo déjà intégré à l’écosystème Gemini. La nouveauté est double : Omni permettrait non seulement de générer des séquences vidéo réalistes à partir d’un prompt textuel, mais aussi de « remixer » et modifier des clips directement depuis la conversation (le chat). Autrement dit, l’utilisateur pourrait demander à Gemini d’éditer, d’allonger ou de réarranger une scène sans sortir du flux de dialogue.
Les démos qui ont fuité : de la craie au spaghetti
Deux démonstrations ont alimenté l’excitation. La première montre un professeur écrivant au tableau une démonstration trigonométrique : la vidéo gère le texte manuscrit, le mouvement du bras et la synchronisation voix‑lèvre avec une précision surprenante — un terrain qui faisait jusque‑là défaut à de nombreux systèmes. La seconde reprend le fameux « Will Smith test » (deux personnes qui mangent des spaghettis), souvent employé comme benchmark informel pour mesurer la capacité d’un modèle à rendre des interactions humaines naturelles autour d’objets complexes. Le rendu s’en sort sans les déformations grotesques d’autrefois : gestes, ambiance et détails d’objet sont largement convaincants pour des tests rapides.
Puissance de calcul : un frein non négligeable
Ces réussites ont un prix. L’utilisateur à l’origine de la fuite a indiqué que la génération de ces deux clips avait consommé 86 % de sa quota journalière sur un plan AI Pro. Autrement dit, produire des vidéos de haute qualité reste très coûteux en ressources. À l’échelle d’un service grand public, cela signifie quotas, tarifications à l’usage ou limitations strictes : Gemini Omni risque d’être d’abord réservé aux professionnels, aux éditeurs ou aux utilisateurs payants disposant d’un budget cloud conséquent.
Cas d’usage immédiats et potentiels
Risques et enjeux éthiques
La capacité à produire des vidéos réalistes en quelques prompts ouvre la porte à des dérives : deepfakes, manipulations d’information, atteintes au droit à l’image et mauvaise utilisation commerciale d’images de tiers. La question de la traçabilité des vidéos générées est cruciale : comment distinguer un contenu authentique d’un rendu IA ? Google devra impérativement intégrer des contre‑mesures (watermarking automatique, métadonnées d’origine, limites d’usage) pour limiter les abus.
Encadrement technique et commercial attendu
Positionnement face à la concurrence
OpenAI a marqué le pas sur la génération vidéo (fermeture de Sora), laissant un créneau que Google tente clairement de combler. Si Gemini Omni tient ses promesses, Google pourrait devenir le fournisseur dominant pour la génération vidéo intégrée au flux de conversation — un avantage significatif pour les utilisateurs de l’écosystème Google qui veulent produire, éditer et récupérer des vidéos sans outils externes lourds.
Impacts sur les métiers créatifs
Gemini Omni pourrait accélérer le travail des créatifs en fournissant des prototypes et des itérations visuelles quasi instantanées. Mais il risque aussi de modifier le marché du travail : certaines tâches de préproduction, d’animation basique ou de montage rapide pourraient être automatisées, tandis que la demande pour des compétences de supervision créative, d’idéation et de contrôle qualité augmentera. Le rôle des artisans du cinéma et de la vidéo évoluera vers la direction artistique et la validation éthique des contenus générés.
Ce qu’il faut surveiller dans les semaines à venir
Gemini Omni, tel que révélé par ces premières fuites, illustre un saut qualitatif dans la génération vidéo par IA. Si Google parvient à le déployer avec un cadre responsable — alliant transparence, protection juridique et contrôles techniques —, l’outil pourrait transformer la manière dont nous produisons du contenu visuel. Reste maintenant à voir comment la firme va concilier puissance, accessibilité et sécurité.
