Google Research Google Research

Prompt Repetition

Prompt Repetition

🎯 Résultats Clés

🎯 Key Results

47/70
Benchmarks gagnés (0 pertes)
Benchmarks won (0 losses)
100%
Modèles améliorés
Models improved
+76%
Gain max (NameIndex)
Max gain (NameIndex)
0ms
Latence ajoutée
Added latency

💡 Découverte Majeure

💡 Major Discovery

Une technique ultra-simple (répéter le prompt) améliore significativement tous les LLMs testés (Gemini 2.0, GPT-4o, Claude 3, Deepseek V3) sur tous types de tâches (raisonnement mathématique, QCM, compréhension) sans aucun impact sur la longueur des réponses ou la vitesse de génération.

An ultra-simple technique (repeating the prompt) significantly improves all tested LLMs (Gemini 2.0, GPT-4o, Claude 3, Deepseek V3) across all task types (mathematical reasoning, multiple-choice, comprehension) with zero impact on response length or generation speed.

🔧 La Technique

🔧 The Technique

Avant Before <QUERY>
Répéter 2× Repeat 2×
Après After <QUERY><QUERY>
✅ Exemple Concret
✅ Concrete Example

Prompt classique :

Classic prompt:

Résous : 2x + 5 = 13

Avec répétition :

With repetition:

Résous : 2x + 5 = 13
Résous : 2x + 5 = 13
⚡ Avantages Immédiats
⚡ Immediate Benefits
  • Zéro configuration : aucun réglage requis
  • Universel : fonctionne sur tous les modèles
  • Gratuit : pas de coût tokens supplémentaire en sortie
  • Instantané : latence inchangée (prefill parallélisé)
  • Zero configuration: no settings required
  • Universal: works on all models
  • Free: no additional output token cost
  • Instant: unchanged latency (parallelized prefill)
🎯 Quand L'Utiliser
🎯 When to Use It
  • Tâches non-reasoning (sans chaîne de pensée explicite)
  • QCM avec options avant la question
  • Compréhension de documents longs
  • Extraction d'informations spécifiques
  • Non-reasoning tasks (without explicit chain of thought)
  • Multiple-choice with options before question
  • Understanding long documents
  • Extracting specific information

🧠 Pourquoi Ça Marche ?

🧠 Why Does It Work?

🔒 Limitation des LLMs Causaux
🔒 Causal LLM Limitation
Les modèles causaux traitent les tokens séquentiellement : un token ne peut pas "voir" les tokens suivants. Dans un prompt comme <OPTIONS><QUESTION>, les options ne peuvent pas accéder au contexte de la question qui arrive après.
Causal models process tokens sequentially: a token cannot "see" following tokens. In a prompt like <OPTIONS><QUESTION>, options cannot access the context of the question that comes later.
🔓 Solution : Attention Bidirectionnelle
🔓 Solution: Bidirectional Attention
En répétant le prompt (<QUERY><QUERY>), chaque token du premier bloc peut accéder à tous les tokens du second bloc via le mécanisme d'attention. Les "futurs" tokens du premier bloc deviennent les "passés" tokens du second.
By repeating the prompt (<QUERY><QUERY>), each token from the first block can access all tokens from the second block via the attention mechanism. The "future" tokens from the first block become the "past" tokens of the second.
📊 Observation Empirique
📊 Empirical Observation
Les modèles avec reasoning explicite (type o1, o3) répètent spontanément des parties du prompt dans leur monologue interne. La technique de répétition explicite apporte ces bénéfices aux modèles non-reasoning.
Models with explicit reasoning (o1, o3 type) spontaneously repeat parts of the prompt in their internal monologue. The explicit repetition technique brings these benefits to non-reasoning models.

🤖 Modèles Testés

🤖 Tested Models

Google Gemini 2.0
  • Flash Production
  • Flash Lite Rapide
OpenAI GPT
  • GPT-4o Flagship
  • GPT-4o-mini Compact
Anthropic Claude 3
  • Sonnet Équilibré
  • Haiku Léger
Deepseek
  • Deepseek V3 Open

📋 Benchmarks Utilisés

📋 Benchmarks Used

Benchmark Benchmark Type Type Description Description Impact Répétition Repetition Impact
ARC (Challenge) ARC (Challenge) QCM Science Science MCQ Questions scientifiques niveau école School-level science questions Fort (options-first) Strong (options-first)
OpenBookQA OpenBookQA QCM Compréhension Comprehension MCQ Questions avec livre ouvert Open book questions Modéré Moderate
GSM8K GSM8K Maths école School math Problèmes mathématiques simples Simple math problems Modéré Moderate
MMLU-Pro MMLU-Pro QCM Multi-domaine Multi-domain MCQ Connaissances générales avancées Advanced general knowledge Fort Strong
MATH MATH Maths avancées Advanced math Problèmes mathématiques complexes Complex math problems Modéré Moderate
NameIndex NameIndex Custom Custom Extraction nom à position spécifique Name extraction at specific position Très fort (+76%) Very strong (+76%)
MiddleMatch MiddleMatch Custom Custom Correspondance élément central Middle element matching Très fort Very strong

🏆 Gains Spectaculaires (Exemples)

🏆 Spectacular Gains (Examples)

Gemini 2.0 Flash-Lite
Gemini 2.0 Flash-Lite

NameIndex

NameIndex

  • Sans répétition : 21.33%
  • Without repetition: 21.33%
  • Avec répétition : 97.33%
  • With repetition: 97.33%
  • Gain : +76 points
  • Gain: +76 points
GPT-4o-mini
GPT-4o-mini

ARC (options-first)

ARC (options-first)

  • Amélioration significative sur QCM difficiles
  • Significant improvement on difficult MCQs
  • Gains constants sur tous les benchmarks
  • Consistent gains across all benchmarks
Claude 3 Sonnet
Claude 3 Sonnet

Tous benchmarks

All benchmarks

  • Améliorations mesurables
  • Measurable improvements
  • Particulièrement efficace sur tâches custom
  • Particularly effective on custom tasks
Deepseek V3
Deepseek V3

Performances générales

General performance

  • Gains cohérents
  • Consistent gains
  • Validé sur modèle open-source
  • Validated on open-source model

📈 Validation Statistique

📈 Statistical Validation

🔬 Méthodologie Rigoureuse

🔬 Rigorous Methodology

  • Test statistique : McNemar avec p-value < 0.1
  • Critère de significativité : amélioration statistiquement mesurable
  • Résultat global : 47 wins / 0 losses / 23 neutral
  • Conclusion : aucun cas de dégradation observé, technique robuste
  • Statistical test: McNemar with p-value < 0.1
  • Significance criterion: statistically measurable improvement
  • Overall result: 47 wins / 0 losses / 23 neutral
  • Conclusion: no degradation observed, robust technique

🔬 Variantes Expérimentées

🔬 Experimented Variants

Variante Variant Format Format Résultat Result
Répétition Standard Standard Repetition <QUERY><QUERY> Gains significatifs (baseline) Significant gains (baseline)
Répétition Verbose Verbose Repetition <QUERY> Let me repeat that: <QUERY> Performances similaires ou supérieures Similar or better performance
Répétition ×3 Repetition ×3 <QUERY><QUERY><QUERY> Améliorations substantielles (custom tasks) Substantial improvements (custom tasks)
Padding (contrôle) Padding (control) <QUERY> + points pour même longueur Aucune amélioration (confirme mécanisme) No improvement (confirms mechanism)

📝 Comment L'Appliquer Immédiatement

📝 How to Apply It Immediately

1️⃣ Cas d'Usage Idéaux
1️⃣ Ideal Use Cases
  • QCM avec options d'abord : la question arrive après les choix
  • Extraction d'infos : chercher un élément spécifique dans un texte long
  • Classification : catégoriser sans raisonnement complexe
  • Correspondance de patterns : identifier des motifs précis
  • MCQ with options first: question comes after choices
  • Info extraction: find specific element in long text
  • Classification: categorize without complex reasoning
  • Pattern matching: identify precise patterns
2️⃣ Implémentation Simple
2️⃣ Simple Implementation
// Avant
const prompt = userQuery;

// Après
const prompt = userQuery + userQuery;

// Ou avec séparateur
const prompt = userQuery + 
  "\nLet me repeat that:\n" + 
  userQuery;
// Before
const prompt = userQuery;

// After
const prompt = userQuery + userQuery;

// Or with separator
const prompt = userQuery + 
  "\nLet me repeat that:\n" + 
  userQuery;
3️⃣ Vérifier Les Gains
3️⃣ Verify The Gains
  • A/B test : comparer avec/sans répétition
  • Métriques : précision, cohérence des réponses
  • Latence : vérifier l'absence d'impact (sauf très longs prompts)
  • Coût : compte uniquement les tokens d'entrée (doublés)
  • A/B test: compare with/without repetition
  • Metrics: accuracy, response consistency
  • Latency: verify no impact (except very long prompts)
  • Cost: only counts input tokens (doubled)

⚠️ Limites et Considérations

⚠️ Limitations and Considerations

📏 Prompts Très Longs
📏 Very Long Prompts
  • Latence possible : sur prompts massifs, le prefill prend plus de temps
  • Observé sur : Claude (Haiku, Sonnet) avec NameIndex/MiddleMatch
  • Solution : tester répétition partielle ou sélective
  • Possible latency: on massive prompts, prefill takes longer
  • Observed on: Claude (Haiku, Sonnet) with NameIndex/MiddleMatch
  • Solution: test partial or selective repetition
🤔 Tâches avec Reasoning
🤔 Tasks with Reasoning
  • Résultats neutres : avec "Think step by step", gains minimes
  • Raison : modèles reasoning répètent déjà implicitement
  • Bilan : 5 wins, 1 loss, 22 neutral (pas nuisible)
  • Neutral results: with "Think step by step", minimal gains
  • Reason: reasoning models already implicitly repeat
  • Outcome: 5 wins, 1 loss, 22 neutral (not harmful)
💰 Coûts d'Entrée
💰 Input Costs
  • Tokens d'entrée doublés : coût API d'input × 2
  • Mais : tokens de sortie inchangés (coût principal)
  • Bénéfice net : ROI positif si gains > coût input additionnel
  • Input tokens doubled: API input cost × 2
  • But: output tokens unchanged (main cost)
  • Net benefit: positive ROI if gains > additional input cost

🔮 Directions Futures

🔮 Future Directions

🧪 Pistes Proposées par les Auteurs

🧪 Avenues Proposed by Authors

  1. Fine-tuning avec prompts répétés : entraîner les modèles directement sur des prompts répétés
  2. Intégration au training reasoning : incorporer la répétition dans l'apprentissage des modèles de raisonnement
  3. Répétition périodique pendant génération : répéter le contexte à intervalles réguliers durant la génération
  4. Optimisation KV-cache : réduire l'empreinte mémoire des tokens répétés en partageant le cache
  5. Répétition sélective : ne répéter que les parties critiques du prompt (questions, contexte clé)
  6. Extension aux modalités non-textuelles : tester la répétition sur images, audio, vidéo
  1. Fine-tuning with repeated prompts: train models directly on repeated prompts
  2. Integration into reasoning training: incorporate repetition into reasoning model learning
  3. Periodic repetition during generation: repeat context at regular intervals during generation
  4. KV-cache optimization: reduce memory footprint of repeated tokens by sharing cache
  5. Selective repetition: only repeat critical parts of prompt (questions, key context)
  6. Extension to non-textual modalities: test repetition on images, audio, video

🌍 Impact et Recommandations

🌍 Impact and Recommendations

✅ Recommandation Officielle
✅ Official Recommendation

Les auteurs suggèrent que la répétition de prompt devienne un défaut pour beaucoup de modèles et tâches lorsque le reasoning explicite n'est pas utilisé. C'est une optimisation gratuite et universelle.

Authors suggest that prompt repetition should become a default for many models and tasks when explicit reasoning is not used. It's a free and universal optimization.

🎯 Pour Les Développeurs
🎯 For Developers
  • Intégrer dans les wrappers/bibliothèques LLM
  • Option activable par défaut avec override possible
  • Logs/métriques pour mesurer l'impact réel
  • Documentation des cas d'usage optimaux
  • Integrate into LLM wrappers/libraries
  • Default-enabled option with possible override
  • Logs/metrics to measure real impact
  • Documentation of optimal use cases
📚 Pour Les Chercheurs
📚 For Researchers
  • Explorer les mécanismes d'attention sous-jacents
  • Tester sur architectures alternatives (non-causales)
  • Analyser l'impact sur différentes tailles de modèles
  • Optimiser le nombre de répétitions optimal
  • Explore underlying attention mechanisms
  • Test on alternative architectures (non-causal)
  • Analyze impact on different model sizes
  • Optimize the optimal number of repetitions

🔗 Ressources et Références

🔗 Resources and References

📄 Article Original
📄 Original Article
👥 Auteurs
👥 Authors
  • Yaniv Leviathan - Google Research
  • Matan Kalman - Google Research
  • Yossi Matias - Google Research
📊 Données Supplémentaires
📊 Additional Data
  • Tableaux de résultats complets dans le paper
  • Analyses statistiques détaillées (McNemar tests)
  • Graphiques de performance par modèle/benchmark
  • Complete results tables in the paper
  • Detailed statistical analyses (McNemar tests)
  • Performance graphs per model/benchmark

💎 Conclusion Clé

💎 Key Conclusion

Prompt Repetition est une des découvertes les plus simples et impactantes de 2025 en prompting. Elle démontre qu'une compréhension fine des architectures causales permet d'obtenir des gains massifs avec des modifications triviales. Cette technique devrait être intégrée par défaut dans tous les systèmes utilisant des LLMs non-reasoning pour des tâches de classification, extraction ou compréhension.

Prompt Repetition is one of the simplest and most impactful discoveries of 2025 in prompting. It demonstrates that a fine understanding of causal architectures enables massive gains with trivial modifications. This technique should be integrated by default in all systems using non-reasoning LLMs for classification, extraction or comprehension tasks.