Prompt Repetition

Prompt Repetition : La Technique Simple qui Change Tout

Prompt Repetition: The Simple Technique That Changes Everything

Répétez votre prompt 2× et améliorez instantanément tous vos LLMs sans coût ni latence supplémentaire

Repeat your prompt 2× and instantly improve all your LLMs without additional cost or latency

📄 Auteurs 📄 Authors Yaniv Leviathan, Matan Kalman, Yossi Matias

📅 Publication 📅 Published Décembre 2025

🔗 Source 🔗 Source arXiv:2512.14982

Vérifié Verified

🎯 Résultats Clés

🎯 Key Results

47/70

Benchmarks gagnés (0 pertes)

Benchmarks won (0 losses)

100%

Modèles améliorés

Models improved

+76%

Gain max (NameIndex)

Max gain (NameIndex)

0ms

Latence ajoutée

Added latency

💡 Découverte Majeure

💡 Major Discovery

Une technique ultra-simple (répéter le prompt) améliore significativement tous les LLMs testés (Gemini 2.0, GPT-4o, Claude 3, Deepseek V3) sur tous types de tâches (raisonnement mathématique, QCM, compréhension) sans aucun impact sur la longueur des réponses ou la vitesse de génération.

An ultra-simple technique (repeating the prompt) significantly improves all tested LLMs (Gemini 2.0, GPT-4o, Claude 3, Deepseek V3) across all task types (mathematical reasoning, multiple-choice, comprehension) with zero impact on response length or generation speed.

🔧 La Technique

🔧 The Technique

Avant Before <QUERY>

→ Répéter 2× Repeat 2×

Après After <QUERY><QUERY>

✅ Exemple Concret

✅ Concrete Example

Prompt classique :

Classic prompt:

Résous : 2x + 5 = 13

Avec répétition :

With repetition:

Résous : 2x + 5 = 13
Résous : 2x + 5 = 13

⚡ Avantages Immédiats

⚡ Immediate Benefits

Zéro configuration : aucun réglage requis
Universel : fonctionne sur tous les modèles
Gratuit : pas de coût tokens supplémentaire en sortie
Instantané : latence inchangée (prefill parallélisé)

Zero configuration: no settings required
Universal: works on all models
Free: no additional output token cost
Instant: unchanged latency (parallelized prefill)

🎯 Quand L'Utiliser

🎯 When to Use It

Tâches non-reasoning (sans chaîne de pensée explicite)
QCM avec options avant la question
Compréhension de documents longs
Extraction d'informations spécifiques

Non-reasoning tasks (without explicit chain of thought)
Multiple-choice with options before question
Understanding long documents
Extracting specific information

🧠 Pourquoi Ça Marche ?

🧠 Why Does It Work?

🔒 Limitation des LLMs Causaux

🔒 Causal LLM Limitation

Les modèles causaux traitent les tokens séquentiellement : un token ne peut pas "voir" les tokens suivants. Dans un prompt comme <OPTIONS><QUESTION>, les options ne peuvent pas accéder au contexte de la question qui arrive après.

Causal models process tokens sequentially: a token cannot "see" following tokens. In a prompt like <OPTIONS><QUESTION>, options cannot access the context of the question that comes later.

🔓 Solution : Attention Bidirectionnelle

🔓 Solution: Bidirectional Attention

En répétant le prompt (<QUERY><QUERY>), chaque token du premier bloc peut accéder à tous les tokens du second bloc via le mécanisme d'attention. Les "futurs" tokens du premier bloc deviennent les "passés" tokens du second.

By repeating the prompt (<QUERY><QUERY>), each token from the first block can access all tokens from the second block via the attention mechanism. The "future" tokens from the first block become the "past" tokens of the second.

📊 Observation Empirique

📊 Empirical Observation

Les modèles avec reasoning explicite (type o1, o3) répètent spontanément des parties du prompt dans leur monologue interne. La technique de répétition explicite apporte ces bénéfices aux modèles non-reasoning.

Models with explicit reasoning (o1, o3 type) spontaneously repeat parts of the prompt in their internal monologue. The explicit repetition technique brings these benefits to non-reasoning models.

🤖 Modèles Testés

🤖 Tested Models

Google Gemini 2.0

Flash Production
Flash Lite Rapide

OpenAI GPT

GPT-4o Flagship
GPT-4o-mini Compact

Anthropic Claude 3

Sonnet Équilibré
Haiku Léger

Deepseek

Deepseek V3 Open

📋 Benchmarks Utilisés

📋 Benchmarks Used

Benchmark	Benchmark	Type	Type	Description	Description	Impact Répétition	Repetition Impact
ARC (Challenge)	ARC (Challenge)	QCM Science	Science MCQ	Questions scientifiques niveau école	School-level science questions	Fort (options-first)	Strong (options-first)
OpenBookQA	OpenBookQA	QCM Compréhension	Comprehension MCQ	Questions avec livre ouvert	Open book questions	Modéré	Moderate
GSM8K	GSM8K	Maths école	School math	Problèmes mathématiques simples	Simple math problems	Modéré	Moderate
MMLU-Pro	MMLU-Pro	QCM Multi-domaine	Multi-domain MCQ	Connaissances générales avancées	Advanced general knowledge	Fort	Strong
MATH	MATH	Maths avancées	Advanced math	Problèmes mathématiques complexes	Complex math problems	Modéré	Moderate
NameIndex	NameIndex	Custom	Custom	Extraction nom à position spécifique	Name extraction at specific position	Très fort (+76%)	Very strong (+76%)
MiddleMatch	MiddleMatch	Custom	Custom	Correspondance élément central	Middle element matching	Très fort	Very strong

🏆 Gains Spectaculaires (Exemples)

🏆 Spectacular Gains (Examples)

Gemini 2.0 Flash-Lite

NameIndex

Sans répétition : 21.33%
Without repetition: 21.33%
Avec répétition : 97.33%
With repetition: 97.33%
Gain : +76 points
Gain: +76 points

GPT-4o-mini

ARC (options-first)

Amélioration significative sur QCM difficiles
Significant improvement on difficult MCQs
Gains constants sur tous les benchmarks
Consistent gains across all benchmarks

Claude 3 Sonnet

Tous benchmarks

All benchmarks

Améliorations mesurables
Measurable improvements
Particulièrement efficace sur tâches custom
Particularly effective on custom tasks

Deepseek V3

Performances générales

General performance

Gains cohérents
Consistent gains
Validé sur modèle open-source
Validated on open-source model

📈 Validation Statistique

📈 Statistical Validation

🔬 Méthodologie Rigoureuse

🔬 Rigorous Methodology

Test statistique : McNemar avec p-value < 0.1
Critère de significativité : amélioration statistiquement mesurable
Résultat global : 47 wins / 0 losses / 23 neutral
Conclusion : aucun cas de dégradation observé, technique robuste

Statistical test: McNemar with p-value < 0.1
Significance criterion: statistically measurable improvement
Overall result: 47 wins / 0 losses / 23 neutral
Conclusion: no degradation observed, robust technique

🔬 Variantes Expérimentées

🔬 Experimented Variants

Variante	Variant	Format	Format	Résultat
Répétition Standard	Standard Repetition	`<QUERY><QUERY>`	Gains significatifs (baseline)	Significant gains (baseline)
Répétition Verbose	Verbose Repetition	`<QUERY> Let me repeat that: <QUERY>`	Performances similaires ou supérieures	Similar or better performance
Répétition ×3	Repetition ×3	`<QUERY><QUERY><QUERY>`	Améliorations substantielles (custom tasks)	Substantial improvements (custom tasks)
Padding (contrôle)	Padding (control)	`<QUERY> + points pour même longueur`	Aucune amélioration (confirme mécanisme)	No improvement (confirms mechanism)

📝 Comment L'Appliquer Immédiatement

📝 How to Apply It Immediately

1️⃣ Cas d'Usage Idéaux

1️⃣ Ideal Use Cases

QCM avec options d'abord : la question arrive après les choix
Extraction d'infos : chercher un élément spécifique dans un texte long
Classification : catégoriser sans raisonnement complexe
Correspondance de patterns : identifier des motifs précis

MCQ with options first: question comes after choices
Info extraction: find specific element in long text
Classification: categorize without complex reasoning
Pattern matching: identify precise patterns

2️⃣ Implémentation Simple

2️⃣ Simple Implementation

// Avant
const prompt = userQuery;

// Après
const prompt = userQuery + userQuery;

// Ou avec séparateur
const prompt = userQuery + 
  "\nLet me repeat that:\n" + 
  userQuery;

// Before
const prompt = userQuery;

// After
const prompt = userQuery + userQuery;

// Or with separator
const prompt = userQuery + 
  "\nLet me repeat that:\n" + 
  userQuery;

3️⃣ Vérifier Les Gains

3️⃣ Verify The Gains

A/B test : comparer avec/sans répétition
Métriques : précision, cohérence des réponses
Latence : vérifier l'absence d'impact (sauf très longs prompts)
Coût : compte uniquement les tokens d'entrée (doublés)

A/B test: compare with/without repetition
Metrics: accuracy, response consistency
Latency: verify no impact (except very long prompts)
Cost: only counts input tokens (doubled)

⚠️ Limites et Considérations

⚠️ Limitations and Considerations

📏 Prompts Très Longs

📏 Very Long Prompts

Latence possible : sur prompts massifs, le prefill prend plus de temps
Observé sur : Claude (Haiku, Sonnet) avec NameIndex/MiddleMatch
Solution : tester répétition partielle ou sélective

Possible latency: on massive prompts, prefill takes longer
Observed on: Claude (Haiku, Sonnet) with NameIndex/MiddleMatch
Solution: test partial or selective repetition

🤔 Tâches avec Reasoning

🤔 Tasks with Reasoning

Résultats neutres : avec "Think step by step", gains minimes
Raison : modèles reasoning répètent déjà implicitement
Bilan : 5 wins, 1 loss, 22 neutral (pas nuisible)

Neutral results: with "Think step by step", minimal gains
Reason: reasoning models already implicitly repeat
Outcome: 5 wins, 1 loss, 22 neutral (not harmful)

💰 Coûts d'Entrée

💰 Input Costs

Tokens d'entrée doublés : coût API d'input × 2
Mais : tokens de sortie inchangés (coût principal)
Bénéfice net : ROI positif si gains > coût input additionnel

Input tokens doubled: API input cost × 2
But: output tokens unchanged (main cost)
Net benefit: positive ROI if gains > additional input cost

🔮 Directions Futures

🔮 Future Directions

🧪 Pistes Proposées par les Auteurs

🧪 Avenues Proposed by Authors

Fine-tuning avec prompts répétés : entraîner les modèles directement sur des prompts répétés
Intégration au training reasoning : incorporer la répétition dans l'apprentissage des modèles de raisonnement
Répétition périodique pendant génération : répéter le contexte à intervalles réguliers durant la génération
Optimisation KV-cache : réduire l'empreinte mémoire des tokens répétés en partageant le cache
Répétition sélective : ne répéter que les parties critiques du prompt (questions, contexte clé)
Extension aux modalités non-textuelles : tester la répétition sur images, audio, vidéo

Fine-tuning with repeated prompts: train models directly on repeated prompts
Integration into reasoning training: incorporate repetition into reasoning model learning
Periodic repetition during generation: repeat context at regular intervals during generation
KV-cache optimization: reduce memory footprint of repeated tokens by sharing cache
Selective repetition: only repeat critical parts of prompt (questions, key context)
Extension to non-textual modalities: test repetition on images, audio, video

🌍 Impact et Recommandations

🌍 Impact and Recommendations

✅ Recommandation Officielle

✅ Official Recommendation

Les auteurs suggèrent que la répétition de prompt devienne un défaut pour beaucoup de modèles et tâches lorsque le reasoning explicite n'est pas utilisé. C'est une optimisation gratuite et universelle.

Authors suggest that prompt repetition should become a default for many models and tasks when explicit reasoning is not used. It's a free and universal optimization.

🎯 Pour Les Développeurs

🎯 For Developers

Intégrer dans les wrappers/bibliothèques LLM
Option activable par défaut avec override possible
Logs/métriques pour mesurer l'impact réel
Documentation des cas d'usage optimaux

Integrate into LLM wrappers/libraries
Default-enabled option with possible override
Logs/metrics to measure real impact
Documentation of optimal use cases

📚 Pour Les Chercheurs

📚 For Researchers

Explorer les mécanismes d'attention sous-jacents
Tester sur architectures alternatives (non-causales)
Analyser l'impact sur différentes tailles de modèles
Optimiser le nombre de répétitions optimal

Explore underlying attention mechanisms
Test on alternative architectures (non-causal)
Analyze impact on different model sizes
Optimize the optimal number of repetitions

🔗 Ressources et Références

🔗 Resources and References

📄 Article Original

📄 Original Article

👥 Auteurs

👥 Authors

Yaniv Leviathan - Google Research
Matan Kalman - Google Research
Yossi Matias - Google Research

📊 Données Supplémentaires

📊 Additional Data

Tableaux de résultats complets dans le paper
Analyses statistiques détaillées (McNemar tests)
Graphiques de performance par modèle/benchmark

Complete results tables in the paper
Detailed statistical analyses (McNemar tests)
Performance graphs per model/benchmark

💎 Conclusion Clé

💎 Key Conclusion

Prompt Repetition est une des découvertes les plus simples et impactantes de 2025 en prompting. Elle démontre qu'une compréhension fine des architectures causales permet d'obtenir des gains massifs avec des modifications triviales. Cette technique devrait être intégrée par défaut dans tous les systèmes utilisant des LLMs non-reasoning pour des tâches de classification, extraction ou compréhension.

Prompt Repetition is one of the simplest and most impactful discoveries of 2025 in prompting. It demonstrates that a fine understanding of causal architectures enables massive gains with trivial modifications. This technique should be integrated by default in all systems using non-reasoning LLMs for classification, extraction or comprehension tasks.

Prompt Repetition