Cookie Consent by Free Privacy Policy Generator

Von Zero-Shot-Prompten bis RAG – Teil 6: Self-Consistency Prompting

Von Zero-Shot-Prompten bis RAG – Teil 6: Self-Consistency Prompting
Photo by Almas Salakhov / Unsplash

Auch in Teil 6 unserer Serie beschäftigen wir uns wieder mit einer fortgeschrittenen Prompting-Technik. Heute geht es um Self-Consistency-Prompting. Self-Consistency-Prompting basiert auf einer einfachen Idee: Warum nur eine einzige Antwort generieren lassen, wenn das Modell verschiedene Denkwege ausprobieren kann? Klassisches Chain-of-Thought-(CoT-)Prompting fordert das Modell auf, seinen Gedankengang offenzulegen. Self-Consistency geht einen Schritt weiter und sammelt gleich mehrere Gedankengänge.

Statt also einen Prompt zu schreiben und mit der einen Antwort zu arbeiten, forderst du mehrere Samples an. Jedes Sample liefert einen eigenen Chain-of-Thought und am Ende eine Kandidaten-Antwort. Nun zählst du, welche Antwort am häufigsten auftritt – und gibst genau diese als finale Ausgabe aus.

So profitierst du gleich doppelt: Erstens werden zufällige Ausreißer oder Denkfehler unterdrückt, weil sie statistisch wenig Gewicht haben. Zweitens nutzt du die „kollektive Intelligenz” des Modells, das verschiedene Pfade erkundet und so auf die robusteste Lösung kommt. Ein praktisches Beispiel: Bei Mathematikaufgaben liefert das Modell mal „42”, mal „43” und mal „44” – je nachdem, welchen Rechnungsweg es wählt. Statt dich auf die erste Antwort zu verlassen, erzeugst du 30 Prompts und stellst fest, dass „43” in 18 Fällen auftaucht, „42” nur in 7 und „44” in 5. Voilà: Deine finale Antwort lautet dann „43”.

Ein weiteres Beispiel mit einem One-Shot-Prompt und 3 Anläufen:

Anlauf 1: Richtig ✅ Nutzer
Lisa hat 12 Äpfel. Sie gibt 3 an ihren Bruder und isst 2 selbst. Wie viele Äpfel hat Lisa noch?
ChatGPT
Lisa hat noch 7 Äpfel, denn 12 - 3 - 2 = 7
Anlauf 2: Falsch ❌ Nutzer
Lisa hat 12 Äpfel. Sie gibt 3 an ihren Bruder und isst 2 selbst. Wie viele Äpfel hat Lisa noch?
ChatGPT
Lisa hat noch 9 Äpfel, da sie 3 abgibt
Anlauf 3: Richtig ✅ Nutzer
Lisa hat 12 Äpfel. Sie gibt 3 an ihren Bruder und isst 2 selbst. Wie viele Äpfel hat Lisa noch?
ChatGPT
Lisa hat noch 7 Äpfel, da sie 2 selbst isst und 3 ihrem Bruder gibt. Es bleiben also 7/12 Äpfeln übrig

Wir sehen, dass in diesem Beispiel 7 die richtige Antwort zu sein scheint, da sie am häufigsten auftritt.

In der Praxis lohnt sich Self-Consistency-Prompting vor allem bei Aufgaben, bei denen es auf Zuverlässigkeit und Robustheit ankommt – etwa bei komplexen Rechenaufgaben, juristischen Textanalysen oder medizinischen Klassifikationen. Sobald ein einzelner Ausreißer fatale Folgen haben könnte (beispielsweise bei der Diagnose-Hilfe eines Modells) oder wenn mehrere valide Lösungswege existieren, bringt das Mehrfach-Sampling einen klaren Mehrwert. Anders sieht es aus, wenn du schnell einfache Fakten abrufen willst, wie „Wer war 1999 Bundeskanzler?“ oder „Wie heißt der größte See der Welt?“. Hier ist der Overhead aus erhöhtem Sampling und Vote-Aggregation schlicht übertrieben: Die Anfrage läuft in einem Durchgang mit den anderen Techniken fast immer korrekt, und der Zeit- sowie Kostenaufwand lohnt den Mehraufwand nicht. Auch in Echtzeit-Anwendungen mit niedriger Latenz – etwa Chatbots, die in Millisekunden reagieren müssen – kann Self-Consistency aufgrund der mehrfachen Modellaufrufe zu Verzögerungen führen. In solchen Fällen greifst du besser auf schlankere Decoding-Strategien zurück und setzt Self-Consistency nur selektiv dort ein, wo Präzision die Performance-Einbuße rechtfertigt.

💡
Self-Consistency generiert mehrere Chain-of-Thought-Ausgaben mit hoher Sampling-Temperatur. Die finale Antwort wird per Majority Vote über die gesammelten Kandidaten bestimmt. Fehler durch Ausreißer werden statistisch ausgeglichen. Komplexe Aufgaben profitieren von multiplen Denkpfaden und kollektiver Intelligenz. Umsetzung erfordert nur Anpassung der Decoding-Parameter, kein neues Modell.

Self-Consistency-Prompting ist eine elegante und effektive Methode, um die Genauigkeit von Sprachmodellen ohne großen Mehraufwand zu verbessern. Ob knifflige Rechenaufgaben oder komplexe Klassifizierungen – mit Self-Consistency holst du das Beste aus deinem Modell heraus. Probiere es aus, und lass dich überraschen, wie oft der Konsens klarer wirkt als eine Einzelantwort!


Quellen:

Self-Consistency – Nextra
A Comprehensive Overview of Prompt Engineering
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, self-consistency, to replace the naive greedy decoding used in chain-of-thought prompting. It first samples a diverse set of reasoning paths instead of only taking the greedy one, and then selects the most consistent answer by marginalizing out the sampled reasoning paths. Self-consistency leverages the intuition that a complex reasoning problem typically admits multiple different ways of thinking leading to its unique correct answer. Our extensive empirical evaluation shows that self-consistency boosts the performance of chain-of-thought prompting with a striking margin on a range of popular arithmetic and commonsense reasoning benchmarks, including GSM8K (+17.9%), SVAMP (+11.0%), AQuA (+12.2%), StrategyQA (+6.4%) and ARC-challenge (+3.9%).