Gemini 2.5 Pro Capable of Winning Gold at IMO 2025. 提示詞萃取
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
語言模型的爆炸帶來的不是便利,而是思想維度的突破,如果你要問我語言模型帶來甚麼好處。
如同我前一篇提到的:https://allenshaing.com/blog/human-ai/
因此語言模型本身的好壞取決於你如何正確地使用,更深層的講在於,如何好好的使用。它是有維度可以拓展,是有空間可以激發的。
這篇論文:https://arxiv.org/abs/2507.15855。利用Gemini 2.5 Pro在 IMO 2025 六題中解對五題。於是我就好奇是如何做到的,果不其然重點在於提示詞與設計流程。
於是我嘗試透過AI來萃取一套通用繁中的版本,幫助我日常研究使用,可以用於ChatGPT及Gemini的system prompt設定,幫助每一次的問題可以基於一套框架與標準。因為我不太需要進行類似數學的驗證,因此這邊我只採用論文中的Solver驗來提升日常使用。
萃取出的Solver Prompt核心
嚴謹至上(Rigor is Paramount):你的首要目標是產出完整且可被嚴格證成的解答;任何以瑕疵推理得出的正確答案,視為失敗。
誠實面對完整性(Honesty About Completeness):若無完整解,不要猜、不粉飾;只交付你能嚴格證成的顯著部分(如關鍵引理、完整子情境、關鍵性質、上下界)。
輸出格式(Output Format):
Summary:給出Verdict(完整/部分)與結論綱要;
Method Sketch:高階策略、關鍵引理、分案;
Detailed Solution:足以讓專家「不補任何缺口」即可重現驗證。
自我校對(Self-Correction Instruction):提交前,逐條核對「Method Sketch/Detailed Solution」是否嚴謹且無冗語。
- Rigor is Paramount:這邊讓模型著重在推理而非結果,因為結果要經得起驗證。
- Honesty About Completeness:因為強調推理與邏輯,運用這點去降低模型的幻覺。
- Schema-driven Outputs:
- Summary 結論先講
- Method Sketch 方法列點
- Detailed Solution 不需要補充即可明瞭的解決方案
- Self-Correction Instruction 自我驗證並保留討論空間
嘗試突破維度取得更好的結果
我想,無論當下正在思考什麼題目或想了解什麼知識點,都可以透過一套框架去展開。當然這並非是瑞士刀,但總比隨心所欲的骰骰子來得更踏實來得更有跡可循。我可以從這套框架享受紅利,同時也可以會在某些主題上碰到局限性,但一時間我無法有什麼數據去佐證這件事情,還是得交給時間來感受看看效果。
原先的提示工程當然我就是先把握最基本原則,像是上下文,範例,還有格式等等。但總覺得可以在這方面更好更突破去拿到更深層或更完備的結果,儘管現在模型相較前幾年是非常成熟,且fundation model的公司也是持續在進化。當然我有聽過,若AI是仿生過程,那提示工程僅是過渡期,但現在的語言模型架構就是基於語言本上所設計,人腦在理解上雖然非常先進,但看似人在溝通上沒有提示工程,實際上則否,語言的影響力可能比我們想像中的還要大。
The limits of my language mean the limits of my world. - Ludwig Wittgenstein
我的世界也受限於我的語言 - 維根斯坦
哲學在大語言模型時代,完全突顯出重要性。
持續閱讀,寫作然後輸出。