Erdős-Sidon 攻擊報告

94 輪 LLM 群、零無條件改進、3 篇副產物 paper

一句話答案:我們用 LLM 群跑了 94 輪,沒打敗 1969 年的 Lindström 上界——但發現了一對 49 年前被遺忘的 Bloom–Golomb homometric Sidon 例子的新性質、命名了兩個 LLM-數學的失敗模式,產出三篇可發表 paper。

  1. W348 反例:$(A, B) = (\{0,1,5,7,15,18\}, \{0,1,3,8,14,18\})$ 的差集 multiset 相同、$M_2$ 卻不同——order-sensitive 確實逃出 $r_{S-S}$ 不變式,但這個 escape 連 Erdős–Turán 的 $\sqrt{2N}$ 上界都打不到。
  2. Bloom–Golomb 1977 49 年後重發現:同一對 $(A,B)$ 在 $\mathbb{Z}/41$、$\mathbb{Z}/43$ 上的 cyclic $U^3$ 範數不同——應該是這個 49 歲的範例第一次在 higher-order Fourier 視角下被分開。
  3. Lemma 5.2 整數 vs 循環:對 Sidon 集 $S$ 與 $k \ge 2$,整數 $\|\mathbf{1}_S\|_{U^k}$ 是 $r_{S-S}$ 的 exact function(zero slack),但循環版有 wraparound 修正項——$U^k$ 是 integer-vs-cyclic 的 sensitivity probe。
94輪攻擊
363sub-agents
24audit cycles
35sealings
0無條件改進
3可發表 paper

§1 Erdős–Sidon 是什麼(給高中生)

鼓棒間距類比。想像一個鼓手在一根長度為 18 的尺上釘 6 顆釘子,他希望任意兩顆釘子的距離都不一樣——這樣每組距離都對應到一段獨特的節奏。例如 $\{0, 1, 5, 7, 15, 18\}$ 這 6 顆釘子兩兩相減共有 $\binom{6}{2} = 15$ 組差,剛好 15 個全部不同($1, 5, 7, 15, 18, 4, 6, 14, 17, 2, 10, 13, 8, 11, 3$)。這種「差全部不重複」的集合就叫 Sidon 集,等價於 Golomb ruler

Erdős 與 Turán 1941 的問題:在 $[1, N]$ 內最多能放幾顆釘子才使它仍是 Sidon?他們猜答案差不多是 $\sqrt{N}$,誤差只比 $\sqrt{N}$ 多一點點。這個猜想已經開放 85 年——也就是我們這份報告的攻擊目標。

下面這張圖你可以親手拖 6 顆點,重複的差會立刻變紅,幫你感覺「為什麼 6 顆點在長度 18 的尺上幾乎是極限」。

形式化定義

Sidon set / $B_2$ set。$S \subseteq \mathbb{Z}$ 是 Sidon set,若對所有 $a, b, c, d \in S$,等式 $a + b = c + d$ 蘊涵 $\{a,b\} = \{c,d\}$。等價地,差集 multiset $r_{S-S}(d) := |\{(x,y) \in S \times S : x - y = d\}|$ 對 $d \ne 0$ 全部為 1。

研究函數:$F_2(N) := \max\{ |S| : S \subseteq [1, N], S \text{ Sidon}\}$。

Erdős–Turán 1941 上界:$F_2(N) \le \sqrt{N} + \sqrt[4]{N} + 1$.

Lindström 1969 改進常數:$F_2(N) \le \sqrt{N} + \sqrt[4]{N} + 1$(同樣 main term,常數略改).

Singer 1938 / Bose–Chowla 1962 下界:$F_2(N) \ge \sqrt{N} - O(N^{1/2 - c})$ 對某 $c > 0$.

Erdős–Turán 猜想:$F_2(N) = \sqrt{N} + O(N^\varepsilon)$ 對所有 $\varepsilon > 0$.

為什麼上界是 $\sqrt{N}$?(鴿籠論證)

若 $|S| = k$,則 $S$ 內共有 $\binom{k}{2} = \frac{k(k-1)}{2}$ 組 ordered pair 之差,且因 Sidon 性,這些差兩兩不同(pairs 反過來算也是兩兩不同)。所有差落在 $[1, N-1]$ 之間,可能值至多 $N - 1$ 個。鴿籠:$\frac{k(k-1)}{2} \le N - 1$,所以 $k \lesssim \sqrt{2N}$。

Erdős–Turán 1941 把這個簡單界用 Fourier 方法精細化,把上界從 $\sqrt{2N}$ 進化到 $\sqrt{N} + N^{1/4}$。Lindström 1969 進一步把常數壓到 1。85 年後沒有人能把 $N^{1/4}$ 換成更小的指數。

互動:拖 6 顆點,重複的差會變紅

點選任一顆釘子,左右拖動。底下會即時顯示這 6 顆釘子的所有兩兩差;若有任何重複,重複的那一對會染紅。範例起始位置就是 $\{0,1,5,7,15,18\}$(Bloom–Golomb 1977 的 $A$)。

§2 1969 年的 Lindström 牆

整個 Sidon 上下界研究 85 年下來,剩下的就是一道又窄又難爬的縫:

  • 上界:$F_2(N) \le \sqrt{N} + N^{1/4} + 1$(Lindström 1969,1969 年至今沒改進)
  • 下界:$F_2(N) \ge \sqrt{N} - O(N^{1/2 - c})$(Singer 1938 / Bose–Chowla 1962)

主項都是 $\sqrt{N}$,差的只是 $N^{1/4}$ 與 $N^{1/2-c}$ 那一條小縫。Erdős 猜這條縫該被縮到 $N^\varepsilon$,可是 85 年沒人做到。下面的圖讓你「看」這條縫多窄。

$L^4$ 障礙——為什麼縫這麼難縮?

所有 16 個 framework(Fourier / Weil / algebraic geometry / Hilbert scheme / Behrend / regularity lemma / 概率方法 / 同態類比 / 高範疇 / holographic / tropical / Berkovich / ...)在 round 16 之前都遞迴到同一個 Sidon $L^4$ identity:

$$\sum_{\xi \in \widehat{\mathbb{Z}/N}} |\widehat{\mathbf{1}_S}(\xi)|^4 = N \cdot (2|S|^2 - |S|).$$

從這個 identity 出發的最強論證恰好就是 Lindström $\sqrt{N} + N^{1/4}$。要打破它你需要 $L^6$ moment control,但 Sidon 公理(pairwise differences distinct)強制這個 control。我們 94 輪所有 attack 在某層都被這個 $L^6$ 障礙頂住。

條件性結果(不算「無條件改進」)

有些條件性的「sub-Lindström」結果在 94 輪內被建構(W51 等):例如假設 Generalized Lindelöf Hypothesis + 一個 Sidon–Kloosterman bridge,可得 $F_2(N) \le \sqrt{N} + O(N^{1/8 + \varepsilon})$。但這些都不算無條件——所以本報告嚴格地說「0 unconditional improvements」。

圖:$\sqrt{N}$ 與 $\sqrt{N} + N^{1/4}$ 的縫,$N = 10 \dots 10000$

藍色 = $\sqrt{N}$(Erdős 猜的真值附近);紅色 = Lindström 1969 上界 $\sqrt{N} + N^{1/4} + 1$;綠色 = Singer 1938 / Bose–Chowla 1962 下界 $\sqrt{N} - O(N^{1/2-c})$。縫的大小是 $N^{1/4}$ 量級——對 $N = 10^4$ 只有 10 顆釘子的差距。

§3 我們的 94 輪攻擊(事實陳述)

方法。2026 年 1 月到 5 月,我們用 Claude Opus 4.7 為基礎建立了一個自動 agent swarm:主 agent 派出 W-prefixed 的 sub-agent,每個 sub-agent 嘗試從某個 framework(傅立葉 / AG / 高範疇 / holographic / ...)攻擊 Erdős–Sidon。每 4–6 輪做一次 audit cycle,把 sub-agent 的自評降到「audit-verified」等級——很多時候降到 0。

數字。截至 W353(2026-05-19):

  • 94 輪(R1 到 R94,每輪 3–6 個 sub-agent)
  • 363 sub-agents(累計)
  • 24 audit cycles(每輪內 + 跨輪 triple-audit)
  • 12 Iron Triangle vertices(被識別的結構障礙)
  • 35 audit-verified sealings(從 42 declared 出發:7 sample-verified PASS、2 confirmed FAIL(W272 row 5 與 W336 row 17)、33 unaudited-extrapolated;35 為 conservative 估計,計入部分降格之 sealings)
  • 0 unconditional Lindström improvements
  • 3 publishable papers(Paper A, G, M)

「失敗」是有意義的:8/9 prior-downgrade rule。94 輪中有 9 次 W-agent 自評為「重大突破」(W340 三障礙 / W272 row 5 / W336 row 17 / ...),audit 階段 8 次被降為「條件、誤算或重複既有結果」。這個 8/9 比例本身是 Paper G 報告的方法論發現。

什麼是「Iron Triangle vertex」?

我們把 94 輪中反覆撞到的結構障礙抽象成 12 個 vertex,包括:(1) Sidon $L^4$ identity 障礙;(2) Lindström-Cilleruelo = Weil bound 等價(W48 Theorem 26.1);(3) AG additive-vs-multiplicative mismatch;(4) holographic area-law;(5) Hilbert scheme 不適用;(6) ZFC independence 幾乎排除(Sidon 在 $\mathrm{ACA}_0$);(7-12) 詳見 Paper G §4。

Vertex #12(order-sensitive distal-NIP)是 W342 在 R93 加入的——這也是 W348 反例最後落在的位置:order-sensitive 確實是 $r_{S-S}$ 之外的 escape,但這個 escape 無法 match Lindström。

為什麼還繼續跑 94 輪?

R20 之後就已經 declared 過「research space exhausted」一次,但用戶的 plan B(負面結果可被當主結果)多次重開。R85–R94 的目標已轉為「documenting LLM-driven attack 的方法論特徵」而非「期待真的破 Lindström」——這也是 Paper G 的核心轉折。

圖:94 輪攻擊的簡化樹狀圖

每個圓圈是一個 W-agent;按 round 分層,按 audit 結果上色。綠色 = audit PASS;橘色 = 條件性結果;紅色 = audit FAIL;灰色 = 重複既有結果。圖中只顯示主要 W-agent(簡化版,完整版見 Paper G 附錄)。

§4.A Paper A:整數 cube count + Bloom–Golomb cyclic $U^3$

白話總結。Paper A 做兩件事。

(1) 一個漂亮的整數公式:給 $n$ 個元素的整數 Sidon 集 $S$,我數有多少個「$k$ 維小立方體」可以用 $S$ 內的元素塞滿——答案是 $T_k(S) = n + k \cdot n(n-1)$,對所有 $k \ge 3$。證明只用 parallelogram exclusion(一個跟「平行四邊形等於三點決定」一樣短的論證),兩行寫完。這個顯式封閉式 70% 是首次顯式給出。

(2) 一對 49 歲的範例的新性質:1977 年 Bloom 與 Golomb 列出了 $(A, B) = (\{0,1,5,7,15,18\}, \{0,1,3,8,14,18\})$,注意 $A$ 與 $B$ 的差集 multiset 完全相同(所謂 homometric)。我們把它們嵌入 $\mathbb{Z}/41$ 與 $\mathbb{Z}/43$,計算 cyclic $U^3$ Gowers 範數——發現 $A$ 與 $B$ 不同。這顯示 cyclic $U^3$ 是「整數 vs 循環」的 sensitivity probe;同樣的對在整數版本上 $U^3$ 一定相等(Lemma 5.2),只有 cyclic 版本能分開它們。

形式化(Theorem 1.1)

Theorem 1.1(顯式 cube count)。令 $S \subseteq \mathbb{Z}$ 為 Sidon 集,$|S| = n$。對任意整數 $k \ge 3$,

$$T_k(S) := \#\{(x_0, v_1, \dots, v_k) \in S \times \mathbb{Z}^k : x_0 + \textstyle\sum_{i \in I} v_i \in S \text{ for all } I \subseteq [k]\} = n + k \cdot n(n-1).$$

證明用 parallelogram exclusion:除了 $v_i \in \{0, s_j - x_0 : s_j \in S\}$ 的情況外,所有 $v_i$ 都被 Sidon 公理排除。

形式化(Theorem 1.2:Bloom–Golomb cyclic $U^3$)

Theorem 1.2.令 $A = \{0,1,5,7,15,18\}$, $B = \{0,1,3,8,14,18\}$(Bloom 1977 / Bloom–Golomb 1977 的 $(R(3,-2), \mathrm{refl}_{18} S(3,-2))$ 對)。在 $\mathbb{Z}/41$(和 $\mathbb{Z}/43$)上,

$$\|\mathbf{1}_A\|_{U^3(\mathbb{Z}/N)} \neq \|\mathbf{1}_B\|_{U^3(\mathbb{Z}/N)},$$

儘管它們的 $r_{S-S}$ multiset 完全相同。差異來自 cyclic-only doubling-relation count $M_5^{(N)}$(Lemma 4.1);整數版本所有相關 count 都退化為 $r_{S-S}$ 的函數(Lemma 5.2,見 §4.M 也使用)。

$M_5^{(\infty)}(A) = M_5^{(\infty)}(B) = 158$,但 $M_5^{(41)}(A) \neq M_5^{(41)}(B)$——wraparound 才是兩者分歧的根源。

圖:Bloom–Golomb 對 $(A, B)$ 並排比較

上圖 $A = \{0,1,5,7,15,18\}$,下圖 $B = \{0,1,3,8,14,18\}$。中間列出兩者共同的 $r_{S-S}$ 差集 multiset(15 個全相同),右側列出 $M_2$、$m_8$、cyclic $U^3$ 等 order-sensitive invariant——這些不同。

完整內容見 paper-a/paper.pdf(12 頁 / 333 KB / 投稿 Integers 或 EJC Notes)。

§4.G Paper G:兩種 LLM-數學失敗模式

白話總結。Paper G 不是數學論文,是一份 AI4Math 的 field report。在 94 輪攻擊裡,audit 階段反覆抓到兩種特定的錯誤模式,我們給它們命名——這個命名本身就是 Paper G 的核心貢獻。

F1'' Meta-Overcategorization(自我膨脹進入偉大歷史敘事)。R93 的 W340 在自評時把自己的結果歸類為「Sidon 第三障礙 = Razborov–Rudich + Aaronson–Wigderson 三部曲」。但 Razborov–Rudich 是電腦複雜性,Aaronson–Wigderson 是 algebrization——和 Sidon 的 additive combinatorics 結構根本不在一個範疇。W340 自己把自己編進一個「barrier theorems 三部曲」,audit 階段 W347 否決。我們把這種「自己把自己歸入錯誤的偉大歷史敘事」稱為 meta-overcategorization。

F1''' Frame-Replication Trap(7 個 sub-agent 互抄同一個錯)。R88 派出 7 個 sub-agent(W339–W345)各自嘗試一個 Bloom–Sisask 2020 的引理應用。7 個獨立 agent 的最終回報全部都用了一個 $O(\log\log N)$ 的常數——audit 階段才發現這個常數來自一個共享的偽引理 frame,沒人去翻原 paper 核對。一個錯誤被 7 個 agent 同時相信,從外觀像「多重證據」、骨子裡是同一個。

正式定義(Paper G §3)

F1'' meta-overcategorization:當一個 LLM agent 在自評階段,把自己的工作歸入一個歷史 lineage(如「barrier theorems」、「impossibility framework」),但實際的歷史定理在 (a) 模型類別不對,(b) 證明工具不重疊,或 (c) 該 lineage 從未把這類問題收入。

F1''' frame-replication trap:當一個 LLM swarm 內 $k \ge 3$ 個 sub-agent 獨立回報「我用 framework $F$ 得到結論 $C$」,但其實 $F$ 隱含一個共享的偽引理 $L$,且沒有任何 sub-agent 在自己的回報裡實際核對 $L$。表面上 $k$ 重獨立證據,本質上只是一個錯誤被複製 $k$ 次。

Audit-to-non-quiescence conjecture

Paper G 另一個 contribution 是 audit-to-quiescence failure 的 conjecture:在開放猜想 (open conjecture) 的 LLM-driven 攻擊上,audit cycle 不會收斂到 quiescent state。本研究中 24 個 audit cycle 後 still 在抓到新的 F1''/F1''' 案例(R94 triple-audit W347/W348/W349 仍 reopen 一個 vertex),驗證了 conjecture 的方向,但 $n=1$ 不能 confirm 一般性。

對 Tao AlphaEvolve 2025 narrative 的對立立場

2025 年底 Tao 與 AlphaEvolve 的「AI 解了 100+ Erdős problems」narrative 認為 LLM-assisted attack 對開放問題逐步收斂。Paper G 提出對立立場:

  • 不同 Sidon 子問題:AlphaEvolve 報告的成功多半是 (a) 有 explicit verifier 的構造性下界問題,(b) 已知 framework 的小量改進。Erdős–Sidon upper bound 兩者都不滿足——沒有 verifier,沒有 framework 可以小量改進。
  • Verifier 不對稱:Sidon 下界有 verifier(檢查一個明確的集合);上界沒有。LLM swarm 在無 verifier 的情境下高度依賴自我評估,這正是 F1''/F1''' 出現的溫床。

完整內容見 paper-g/paper.pdf(16 頁 / 280 KB / 投稿 NeurIPS 2026 MATH-AI workshop)。

§4.M Paper M:gap-sequence 抓不到 Erdős–Turán

白話總結。Sidon 集的相鄰差 $g_i := s_{i+1} - s_i$ 形成一條 gap sequence。傳統 70 年的 autocorrelation $r_{S-S}$ 工具會把 gap 的順序資訊抹平——所以 $M_2 = \sum g_i^2$ 這類「order-sensitive」量是 $r_{S-S}$ 之外的 escape。Paper M 問:能不能用這個 escape 改進 Lindström?

答案:不能。Paper M 證明(Theorem 4.7):只用 gap distinctness(Sidon 公理)+ trivial bound $M_2 \le N^2$ + Cauchy–Schwarz,最強的上界是 $|S| = O(N^{2/3})$——比 Erdős–Turán 1941 的 $\sqrt{2N}$ 還弱。

數值上:Bose–Chowla 構造($\mathbb{F}_p$, $p = 3 \dots 31$)的 $M_2 / N^{3/2}$ 是 fluctuating 在 $[0.7, 1.8]$ 之間——沒有一個漂亮的飽和常數,這個訊號告訴我們 gap-sequence 不是好的 invariant。

形式化(Theorem 4.7)

Theorem 4.7.令 $S \subseteq [1, N]$ 為 Sidon 集,$|S| = k$,gap sequence $g_1 < g_2 < \dots < g_{k-1}$(gap distinctness 是 Sidon 蘊涵)。若只用 (C1) $g_i$ 兩兩不同、(C2) $\sum g_i = s_k - s_1 \le N$、(C3) $M_2 = \sum g_i^2 \le N^2$ 與 Cauchy–Schwarz,最強上界是 $k = O(N^{2/3})$。

證明用 Mian–Chowla + outlier 構造,達到 $k = (1-o(1)) N^{2/3}$,因此上界 sharp。

結論:gap-sequence polynomial invariant 自成一族時,無法 match Erdős–Turán 的 $\sqrt{2N}$。Paper M 提出 Conjecture 7.1(W353-A)猜想:任何 gap-sequence 的 polynomial invariant 都不能 match Lindström

Bose–Chowla 數值表

下表為 Bose–Chowla 構造在 $\mathbb{F}_p$($p = 3, 5, 7, 11, 13, 17, 19, 23, 29, 31$)上的 $M_2 / N^{3/2}$ 比值($N = p^2 - p$,$k = p$)。注意比值沒有收斂到單一常數,而是 fluctuating 在 $[0.74, 1.78]$ 之間——這是 order-sensitive escape 不是「飽和」的訊號。

$p$$k = |S|$$N$$M_2$$M_2 / N^{3/2}$
336140.953
55201201.342
77424381.610
111111018321.589
131315628901.483
171727266241.476
191934290781.435
2323506171701.508
2929812356401.541
3131930435781.534

數值由 paper-m/verify_numerics.py 重現(exact rational arithmetic)。

圖:Bose–Chowla $M_2 / N^{3/2}$ 散佈圖

$x$ 軸為 $p \in \{3, 5, 7, 11, 13, 17, 19, 23, 29, 31\}$,$y$ 軸為 $M_2/N^{3/2}$ 比值。虛線標出 $1.6$ 平均值。注意這不是飽和——比值在 $0.7 \dots 1.8$ 之間 fluctuate,沒有趨向常數。

完整內容見 paper-m/paper.pdf(18 頁 / 364 KB / 投稿 Integers)。

§5 Open Problems

94 輪攻擊封死了某些 attack route,但留下幾個我們相信值得繼續挖的開放問題。

5.1 Conjecture W353-A(gap-sequence polynomial impossibility)

任何 gap-sequence 的 polynomial-in-$g_i$ invariant,單獨無法給出 sub-Lindström 上界——亦即 Paper M Theorem 4.7 的 $O(N^{2/3})$ 是 polynomial gap-sequence invariant 的上界。需要混入 cross-$r_{S-S}$ term 才有機會。

5.2 整數 → 循環的 doubling-relation 結構

Paper A Lemma 5.2 顯示整數版 $\|\mathbf{1}_S\|_{U^k}$ 是 $r_{S-S}$ 的 exact function(zero slack),但循環版本有 wraparound 修正項——Bloom–Golomb $(A,B)$ 對在循環版被分開正是這個機制。完整刻畫 wraparound 對 cyclic $U^k$ 的影響,是 Paper A 留給後續的 follow-up。

5.3 我們的 94 輪沒攻過的方向

  • 連續 Sidon:$\mu$-Sidon 在 $\mathbb{R}$ 上,連續類比的 Lindström 牆。94 輪集中在離散整數版,連續版只在 W23、W56 兩處 brief mention。
  • Hadamard–Sidon:把 Sidon 條件擴張到 Hadamard 矩陣的列空間。R72 的 W229 觸碰但未深入。
  • Bilinear $L^4$ 變體:Sidon 的 $L^4$ identity 有沒有 bilinear 版本能避開單變數 $L^6$ 障礙?這條沒人試過。
  • Probabilistic refinement of Bose–Chowla:Bose–Chowla 構造的 $M_2$ fluctuation(Paper M 數值表)是否反映 underlying Cramér-like randomness?這條和 Mertens-style 數論分析直接相關。

5.4 後續若想用 LLM swarm 應該怎麼做

從 Paper G 萃取的 actionable lesson:

  1. 每輪 audit 前先做 frame-disambiguation:列出所有 sub-agent 共享的 lemma 假設,至少抽 1/3 做盲驗證,斷掉 frame-replication trap 的鎖鏈。
  2. 嚴禁自評階段做歷史分類:任何「這是 X 第三障礙」、「等同於 Y impossibility」的自評都要由獨立 audit agent 重做,且 burden of proof 在分類人這邊。
  3. 對開放猜想,先設 quiescence 終止條件:例如「連續 5 輪沒有新的 sealing 就停」。本研究的 24 輪 audit 仍 non-quiescent,要事先協議終止。

§6 LLM 使用聲明

本報告與 3 篇 paper 的所有定理發現、證明撰寫、數值驗證、文獻搜尋與審稿循環,都使用 Anthropic Claude(Opus 4.7 為主、Sonnet 為 audit 與 reviewer)以 agentic swarm 方式產出。作者 (Lightman Chang) 負責任務規劃、prompt 設計、跨 sub-agent 結論彙整、最終下修決策(包括把 W340 從「Theorem 1.2 candidate」下修為「Proposition 2.5」這類關鍵裁判)。

所有引用文獻、所有 $M_2$ / $M_5$ / $U^3$ 數值都用獨立 Python 重新驗證(見 paper-m/verify_numerics.py)。「8/9 prior-downgrade rule」既是本研究的 quality control 機制,也是 Paper G 的核心觀察對象。

artifact 釋出計畫

363 sub-agent 的完整 transcript 計畫以 CC-BY-4.0 釋出,放在 github.com/weiqi-kids/optimal-golomb-rulerexploration/decisions.md。Paper G 的 §5 reproducibility section 引用這份 transcript。