P1 報告解讀：從旋轉曲線到弱透鏡，如何檢驗 EFT 的平均引力響應

基於《P1_RC_GGL：星系動力學與弱透鏡的嚴格閉合檢驗（v1.1）》撰寫的面向公眾解讀版

作者原報告：屠廣林｜版本基礎：P1 v1.1｜解讀定位：公眾說明稿 / 非同行評審論文
相關歸檔：報告 DOI 10.5281/zenodo.18526334 ｜復現包 DOI 10.5281/zenodo.18526286

查看原始評估報告：

1. ChatGPT： https://chatgpt.com/share/6a00c7d4-6240-83eb-9385-e9a1b76567ad

2. Gemini： https://gemini.google.com/share/066606dca612

3. Grok： https://grok.com/share/bGVnYWN5LWNvcHk_369f720b-c503-47e8-a040-18f0560141ea

4. 千問： https://chat.qwen.ai/s/9f9f59d9-1ef0-43db-a95d-111b918e0a2a?fev=0.2.46

5. DeepSeek： https://chat.deepseek.com/share/aw7lrq3igzhfqt418b

6. 豆包： https://www.doubao.com/thread/w8a2a130f6ad2c1f7

閱讀說明

這是一篇“解讀版”，不是另一篇學術報告。它以原始 P1 報告為基礎，保留關鍵圖表，並在每個關鍵環節補充“這意味著什麼”的公眾解釋。

本文只解讀 P1 在其既定資料集、參數賬本與統計協議下得出的結論：在星系旋轉曲線（RC）與星系—星系弱透鏡（GGL）的聯合檢驗中，EFT 的平均引力響應模型明顯領先於本文所測試的最小 DM_RAZOR 基線。

本文不把 P1 解讀成“推翻暗物質”的結論。P1 只是 P 系列實驗的第一步，它測試的是 EFT 中“平均引力底座”這一個可觀測層面，而不是 EFT 整體理論的全部內容。

0｜先用 5 分鐘理解 P1：這件事到底在做什麼？

你可以把 P1 想成一次“跨探針互相驗真”實驗。它不是只問某個模型能不能擬合一套資料，而是把兩種完全不同的引力讀數放到同一個審計台上：旋轉曲線（RC）讀星系盤裡的動力學，星系—星系弱透鏡（GGL）讀更大尺度上的投影引力響應。

RC 像“車速表”：告訴我們星系盤裡氣體和恆星在不同半徑處轉得多快。
GGL 像“體重秤”：通過背景光被前景星系輕微彎曲的程度，反推星系周圍更大尺度的平均引力/質量分布。
P1 的核心問題是：同一套模型，能否先從 RC 學到規律，再把這套規律遷移到 GGL 上仍然說得通？

P1 最核心的一句話

P1 把比較門檻從“單獨擬合得好不好”提高到“跨探針能不能閉合”。正確映射下表現好、打亂映射後訊號坍塌，才說明模型更可能抓到了 RC 與 GGL 之間共享的引力結構。

表 0｜P1 的核心數字與普通讀者讀法

指標	P1 / P1A 中的讀法	普通讀者怎麼理解
聯合擬合 ΔlogL_total	正文主比較中 EFT 相對 DM_RAZOR 為 1155–1337	兩套資料合起來的總得分差；越大表示整體解釋更好。
閉合強度 ΔlogL_closure	正文主比較中 EFT 為 172–281，DM_RAZOR 為 127	只用 RC 推斷後能預測 GGL 的能力；越大越“跨探針自洽”。
負對照 shuffle	打亂 RC-bin→GGL-bin 後，EFT 閉合訊號降至 6–23	如果正確對應關係被破壞，優勢應當消失；消失越明顯，越能排除偽訊號。
P1A 多 DM 壓力測試	DM 7+1 + DM_STD，並保留 EFT_BIN 對照	P1A 不只看最小 DM_RAZOR，而是把多個低維可審計 DM 增強分支放進同一閉合協議。

1｜為什麼要做 P1：當前星系尺度宇宙學卡在哪裡？

星系尺度的問題之所以長期難解，是因為“額外引力/質量需求”不只是一個旋轉曲線現象。大量觀測顯示，星系中可見重子物質與實際動力學/透鏡讀數之間存在很緊的聯繫。對暗物質路線來說，這意味著暗暈、重子反饋、星系形成歷史和觀測系統誤差必須被非常精細地協調；對非暗物質引力路線來說，這意味著模型不能只在 RC 上好看，還必須在弱透鏡、群體標度律和負對照中繼續成立。

這正是 P1 的動機：它不是從“暗物質錯了”或“EFT 一定對”出發，而是把一塊可檢驗命題拿出來受審——EFT 中的平均引力響應，是否能在 RC→GGL 的跨探針閉合中留下可復現、可遷移的訊號。

外部文獻背景：為什麼 RC+GGL 這一窗口重要？

McGaugh、Lelli 與 Schombert 2016 年提出的徑向加速度關係（RAR）顯示，旋轉曲線追蹤的觀測加速度與重子物質預測的加速度之間存在緊密相關，且散布很小。這讓“重子—引力響應耦合”成為星系尺度理論繞不開的問題。

Brouwer 等 2021 年用 KiDS-1000 弱透鏡把 RAR 延伸到更低加速度、更大半徑區域，並比較 MOND、Verlinde emergent gravity 與 LambdaCDM 模型；他們同時指出早型/晚型星系差異、氣體暈和星系—暈連接仍是關鍵解釋問題。

Mistele 等 2024 年進一步用弱透鏡反推孤立星系圓速度曲線，報告其在數百 kpc 乃至約 1 Mpc 尺度仍無明顯下降，並與 BTFR 相符。這說明弱透鏡正在成為檢驗星系尺度引力響應的重要外部讀數。

因此，P1 的價值不在於“第一個把 RC 和 GGL 放在一起討論”，而在於把它們放進一套固定映射、參數賬本、RC-only→GGL 閉合、shuffle 負對照與 P1A 多 DM 壓力測試組成的可審計協議裡。

2｜EFT 在 P1 裡是什麼意思？它不是 Effective Field Theory

這裡的 EFT 指能量絲理論（Energy Filament Theory, EFT），不是物理學裡常見的 Effective Field Theory（有效場論）。在 P1 技術報告中，EFT 的使用非常克制：它不是以完整終極理論的形式參賽，而是先被壓縮成一個可觀測、可擬合、可被反駁的“平均引力響應”參數化。

換成普通語言就是：P1 先不討論額外引力的全部微觀來源，也不試圖一次性證明整套 EFT；它只問一個更窄、更硬的問題——如果星系尺度上存在某種平均額外引力響應，那麼它能不能先解釋 RC，再遷移預測 GGL？

P1 抓的是 EFT 的哪一部分？

P1 抓的是“平均引力底座”（mean gravity floor）：一種統計上穩定、可跨樣本遷移的平均貢獻。

P1 暫不處理“噪音底座”（stochastic / noise floor）：也就是更微觀漲落過程可能帶來的隨機項、個體差異或額外散度。

P1 也不討論完整微觀機制、豐度、壽命或宇宙學全域約束。它是 P 系列實驗的第一步，而不是終局宣判。

3｜P1 系列計劃：為什麼第一步要從“平均底座”開始？

P 系列可以理解為 EFT 觀測檢索計劃。它不是一次把所有命題攤開，而是先把最容易被公共資料檢驗的一塊單獨拎出來。P1 的策略是先測試平均項：如果平均引力響應連 RC→GGL 都不能閉合，那麼繼續討論更複雜的噪音項或微觀機制就缺少入口。

表 1｜P 系列的分層定位

層級	要問的問題	P1 中的位置
P1	平均引力響應是否能在 RC→GGL 中閉合？	當前報告的主問題
P1A	把 DM 側做強一點，結論是否仍穩？	附錄 B：DM 7+1 + DM_STD 壓力測試
後續 P 系列	是否能擴展到更多資料、更多探針、更複雜系統誤差？	後續工作方向
更深層問題	平均項與噪音項、微觀機制如何連接？	不屬於 P1 的結論範圍

4｜資料是什麼？RC 和 GGL 各自告訴我們什麼？

4.1 旋轉曲線 RC：星系盤裡的“轉速尺”

旋轉曲線記錄的是：在距離星系中心不同半徑處，氣體和恆星繞中心轉得多快。轉得越快，意味著那個半徑處需要越強的向心力，也就是更強的有效引力。P1 使用 SPARC 資料庫，經預處理後納入 104 個星系、2295 個速度資料點，並劃分為 20 個 RC-bin。

4.2 弱透鏡 GGL：更大尺度上的“引力體重秤”

星系—星系弱透鏡測量的是前景星系如何輕微彎曲背景星系光線。它對應的是更大尺度、暈尺度上的投影引力響應，不依賴星系氣體動力學細節。P1 使用 KiDS-1000 / Brouwer 等 2021 的公開 GGL 資料：4 個恆星質量 bin，每個 bin 15 個半徑點，總計 60 個資料點，並使用完整協方差。

4.3 固定映射：為什麼 20 個 RC-bin → 4 個 GGL-bin 很關鍵？

P1 把 20 個 RC-bin 與 4 個 GGL-bin 通過固定規則連接：每個 GGL-bin 對應 5 個 RC-bin，並按星系數權重加權平均。這個映射對所有模型保持不變，是閉合檢驗和公平比較的硬約束。

為什麼不能事後調映射？

如果允許事後選擇“哪些 RC-bin 對應哪些 GGL-bin”，模型就可能通過調配對應關係來制造閉合。P1 預先鎖定 20→4 映射，並用 shuffle 負對照故意破壞它，正是為了判斷閉合訊號是否真的依賴物理上合理的對應關係。

5｜模型與方法：P1 到底在“比什麼”？

5.1 EFT 側：低維平均引力響應

EFT 側使用一個低維額外速度項來描述平均引力響應：額外項的形狀由無量綱核函數 f(r/ℓ) 控制，ℓ 是全域尺度，幅度按 RC-bin 給出。不同核函數代表不同起始斜率、過渡快慢和長程尾部，用於穩健性壓力測試。

5.2 DM 側：正文主比較與附錄 P1A 必須分開讀

正文主比較中的 DM_RAZOR 是最小化、可審計的 NFW 基線：固定 c–M 關係，不包含 halo-to-halo scatter、絕熱收縮、反饋 core、非球形或環境項。這個設計的優點是自由度受控、容易復現；缺點是不能代表所有 LambdaCDM 或所有暗物質暈模型。

因此，在附錄 B（P1A）裡，我們把 DM 側做成一組“標準化壓力測試”：在不改變共享映射與閉合協議的前提下，逐步加入 SCAT、AC、FB、HIER_CMSCAT、CORE1P、lensing m 與組合基線 DM_STD 等低維增強分支，並保留 EFT_BIN 作為對照。你可以把 P1A 理解為：不是只拿一個最小 DM 基線來比，而是把一組常見、可審計的 DM 機制放進同一把“閉合尺子”裡測一遍。

本文採用的準確結論口徑

正文：EFT 系列在主比較中顯著優於最小 DM_RAZOR。

附錄 B / P1A：在多個低維、可審計的 DM 增強分支與 DM_STD 壓力測試下，DM 的部分聯合擬合可改善，但閉合強度沒有消除 EFT_BIN 的優勢。

因此最穩妥的表述是：在 P1/P1A 的資料、映射、參數賬本與閉合協議範圍內，EFT 平均引力響應表現出更強的跨資料一致性；這並不等於排除所有暗物質模型。

5.3 閉合檢驗：P1 最重要的實驗語法

1. 只用 RC 做擬合，得到一組 RC-only 後驗樣本。

2. 不允許再用 GGL 重新調參，直接拿 RC 後驗去預測 GGL。

3. 用完整協方差計算正確映射下的 GGL 預測得分 logL_true。

4. 把 RC-bin→GGL-bin 對應關係隨機置換，計算負對照 logL_perm。

5. 把兩者相減得到閉合強度：ΔlogL_closure = <logL_true> − <logL_perm>。

通俗比喻

閉合檢驗像一次跨考場復試：模型先在 RC 考場學習規律，再去 GGL 考場作答。如果它真的學到的是共享規律，而不是局部技巧，那麼換考場後仍應該答得好；如果把考場對應關係故意打亂，優勢就應該消失。

5.4 讀技術表之前：四個入口先抓住

表 5.4｜下一組橫排技術表的閱讀路線

入口	看什麼	為什麼重要
表 S1a	RC+GGL 聯合擬合總分	回答“兩套資料一起看，誰的整體解釋更強”。
表 S1b	閉合強度、shuffle、穩健性掃描	回答“RC 學到的東西能不能遷移到 GGL”。
表 B0	P1A 中多個 DM 增強分支的定義	避免把 P1 簡化成“只和最小 DM_RAZOR 比”。
表 B1	P1A 的閉合與聯合 scoreboard	檢查增強 DM 後，閉合優勢是否被消除。

排版說明

下一頁開始使用橫向頁面，是為了完整保留原報告中的寬表，避免刪列或壓縮到不可讀。正文解讀已經先給出普通讀者版讀法；橫向技術表用於需要核對數值和模型分支的人。

圖 0.1｜一張圖讀懂 P1 的閉合檢驗流程

說明：上半條鏈是“閉合檢驗”（只用 RC 擬合 → 用 RC 後驗預測 GGL）；下半條鏈是“聯合擬合”（RC+GGL 一起打分）。右側把真實映射與打亂映射相比，得到閉合強度 ΔlogL。

6｜關鍵技術表：原報告主表與 P1A 表格

表 S1a｜聯合擬合主比較指標（RC+GGL，Strict；保留自原報告）

模型(workspace)	W核	k	聯合logL_total(best)	ΔlogL_total vs DM	AICc	BIC
DM_RAZOR	none	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	none	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	exponential	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

表 S1b｜閉合與穩健性指標（Strict；保留自原報告）

模型(workspace)	閉合ΔlogL(true-perm)	負對照shuffle後ΔlogL	σ_int掃描ΔlogL範圍	R_min掃描ΔlogL範圍	cov-shrink掃描ΔlogL範圍
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

表 B0｜P1A 中 DM 增強分支定義（保留自原報告附錄 B）

Workspace	dm_model	新增參數（≤1）	物理動機（核心）	實現原則（審計友好）
DM_RAZOR	NFW (fixed c–M, no scatter)	—	最小化、可審計的 LambdaCDM 暈基線；用於與 EFT 做嚴格對照	共享映射固定；參數賬本嚴格；作為 baseline 僅用於相對比較
DM_RAZOR_SCAT	NFW + c–M scatter（legacy）	σ_logc	c–M 關係存在瀰散；用一參 log-normal scatter 近似	≤1 新參；仍用共享映射；以閉合增益為驗收標準
DM_RAZOR_AC	NFW + Adiabatic Contraction（legacy）	α_AC	重子落入可能引發暈絕熱收縮；用一參強度近似	≤1 新參；不改映射；報告 AICc/BIC 變化與閉合增益
DM_RAZOR_FB	NFW + feedback core（legacy）	log r_core	反饋可在內區形成 core；用一參 core 尺度近似	≤1 新參；閉合/負對照同口徑；不以 RC-only 改善為唯一目標
DM_HIER_CMSCAT	Hierarchical c–M scatter + prior	σ_logc（hier）	更標準的層級化 c_i∼logN(c(M_i),σ_logc)；同時影響 RC 與 GGL 聯合後驗	顯式先驗；latent c_i 邊緣化；仍保持低維可審計
DM_CORE1P	1‑parameter core proxy (coreNFW/DC14‑inspired)	log r_core	用一參 core 代理 baryonic feedback 主效應，避免高維星形成細節	引用標準文獻；≤1 新參；與閉合檢驗綁定
DM_RAZOR_M	NFW + lensing shear‑calibration nuisance	m_shear（GGL）	將弱透鏡端關鍵系統誤差以有效參數吸收，降低“把系統誤差當物理”風險	nuisance 明確記賬；不允許反向影響 RC；結果以閉合穩健為主
DM_STD	Standardized DM baseline (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	把最常見三類常見質疑同時納入一個仍低維的標準基線	參數賬本+信息準則齊報；閉合為主指標；作為最強 DM 防御對照

表 B1｜P1A scoreboard（越大越好；保留自原報告附錄 B）

模型分支（workspace）	Δk	RC-only best logL_RC (Δ)	閉合強度 ΔlogL_closure (Δ)	Joint best logL_total (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

如何讀表 B1（P1A scoreboard）

• Δk：新增自由度（越大代表模型更複雜；更複雜不等於更好）。

• 重點看兩列：閉合強度 ΔlogL_closure(Δ)（越大越“遷移自洽”）與 Joint best logL_total(Δ)（聯合擬合總分）。

• 括號裡的 (Δ) 表示相對 DM_RAZOR 的差值，便於直接比較。

• 這張表最想回答的問題是：當 DM 基線被“合理增強”後，閉合優勢會不會消失。

• 讀法提示：DM_STD 的聯合得分提升很明顯，但閉合強度反而下降；EFT_BIN 在閉合強度上仍保持更高。

一句話總結：在這組低維、可審計的 DM 增強範圍內，提升聯合擬合並不自動帶來更強閉合；閉合（可遷移性）仍是關鍵判據。

7｜主要結果怎麼讀？

7.1 聯合擬合：兩套資料一起看，EFT 主比較得分更高

表 S1a 與圖 S4 顯示，在同樣資料、同一共享映射、近似同樣參數規模下，EFT 系列相對 DM_RAZOR 的聯合 ΔlogL_total 為 1155–1337。普通讀者可以把它理解為：在 RC 與 GGL 兩套資料合起來的同一評分規則下，EFT 主比較模型總分更高。

7.2 閉合檢驗：P1 最想強調的是“可遷移性”

閉合強度高，說明模型只用 RC 推斷出的參數，不重新看 GGL，也能更好地預測 GGL。P1 報告中 EFT 的 ΔlogL_closure 為 172–281，DM_RAZOR 為 127。這個結果比“各自擬合都不錯”更重要，因為它限制了模型在第二套資料上的自由度。

7.3 負對照：為什麼“訊號坍塌”反而是好事？

P1 把 RC-bin→GGL-bin 的分組對應關係隨機打亂後，EFT 的閉合訊號降至 6–23 的量級。對普通讀者來說，這一步相當於“反作弊”：如果閉合優勢只是代碼、單位、協方差或擬合偶然造成的，那麼打亂對應關係也可能照樣有優勢；但實際結果是優勢坍塌，說明它依賴正確映射。

圖 S3｜閉合強度（越大越好）：RC-only → GGL 預測的平均對數似然優勢。

如何解讀這張圖

這張圖是 P1 的核心。柱子越高，表示模型從 RC 學到的信息越能遷移到 GGL。

EFT 系列整體高於 DM_RAZOR，說明在“先學 RC，再預測 GGL”的實驗中，EFT 的跨探針閉合更強。

圖 S4｜聯合擬合優勢（越大越好）：RC+GGL 的 best logL_total 相對 DM_RAZOR。

如何解讀這張圖

這張圖看的是 RC 與 GGL 聯合後的總得分。

EFT 系列全部顯著高於 0，說明主比較中 EFT 的優勢不是某個單點局部現象，而是聯合分析的總體表現。

圖 R1｜負對照：shuffle 分組後閉合訊號顯著降低。

如何解讀這張圖

這張圖說明，一旦打亂正確的 RC↔GGL 分箱關係，閉合訊號會顯著下降。

這使得 P1 結果更像跨資料映射中的真實一致性，而不是任意映射都能得到的數值巧合。

8｜穩健性與對照：P1 如何避免“只是調參好看”？

一份技術報告最容易被質疑的地方是：優勢會不會來自某個噪聲設定、某段中心區資料、某種協方差處理，或者過擬合？P1 用多組壓力測試來回答這個問題。

表 2｜P1 的穩健性與負對照讀法

測試	它想排除什麼疑問	讀法
σ_int 掃描	如果 RC 裡存在額外未知散度，結論是否還穩？	放寬 RC 誤差後，EFT 排序與優勢量級保持穩定。
R_min 掃描	如果不完全信任星系中心區，結論是否還穩？	裁剪中心區後，EFT 仍保持正優勢。
cov-shrink 掃描	如果 GGL 協方差估計有不確定性，結論是否還穩？	協方差向對角陣收縮後，優勢不敏感。
消融階梯	EFT 是否靠無必要複雜度硬擬合？	完整 EFT_BIN 在信息準則上有必要性。
LOO 留出預測	模型是否只會解釋見過的資料？	留出 GGL bin 後仍顯示較強泛化表現。
RC-bin shuffle	閉合是否來自真實映射？	打亂分組後閉合下降，支持映射依賴性。

圖 R2｜σ_int 掃描下 ΔlogL_total 的範圍（越大越好）。

如何解讀這張圖

檢驗 RC 內稟散度設定變化後，EFT 的領先是否還在。

圖 R3｜R_min 掃描下 ΔlogL_total 的範圍（越大越好）。

如何解讀這張圖

檢驗裁剪複雜中心區後，EFT 的優勢是否仍穩定。

圖 R4｜cov-shrink 掃描下 ΔlogL_total 的範圍（越大越好）。

如何解讀這張圖

檢驗弱透鏡協方差處理變化後，排序是否敏感。

圖 R5｜EFT_BIN 的消融階梯（AICc，越小越好）。

如何解讀這張圖

檢驗完整 EFT_BIN 是否在資料解釋上具有必要性，而不是白加參數。

圖 R6｜LOO：留出 bin 的對數似然分布。

如何解讀這張圖

檢驗模型在未見過的 GGL bin 上是否仍具預測表現。

圖 R7｜負對照：shuffle 映射導致閉合 mean logL_true 明顯下降。

如何解讀這張圖

進一步從 mean logL_true 角度顯示，閉合依賴正確的跨資料映射。

9｜P1A：為什麼“附錄裡有多個 DM 模型”是關鍵修正？

這一節要回答的不是“EFT 只贏了一個最小 DM_RAZOR 嗎？”而是：當我們在低維、可復現、參數賬本清楚的範圍內增強 DM 基線（P1A），閉合檢驗與聯合擬合的結論會不會被改寫。換句話說，P1A 的目標是降低“你只是挑了一個過弱 DM 基線”的質疑，並把討論推進到“在一組可審計的 DM 增強下，閉合表現是否仍然存在差異”。

P1A 的設計並不試圖窮盡所有 LambdaCDM 暈建模可能，也不把 DM 側變成高維不可審計的擬合器。它選擇的是低維、可復現、參數賬本清楚的增強：濃度散射、絕熱收縮、反饋 core、層級 c–M scatter prior、單參 core 代理、弱透鏡 shear-calibration nuisance，以及組合 DM_STD。

P1A 的主要讀法

legacy 三分支中，僅 feedback/core 對閉合強度帶來小幅淨提升；SCAT 與 AC 沒有帶來淨閉合提升。

DM_HIER_CMSCAT、DM_RAZOR_M、DM_CORE1P 對閉合強度影響很小或沒有顯示顯著淨提升。

DM_STD 可顯著改善 joint logL，但閉合強度下降，提示它主要提升聯合擬合靈活性，而不是 RC→GGL 的遷移預測力。

EFT_BIN 在 P1A 表 B1 中仍保持更高的閉合強度和聯合擬合優勢；因此，P1 的核心主張不應被簡化為“只贏了最小 DM_RAZOR”。

圖 B1｜P1A scoreboard：閉合與聯合的 ΔlogL 相對 baseline（越大越好）。

如何解讀這張圖

這張圖展示多個 DM 增強分支相對基線的表現。

它的意義不是“排除所有 DM”，而是顯示：在 P1A 選擇的低維可審計 DM 增強範圍內，增強 DM 並沒有消除 EFT_BIN 的閉合優勢。

10｜P1 實驗的意義：為什麼這件事值得做？

10.1 方法論意義：把“跨探針閉合”放到比“單探針擬合”更高的位置

星系尺度理論最容易陷入的爭論是：某個模型能不能擬合某一套旋轉曲線。P1 把問題提高了一層：你從 RC 學到的參數，能不能在不重新調 GGL 的情況下預測弱透鏡？這使 P1 從“擬合競賽”變成“遷移預測檢驗”。

10.2 透明度意義：把可複核鏈條當作結果的一部分

P1 的一個重要貢獻是把資料、表圖、運行標簽、負對照、復現包和審計鏈條一起發布。對支持者和反對者來說，這都很重要：討論可以回到同一套公開資料、同一套映射、同一套腳本和同一套指標，而不是只比較口號。

10.3 物理意義：它給“非暗物質引力”方向提供了一次強壓力測試

在非暗物質引力方向，很多模型能解釋旋轉曲線或 RAR 的某一部分；但更難的是同時通過弱透鏡讀數，並在負對照下顯示訊號依賴正確映射。P1 的意義在於，它把 EFT 平均引力響應放進了一個類似“外部考試”的協議：RC 是訓練場，GGL 是遷移場，shuffle 是反作弊場。

10.4 這是否是“非暗物質引力領域”的重要實驗？

謹慎地說：如果 P1 的資料處理、復現包和閉合協議經外部複核仍然成立，那麼它可以被視為非暗物質引力 / 修改引力方向中一個值得認真對待的 RC+GGL 閉合實驗。它的重要性不在於一句“推翻暗物質”，而在於它給出了一個可以複製、可以挑戰、可以擴展的跨探針判據。

是否已經有同樣高的 RC+GGL 預測閉合框架？

已有相關框架和觀測傳統：MOND/RAR 能很好組織大量旋轉曲線現象，KiDS-1000 弱透鏡 RAR 工作也比較了 MOND、Verlinde emergent gravity 與 LambdaCDM 模型；LambdaCDM 也可通過星系—暈連接、氣體暈和反饋建模解釋部分弱透鏡/動力學現象。

但 P1 的準確主張不是“世界上沒有其他框架能解釋 RC+GGL”，而是：在 P1 自己公開的固定映射、RC-only→GGL 閉合、shuffle 負對照、參數賬本與 P1A 多 DM 壓力測試協議下，EFT 報告了更強的閉合表現。

換句話說，P1 最值得被外界檢驗的地方，是它提出了一套具體、可復現的比較協議。後續是否有 MOND/RAR、LambdaCDM/HOD、hydrodynamical simulation 或其他修改引力框架在同一協議下達到相同或更高閉合分數，是非常值得繼續做的下一步。

11｜P1 能推出什麼？不能推出什麼？

表 3｜P1 的結論邊界

可以推出	在 P1 的 RC+GGL 資料、固定映射和主比較協議下，EFT 系列相對最小 DM_RAZOR 具有更高聯合擬合與閉合強度。
可以推出	在 P1A 低維可審計 DM 增強範圍內，多個 DM 增強沒有消除 EFT_BIN 的閉合優勢。
可以推出	shuffle 負對照顯示閉合訊號依賴正確跨資料映射，而非任意映射都可得到。
不能推出	不能說 P1 已經推翻所有暗物質模型。P1A 仍不窮盡非球形、環境依賴、複雜星系—暈連接、高維反饋或完整宇宙學模擬。
不能推出	不能說 EFT 完整理論已經被第一性原理證明。P1 只檢驗平均引力響應這一唯象層。
不能推出	不能說所有系統誤差已被排除。P1 只在已列出的壓力測試與審計範圍內給出穩健性證據。

12｜常見問題：普通讀者最容易問的幾個問題

Q1：這是不是在說“暗物質不存在”？

不是。P1 的結論必須限定在本文資料、協議和對照模型範圍內。P1A 已經比最小 DM_RAZOR 更進一步，但仍不代表所有可能暗物質模型。

Q2：這是不是在說“EFT 已經被證明”？

也不是。P1 把 EFT 當作平均引力響應參數化來檢驗，顯示其在 RC→GGL 閉合上表現更強；微觀機制與完整理論不是 P1 的結論。

Q3：為什麼不直接講顯著性 σ 值？

P1 使用的是統一似然得分、信息準則和閉合差值。ΔlogL 是同一評分規則下的相對優勢，不等同於單一 σ 值。

Q4：為什麼要打亂 RC-bin→GGL-bin？

這是負對照。真正的跨探針訊號應依賴正確映射；如果打亂後仍然一樣強，反而說明可能有實現偏差或統計偽訊號。

Q5：P1 下一步最應該做什麼？

把同一協議推廣到更多資料、更多 DM 對照、更複雜系統誤差和更多修改引力框架；尤其要讓外部團隊能在同一閉合指標下複驗。

13｜術語小詞典

表 4｜術語小詞典

術語	一句話解釋
旋轉曲線（RC）	星系盤中半徑—轉速關係，用來反推盤面內有效引力。
弱透鏡（GGL）	通過背景星系形狀的統計性扭曲，測前景星系周圍平均引力/質量分布。
閉合檢驗	用 RC 後驗預測 GGL，並與打亂映射的負對照比較。
負對照	故意破壞關鍵結構，看訊號是否消失；用於排除偽訊號。
NFW 暈	冷暗物質模型中常用的暗物質暈密度剖面。
c–M 關係	暗物質暈濃度 c 與質量 M 的關係；是否允許散射會影響模型靈活度。
DM_STD	P1A 中組合多個低維 DM 增強與透鏡 nuisance 的標準化 DM 壓力測試分支。
ΔlogL	兩個模型在同一評分規則下的對數似然差；正值表示前者更優。
協方差	資料點之間相關性的矩陣描述；弱透鏡資料通常必須使用完整協方差。

14｜建議閱讀路線與引用入口

1. 先讀本文第 0–2 節，建立 P1 的問題意識和 EFT 在 P1 中的克制定位。

2. 再看圖 S3、圖 S4 與表 S1a/S1b，理解閉合強度、聯合擬合與負對照。

3. 如果關心“DM 基線是否過弱”，直接看第 9 節和表 B1 / 圖 B1。

4. 如果要技術複核，請回到 P1 技術報告 v1.1、Tables & Figures Supplement 與 full_fit_runpack。

主要歸檔入口

P1 技術報告（發布級，Concept DOI）：10.5281/zenodo.18526334

P1 全量復現包（Concept DOI）：10.5281/zenodo.18526286

EFT 結構化知識庫（可選，Concept DOI）：10.5281/zenodo.18853200

許可提示：技術報告採用 CC BY-NC-ND 4.0；全量復現包採用 CC BY 4.0（以技術報告與 Zenodo 歸檔為準）。

15｜參考文獻與外部背景

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.