Computational Chemistry · Teaching Note

讀懂 Nico 的 Cas9 變體篩選漏斗(v5 / v6)

用物理人的語言,把每一層在幹嘛、Nico 想往哪走、以及 kinetics 那一維該怎麼談,一次講清楚。

Cas9 分子機器抓住 DNA 與 guide RNA

0 一頁總覽

Nico 這台漏斗,本質是候選削減機,不是「物理真理機」。SpCas9(1368 殘基)的多點突變庫組合爆炸(10⁴–10⁵⁺),濕實驗一輪只做得起 ~10–50 個,所以用便宜、會看核酸、可以有雜訊的篩子在頂層把庫富集,把貴的物理留給少數存活者。

處理量在算什麼你的類比
Phase 1 序列10⁴–10⁵序列合不合理(幾何/親和/演化/摺疊/溶解)便宜 descriptor 初篩
Phase 2 結構100–500 摺疊疊出 all-atom 複合體 + 清座標建結構 + minimize
Phase 3 打分10–100結合能 ΔGbind(三條路)隱溶劑單點 / AIMD 系綜
Phase 4 FEP1–5精確相對 ΔΔGbindRPA / CCSD(T) 級把關
貫穿全文的重點:漏斗每一個定量分數都是「平衡結合自由能 ΔGbind(外加摺疊穩定 ΔΔGfold)。但 Cas9 的專一性由「動力學」決定(HNH 構形檢查點 / kinetic proofreading),而動力學是態函數 ΔG 數學上碰不到的一維。→ 漏斗是很棒的「結合可行性富集器」,但不是專一性引擎

1 名詞速查

PAM:Cas9 動手前先找的短 DNA 標記(NGG)。找到才開始解 DNA。
R-loop:sgRNA 與 target DNA 從 PAM 端像拉鏈配對、頂開另一股,形成的 RNA:DNA 雜合。
RNP:蛋白+核酸複合體。Cas9 = 蛋白+sgRNA+DNA(+Mg²⁺),缺核酸就沒生物學。
Inverse folding:AF 問「序列→結構」;反向摺疊問「給定固定骨架,哪些序列會摺成它」。
ΔΔGfold vs ΔΔGbind(最重要):前者=蛋白自己還折不折得起來;後者=複合體抓不抓得牢。是熱力學循環不同邊、可號相反。
pLDDT / PAE:摺疊器對自己座標的信心(learned error bars),不是實驗準度、不是能量。
隱溶劑 / PB:把顯性水換成介電連續體+離子屏蔽近似溶劑靜電(=VASPsol/COSMO 那套)。
介電 override(pdie 4–10):MM-PBSA 裡溶質內部介電(非溶劑 80),蛋白預設 ~1–2,對帶電骨架調高。是旋鈕不是常數。
Kinetic proofreading:把不可逆的切割藏在慢的構形檢查點後,讓錯基質先脫離。專一性 ∝ kcleave/koff不是 ∝ 1/Kd
I → D state:HNH 核酸酶域要從中間態 docking 進催化活性態才會切。

2 核心問題與設計哲學

為什麼需要漏斗:20 個位點就有 ~10⁵ 雙突變、~10⁷ 三突變,濕實驗做不起百萬個。漏斗唯一的任務:從天文數字的庫裡便宜地挑出「值得真的合成」的 ~10–50 個。

「Information Economy」每往下一層,每個變體更貴、但變體更少,總成本 =(便宜×很多)+(昂貴×很少)有界。一個把 90% 明顯垃圾便宜刷掉的雜訊篩子,就算不準也省下巨量下游成本。
階層篩選漏斗,從很多候選收斂到少數
階層漏斗:頂層便宜工具處理 10⁵ 個變體做富集,底層昂貴物理只跑少數存活者——與你熟的多層 DFT 篩選(PBE 掃全部、HSE/GW 只留給存活者)同構。

三個設計直覺(讀懂 Nico 每個選擇的鑰匙):

  1. 便宜雜訊在前、昂貴精準在後:早期誤殺好變體便宜可容忍;到濕實驗的 false positive 才貴。
  2. 正交多票否決:每個閘門攔不同失敗模式,要全過才前進——不是相加成一個總能量。
  3. 富集不是真理:頂層工具是「提高存活池好貨比例」,不是最終排名。用「有沒有 MD 準」評它就搞錯重點。

3 Phase 1:序列級篩子(10⁴–10⁵ → 100–1000)

全部「只吃序列、不折疊、一次前向推論」。六個正交閘門:

Gate 1a — LigandMPNN 主篩

做什麼:把整個 Cas9+核酸骨架固定,逐殘基問「這位置放這胺基酸合不合理」。關鍵:它的圖包含 DNA/RNA/離子,會懲罰撞到 guide 或 target 的序列。
為什麼 Nico 用:Cas9 是 RNP,最要命的殘基都朝著核酸。v3/v4 的通用 ESM-IF1 對核酸是盲的。換成 LigandMPNN 是 v5 最重要的工具決策。
物理類比:對固定 host lattice(含 adsorbate 原子)打 site-occupancy 分數。ProteinMPNN 像把核酸從 supercell 刪掉再算。
⚠ 它給的是 pseudo-energy / log-likelihood,沒校準到 kcal/mol,只能排序、不能當 ΔG 加總。

Gate 1b — DeePNAP

做什麼:ProNAB 訓練的深度迴歸器,不建結構直接從序列預測結合的變化量 ΔΔGbind / ΔKd(是變化,不是絕對 Kd)。CPU 秒級。
為什麼:唯一直接指名「結合」目標量的、又便宜,當獨立一票。
物理類比:ML surrogate / MLP 取代昂貴能量評估——像用迴歸從組成猜吸附能。
⚠ domain-of-applicability:多點 Cas9 突變很可能遠離 ProNAB 分布,外推像把 MLP 用在沒 fit 過的組態。

Gate 1c — ESM-2 + thermoMPNN v6 新增 + CamSol + EvoEF2

ESM-2:蛋白語言模型,打「演化語法合理性」(只看序列,是 prior 不是 measurement)。
thermoMPNN(v6 新增):Megascale 27 萬筆訓練,預測 ΔΔGfold(摺疊穩定度)。ThermoMPNN-D 做雙突變。
CamSol:溶解度/聚集;EvoEF2:經驗力場式 scaffold 穩定度(thermoMPNN 的非 ML、可解釋兄弟)。
為什麼 v6 加 thermoMPNN:補漏洞——一個突變可以「紙上結合漂亮但根本折不起來」。把「會不會摺」和「結不結合」兩種失敗模式分開
⚠ 鐵則:ΔΔGfold ≠ ΔΔGbind。thermoMPNN 給的是「蛋白自己穩不穩」,不是「抓不抓得牢」。

4 Phase 2:結構級(100–1000 → 100–500 摺疊)

為什麼需要 3D:Phase 1 全是「序列進、分數出」,看不到「這顆突變側鏈實際擺哪、跟哪個 DNA 磷酸撞到」。類比:光有化學式 Fe₃Ni 排不出能量,得先有 POSCAR。

Gate 2a — AlphaFold3 / Chai-1 / Boltz-2(會看核酸的摺疊器)

做什麼:輸入蛋白+sgRNA+DNA+Mg²⁺,吐整個 RNP 的 all-atom 座標 + 信心圖(pLDDT/PAE)。~1–3 min/複合體。
為什麼:AF3 介面最準當 primary;但 AF3 權重非商用、叢集部署有法律摩擦,故備開源退路 Chai-1 / Boltz-2。「primary + 可互換」不被單一授權綁死。
物理類比:學出來的結構生成器(對應你「從頭建初始結構」)。pLDDT/PAE 像收斂/誤差診斷。

Gate 2b — 鬆弛作為「選擇」:FoldX vs Mini-MD v6 改動

做什麼:ML 座標是「生的」,有 clash,直接算連續介質靜電會爆炸。v6 二選一:FoldX(經驗、快轉側鏈、CPU 秒級)或 Mini-MD(OpenMM/GROMACS 最小化+短 NVT,顯式 ff14SB/OL15/OL3 真物理鬆弛)。
物理類比(你的主場):Mini-MD 就是你跑生產 MD 前的 minimize+equilibrate;跳過就像對重疊原子做單點,SCF 不收斂。用 Mini-MD 還能與後面打分共用力場、能量面自洽。

5 Phase 3:打分(10–100)——v6 把物理升為主線

Path A — 靜態 MM-PBSA v6 primary

做什麼:用一張鬆弛快照估結合能:ΔGbind ≈ EMM(Coulomb+vdW) + Gsolv(PB)。能抓 ML 抹平的斷裂鹽橋。
為什麼 v6 升 primary最響亮的訊號——把可解釋、能歸因到殘基的物理能量分解推到預設,把黑盒 DL 降為備選。
物理類比:力場版隱溶劑結合能 = DFT + implicit solvation(VASPsol)算吸附能。單快照的問題跟你算吸附能一樣。
⚠ 對 dense protein-RNA ranking 相關性天花板約 r≈0.56;是「top-20% 粗篩」不是精排。

Path B — PDIScore + AlphaBridge(DL 幾何打分)v6 alternate

做什麼:完全不算物理。PDIScore=graph 讀「原子–核苷酸距離」;AlphaBridge=直接從 AF3 的 PAE/pLDDT 抽介面剛性。極快、可吃 unrelaxed。
物理類比:材料界的 ML descriptor(像用 d-band center 迴歸先排 HEA)。
⚠ PDIScore 論文自報 ranking PCC≈0.50——能刷爛貨、抓大趨勢,不能分辨兩個接近的候選誰較好。

Path C — 系綜 MD + MM-PBSA premium

做什麼:跑 20–50 ns 顯性溶劑 MD,沿途多快照做 MM-PBSA 再平均。對帶電骨架把內部介電 override 到 4–10。
物理類比:單快照 vs 系綜 = 0 K 靜態能量 vs 有限溫度自由能。Path C 像跑 AIMD/TI 取系綜平均,把熵與構型漲落納入。
⚠ 介電 override 一定要做 pdie 2/4/8 敏感度掃描報成誤差棒(等同收斂測試)。

6 Phase 4:Alchemical FEP(1–5)——唯一的精確物理

概念(你會很有共鳴):沿一個非物理的 λ 座標把 WT 側鏈煉金術般 morph 成 mutant,在複合體與 apo 各做一次,靠熱力學循環讓算不出的邊抵消,得到精確 ΔΔGbind = ΔGmut(複合體) − ΔGmut(apo)pmx 建 hybrid 拓撲,MBAR 把所有 λ 窗最優合成一個數+誤差(=WHAM 的 binless 繼承者)。

物理類比:就是你認得的熱力學循環(Hess/Born-Haber)+ TI / adiabatic switching。

⚠ 一個要更正的常見誤解(很重要) v6 明確聲稱它能處理會改變淨電荷的胺基酸突變(例如 Ala→Asp),做法是同時做 co-alchemical 反離子變換維持電中性——也就是說 Nico 已經想到 FEP 最容易出錯的那個 case,不是忽略它
所以對他 push 的不是「你沒做 charge-changing」(他有),而是:「counter-ion co-transformation 對 Cas9 這種中和骨架接觸鹼性殘基的突變,收斂/可靠度到底如何?值得 stress-test。」——更精準、也更站得住。

⚠ 範圍是蛋白胺基酸突變(不做 DNA/RNA 鹼基 alchemy)。而且它是 end-state 平衡量:再精確,對速率、障礙、構形檢查點一無所知

7 v3/v4 → v5 → v6:讀出 Nico 的意圖

版本動作透露的意圖
v3/v4通用工具(ESM-IF1)+ 有 off-target specificity MD tier泛用 + 有嘗試碰專一性
v5換核酸感知工具、模組化打分、AF3 primary;拿掉 specificity tier;DL 推論當 primary「現代化、快、模組化」——但唯一碰專一性的層消失了
v6thermoMPNN;Gate 2b 做成 FoldX/Mini-MD 選擇;把 靜態 MM-PBSA 升為 primary預設越來越物理——把物理邊界往漏斗上方推
讀出的核心Nico 是個熱力學腦、會自我修正的設計者——ML 在頂層負責通量,物理在底層負責信任唯一一直沒回來的,是「專一性 / 判別」這一維:這不是疏忽,是這台「熱力學優先」漏斗依它自己一致的邏輯,留下未量的那一軸。(v6 的「geometric specificity」只是目標宣示、沒有對應模組。)

8 最關鍵的一維:kinetics(構形檢查點)

Cas9 不是「結合=切」的開關,是多步機器。辨識 on/off-target 主要發生在第 3 步(構形檢查點),不是結合那步:

1. PAM 辨識找到 NGG 2. R-loop逐鹼基配對 3. 構形檢查點HNH docking (I→D)rate-limiting · 對 mismatch 敏感 4. 切割到位才切 5. 釋放 On-target:HNH docking → 切k_cleave 快 Off-target:HNH 卡住 → 先脫離k_off 贏過 k_cleave
辨識 on/off-target 主要發生在第 3 步(構形檢查點),不是第 1–2 步(結合)。
HNH 域 on-target docking 切割 vs off-target 卡住脫離
左:完全配對時 HNH 域 docking 進活性態、切割(綠)。右:有 mismatch 時同一個域卡在抬起的不活性態、切不下去而脫離(紅)。高保真變體對 on/off-target 的結合都跟野生型差不多,靠的正是這一步的差別(Chen 2017;Dagdas 2017)。
一句話講死:ΔGbind態函數,只看 end-state「已結合 vs 未結合」的差,數學上不含任何「路徑上的障礙高度」。所以無論 FEP 收斂到多化學精度,都變不出 HNH docking 的活化能障 ΔG——這是結構性的不可能,不是精度不夠。就像你無法從 ΔGreaction 反推速率。
深井(結合)與高障礙(動力學)的能量地景
funnel 算的是井深(ΔGbind);Cas9 成敗由障礙高度(ΔG,HNH docking)決定。off-target 是被困在深井裡的 kinetic trap——穩定結合=深井,但跨不過障礙去切。MM-PBSA 算井深,不算障礙。
為什麼這麼容易被漏(對任何人都一樣)可觀測性偏誤:結合看得見摸得著,直覺「抓得牢=作用強」。② 工具成熟度落差:平衡結合工具鏈幾十年成熟、可高通量;kinetic barrier 沒有現成高通量工具。③ 歷史包袱:v3/v4 那個 specificity tier 被 v5 拿掉,而它剛好是唯一碰專一性的層。
就像早期只用 ΔGads 當 HER descriptor(好算、可掃),但真正限速常是 barrier——NEB 又貴又難自動化。Cas9 funnel 走的是一模一樣的路。

9 怎麼跟 Nico 講(先肯定 → 說好終點 → 共構側枝)

  1. 真心肯定 funnel:它把 10⁵→10–50 的濾漏做得又快又物理,v6 往 static MM-PBSA 主線漂移是往更嚴謹的正確方向。這層要留、做得好。
  2. 提案 a:pre-register 驗證終點:濕實驗前先講好「拿什麼當成功判準」。若讀的是編輯專一性(on/off cleavage ratio、GUIDE-seq 這類 kinetic/functional 終點),就明確承認 ΔΔGbind 排名是必要非充分條件
  3. 提案 b:加一條可選 kinetic 側枝:不打掉重來,只跑漏斗底部 ~10–50 個候選:算 HNH I→D docking 的能障 ΔG(NEB/string/metadynamics),或用 MSM 估構形轉換速率。等於用現代工具把 v3/v4 被拿掉的 specificity tier 低成本接回來。

為什麼對方難拒絕:pre-register 是攤開假設的好習慣;側枝是加法、可選、只跑少數候選(成本可控、不動主流程)。而且把對話錨定在你最強的主場——free energy、barrier、MD、MSM。你是來「貢獻缺的那塊物理」的合作者,不是來挑錯的。

附帶:這個「binding vs kinetics 的 scoring-axis」在 AI-Protein-Interface dashboard 裡已被登記成一個待裁決的 open decision(D-006/H-011,待 T-011)——你開這話題,是接一個已經在桌上的問題。

10 可直接照唸的講稿

「你的 funnel 我很欣賞——v5 換成會看核酸的工具、v6 又把靜態 MM-PBSA 升為主打分,方向完全對,它是一台很好的結合可行性富集器,能把 10⁵ 個突變體有效壓到能做的幾十個。

我想補的是它結構上看不到、但恰好是 Cas9 成敗關鍵的一維:專一性其實由動力學決定——off-target 會穩穩結合卻切不下去(HNH 構形檢查點),高保真變體 on/off 的結合都跟 WT 一樣,靠的是結合後的速率步驟。所以 ΔΔGbind 排名相近的兩個變體,真實專一性可以差很多。態函數 ΔG 數學上不含 barrier,再精確的 FEP 也補不出來。

兩個小提案,都不動你的主流程:(a) 濕實驗前先講好我們比的是編輯專一性(kinetic/functional 終點),把 ΔGbind 定位成必要非充分;(b) 只在漏斗底部 10–50 個候選掛一條可選側枝算 HNH docking 的能障 / 用 MSM 估速率——等於把 v3/v4 那個被拿掉的 specificity tier 用現代工具低成本接回來。這塊正好是我的物理本行,我來做。」