From d68c17e7c5a75efbeafa279bf177a7b9c6231da5 Mon Sep 17 00:00:00 2001
From: wassname <1103714+wassname@users.noreply.github.com>
Date: Tue, 9 Jun 2026 13:09:50 +0000
Subject: [PATCH] eval: final deploy eval records knob-on (deployed-as-trained)
 for quarantine arms

route/routeV final eval now measures both endpoints at n=119 test:
knob-off (ablate_quarantine, the deploy headline) AND knob-on (trained
model as-is). Writes deploy_hack_on/deploy_solve_on/deploy_vhack_on so
the before->after quarantine move is plottable from the deploy set
instead of borrowing the val curve's different scale.

Co-Authored-By: Claudypoo <288921227+claudypoo@users.noreply.github.com>
---
 out/vhack/v_hack_smoke.safetensors   | Bin 14104 -> 14232 bytes
 scripts/eval_checkpoint_curve.py     |  92 +++++++++++++++++++++++++++
 scripts/probe_distill.py             |   3 +-
 scripts/rescore_deploy.py            |  61 +++++++-----------
 scripts/results_deploy.py            |   4 +-
 scripts/tt_erase_bench.py            |   2 +-
 scripts/verify_science_invariants.py |  89 ++++++++++++++++++++++++++
 scripts/verify_vhack_heldout.py      |   2 +-
 src/vgrout/eval.py                   |  78 +++++++++++++++++------
 src/vgrout/extract_vhack_grad.py     |   5 +-
 src/vgrout/train.py                  |  91 +++++++++++---------------
 src/vgrout/vhack.py                  |  20 ++++--
 12 files changed, 325 insertions(+), 122 deletions(-)
 create mode 100644 scripts/eval_checkpoint_curve.py
 create mode 100644 scripts/verify_science_invariants.py
diff --git a/out/vhack/v_hack_smoke.safetensors b/out/vhack/v_hack_smoke.safetensors
index 7e9acd474a20e05a563c46513567d4e7c9c8269d..bd50eb4c5efb9cbb62bd4839a0d7c41ff50a6adb 100644
GIT binary patch
literal 14232
zcmbulc|2BO*Y|A>MM6jeNm9v7oO>VZluD9NDT$Ioip(i#Pzi|$2?<TcWJnVGSf_+a
zrP72nX_iW*LF0RNU7z>8?)SdCp6hvf_J4c$eD|@}`t9F3*0Fb=tjIsMNG%VKwccT#
zUY=o|9v)h}NUgPjUf%v%JS~5J&$XUDo-4xwLm~{qRtH2(3Goc@3S2uSc)fRkiI$#L
z=t^JjwVuK&!;L-GuMYF|2n`n=4f0$a66z7^>uGFeE<9&pXy$EUW^QI?YGUH!X=Z9^
zVP<G#>}5XH%*4~kXR5iGr-`|bnYX2vrJ13rvAL0<x3}R6V?!e!a~~5UPj5>hG0bzF
zhv$aXp+cIWzM=4dS6D=lw{UNTkCFNB^MOGge!^WN<NxpWL7rj0!Xts}!VLZ~9`CSF
zgP@SWRl;$4dF!tU4GhrQtfwU$u)#l`R^Q(<!aF2X-%x+8e~`Xc;Q9a$;niz?N8|s!
zmyOA9y6~}n-`UN`c&Tt0ze5)2;}a^R3y&G<nOZFU_taIMVcvg1HMP*QH2+^<*9H9r
z)Y4qf$kg=TP(!`_eLOtF!UFXD{sJxJ>KR!Y|3`M<->@x>^^8po|06s2FW5q^p0UNh
zOW?m^68<-A3ky9HlRszC=>JA?La3gJ#h(-TPw-!=P6*XAHTiQE{|Wvp-3gJxm*me0
zG}8Z9kpD(_Lav^f@t+g;U)g^nJRw)lZ0f&D;J?QGH^LKg^~{a`T@L@n{u|*5xq9YP
z|B=SO^*KEw^Z#jeLgsG+`9~uE0RG<+-5<ffp?b!~hW|+8AISe3s{14NH&V~o@}DXE
zZ`^-{_&>|;&u}4E&t&R94fWr`|FiD?2>;F1Gc^+y9ARnsxA6Zgyg$N!bAP`ye@f)P
z!t$S$_ec0|uAaH!Ka1l3Z{+_6p7%%cZ>XNRg;1IQJtqGLruS#E5UMxT?4OqUhcW-H
z{(d9%EKJP)XBPjfHT|XjeslFKjg0?i7XK^!FZK7Et7mEP&&v4UBJwYZ{H6YWbM=f2
z&CULl$$!!RQh@&e>lqoD{&v^Rn*ZEhd(UEwa+R2w34@u1-B)={kr#Qd%Nluh>vr*`
z+C=hF4*2n2X)WT(i}HD^x~A}6C2nHY98_br@0MkDO1$Ttp4-JsvN_G$doG_hMkbmk
zc4j+o&WjbiOvfcWHih9i?(}1%%O)_Rj1(Eosz<z%b2oUJv#NPfI)``<BvW`!3!{05
zuY~cUOPBC;-)Qk<Lyxnk*Y0Gij*MkpDhIQ@y#q{0To2<i(9BdWJj^tY-^KV&+{AQT
zV3_Dsbw-RA#i|~(W$6(f+j38rjr=ahp1vi?W@vUXqsE_SX2w=Bd;4;jdHDg1?ouyi
zYE&l6OxVSS^v`Ce@8Gjr?bX<qhh*7}vp+Dqf*vyIMkUM?*#itIO<{b^A{c>nG<&#j
z0h@Sj8Y|nc$;NzAWIOKOV3r+fV(u+G#PGLnX2xAu$1J{V&s-H)G4@6C8TnaLn7c_M
z7^!n#c?&cz^Li~Sc%Bmv@ifz7c}ia4ypfB8cz0TDdCg;{@~YcrF(b7#n1c2J-j${{
zUck62UUG0Q&+*|tUfStBycy*lyvgonyy|X4-a2a~-j$_em^VgBjGe1ElRo4bZ~f}q
zyxDguc;1eMyf>MNydPabyc3(2@p4%w-jnS%ybGbX*y4m8EU^$}Z%ll^JZ-(sOxst-
zEPj~FRCH!A!LNdubBpYmk0FLkQTt@(dHF`x+t!jDxIBjS`>4zg%e%*X`FNMfdR)jf
zt0pkpHt%9QlD0C+O$!)}3sy|@g6*uc&3v}!oCT|#ID$Pp@e{++#|+`MGJP|PnQkV9
z*)n%G)7QF_vGH5L(7{_+w~!fZiSZ=XHF*Tf4oI^-ov#^t-P_Eq<CmCKql%dEr?Z(^
zNwG|xX)v?h<~`iLk_2mBH4&nG8`gVC@{?OtnX!4nTz&f{a#@B4nv*18j&BFY+$scL
z-X)SK@I;aLua+tq3aBXAjlrpo5Ffr9(;vTOf9Z6Aw3Rp*eeEEppXAYmVm`e$OTZ@A
z9;f<-x9ARqM%2lk0Zzrs!T<9c)Ghl&Pxx-d6LXTtCb#K)g&rg9lo*MFeHPK6A-N<v
z$Bb-QoycYP&A_V6?;O^w!(nDS;mJ*Zu-z8~xJr*S-)Th|K@BR5^W)MU-GC*JJ5WMl
z7x*hCpi>rQ9-bb96C|?9QP+7`GiNg7*388<dY{S7f>ltHR|)mE#xauq(t`eX6|}aX
zj5-(GXD2Mo1X~4Z{!=aiy-5{WI&U#%ZEqz}H~47nDhV6sXV7WqZW5vyPVc8hz}Te+
z;pCVIoU1S$b{UMIlN?2$y{U`g)jHzB5Dxni57*_aJ`D=miKymZ%4YVILDTt<;FZ3F
zG~E0|$6ZS%71u2=WW6&iaa{_N^WV{<4;nz(J`L1eJ*ZCP2ioYj5Px{SfM<Fqp(64f
z96TXIRL3>II`<rSBKSm(WS^sxSx36+y#^VUrVW>Pm(kd;i&W&SgoRmW@Nt2-;AoLG
zPFW@jts*<gxfXzRn;uiG<{b12vZ0ArQwjGnn*?|0@zn&K#9lod@A9wH4Z+*#6{A=9
z{)Z_<xr%~(N&w!jIZM56N`lPTT&`=+Rid`kfrPy4=e`#CW23`vJQlqjX3al99$Htx
z)){hwiR0hmJ<)AMdiEBw(q9IxlXuYW)>6#Ba|HG%<zR+!3uI_z6OpqL+>7?fu)01P
zjQ8Fky35YutE(%}a%li?hAG&%btHzL=%KAY#({*~IaCsVO*b`(L0+y33*z_5kp0`y
zBfp$%m}$m$?;nTe-`|jDvD?7aZa36J7=&e~z*u`#c#yLM;_r)6KM9t9LC{FTYDCCl
zRmz<BluQ>slj2u>+)ABym(s;jEDRezoy<1(f}ewCf{5;8sycf$ZScC!);=DDev(-*
z+~f>-8(hfh{+IxnYoC$io7#e#+cMDIiQ^JvuE5WQuWG+co(z-1HqqN^b@c19BdE75
ziFTkjR9#0}Yn@BRi5!9E&1cA~!!O8psn=vopaY7oOCj^7i1T?>0br%okB>{@Nc?em
z&@7IE5i4(k#*00y*w@KWenFJ;5I+pVjCuGlxu48fv;_}Yj;A@ADt!K)v1nq@$qmts
z0>gk4)GJRDERV~9MWQMUixL%#^%X%kad~jwAV;L)C-J@ROeEJf>;P%^A?&N`H87i$
zQ}xuj*r2!_s@`qI^Z+${6I;z)nim32x-sB2+znd>R-$0WWn6slD2&{02Y4ls4NKjF
zPb!C^gMSsL5LXJe0!2v9GlmBfYq`Z5PMBUx;DW8VVCm&3X10G7CXZeQ)v2H9GW&F{
zNmB*BWs0Lp;c<-EUPB~J<7i&NE^^J)Mj*EB0B2tMk*cX)CNsMfFl(DSstp}Pwd@K|
zO=1J4@V~QnGm>EZB?-Z`-dcEN=><`<8fqU79w2%~Vz_Hj0L)$0P2^fH;78@j04suM
zfQ1a-;hPtYC0mgz8_Qq3Wf~E_y=Sx?V{wtFG`@2k42}_7;MGzEEML@8w{fH@j15(R
z@Vxt^!^W2R3Ln5>ynv?EXn`1;Me{VoDKjq;KW%wImzxgfYEHk#=G8S=-6@8na!oNp
zvyRk!SdLbfuP|_3B4;ey4b0bLBp|7fi<bX}$(w@N;*{Cg>leX|^-aaBd;v%+h|`wk
z(kQaF3g!*e;pyIAq-(Q2VfF^28v2s{+9U9##2plM6mWT<0#`rLhf(*d!Y$q|AlYw&
zoP8f;87ze<)-U0Nm?ykFV1XMW?$DMgb>LK_Ob+~d0$K(kkSj6`JGBR)+tmX2T%AtS
zb>krK#4wn!F^#y2?SSf>7?QeE4b#pNxSh}kX_`JzseKrNW7Ci~pdi>dSPsJ0#nVE$
zYA6(2gO;<tP@U0t$XAt#kaEovy^`aJs@6*iY722@Y%;KRXX%Hap%5A9i)P!l!R7C3
ziBZNKY`^=K3te7Ahd=QIC!a}zDAj3f`!`)GzttV{#F9~MqbiOx9tSV^eZ;!%Boup&
zK&25etd<J{{?$p~nk6FWD9D421;G%m`;OedcAi#Cr$PwVOpZUS=UPsuVwnC(@Xj@&
zyv%Y=yj1}{FH}YK1sieAWC7d=9Rs>^Gsrf{$$aavQ}NjN*)WiuhqL$JBcY?-u;=Fo
zqEqr>G`%zupBk9Mtka|TO+iPAL{JW_+Tnm>oY!H&om|%6(iok+5=m^FC0riYi9Dgd
zKXKH-4exyLOQtIOM!OAsS2xl*O_}hfYBzqpP)8i5OW<4YqjZI)B<hwV)hVjipvI!l
zxaG<=VwB)QS`I#f8}H^}Rd*Pr-Fc+y<#qOpz!<)kJjE}LW%y}u0CuP?Km}o~n7wTT
zF3@1GL8c2HEt?PP-+Q34y9nnVbe@d*K9)*<WufzS2`TW=#v$rQxk(qq1!D8uFegb&
zU|N=mKYJdLPA5y)kTnQ3+&T0grwILHE$I<gZ#dqrNcf7<`~aVJYF{`R6+#z4S7b1I
z%~Tc^@47{7o_E91*Ae*awKIm-gwnXPn=zv41Z1wt!}iyOq*_%82j#@V&%~WD<J%}u
zAF>dbedF-5$x9el>q?Wqt;7Ryso47{i%x3rAqMNkF?ZG&!Iq+FbkVyn)W6@978kkT
z7*7el?(X4ae8LB!I3XX?28qD(rap4(t|nHpaoDsz36meLBEFO3VD4EFeoTr6D9lY_
zlrKJ~elU&9;Ol^9Y)qYd%u|pZlZYk_ZN$VfnRJ%DrOu%Sh=HPlwDe1)bN?WLy2me?
z$PJK;iYlU;<%`oU{o-o(b<?F{Ib<-Wh%2(M!BqKO<bqWZ-ELzHH&=ZldrFSuwri8X
z-R=qw7^{<MF8grLn?C$eRSh?)9nmy$C@va21fQg;5yK<nKsV<E*K$=LtYMw()RI;B
z?!pfE6)}~+r{y5slE0R$w)zT&(Nich$&ox!*2hO<OyI4U3LZTdMaC~R!8D)CaQuh}
z-o3jM^91L}e7`Cva;pF*ETD!{@AGmds0)IO+Uw@elts<PL=39mMv6Ab(K$Ebz+$T+
zn%SJ?+SDnj)))edlaFxs6J>Eo*dgv+;|<t8t&W(^bYW|+8VjzlCHQ`>C@9Q&#ad6l
zL~=W2usGctZ)6kz-X4sDWTXWfZo5F&{%lnKrUdsyk3#$fb9QT9Djc@`M*HF@+-5v5
z&>{wTO>#6?Zvl)MdyYJsw;3ug2BTY6B`BVXAZx~*!#>v$a8Fnx)7x@EUU`7>zrTPF
zr?+tm#s}zzlrZ9C!cw~)Q9;=<Z=BM93|h7xBD*)2fdA`m&@SA?iRp=OtM>+A_}n;>
zIwcuQ;!U~n#wSrPEsNfZ7!9}8<OCBQq>z}GDU^A#6RgIH@y|3|CHao;sq^(f_Vd<A
zTqa${8J4XFZqifc<`F(yce)D(8O+0cH^hFA445=41(u8cs9QYhK1l3xM2n0TPNJuR
zhDcUIRznM>%LHKUk3=%b)eAC4iX#SGB*EoxX;|-S;`}q3{qQvrUA^V`yVVOpp~4!*
z%_+rL%Tsu{&;&nK499w@<K)%%EUqVpWv}*!5SI^4==AI+`D9*2o>GKSN=H$oNPy|o
z6wZCS$tq|Z0yqD00*?dVxt_+yq&>fw^zV_Z>(LvAp#vkSW9(44BbG)*P88N29^H!p
zKFUykwUjJ>rO6%~nnmVcoXIDwA|}2%O@2OE3nC9Dqe|OyGO9@y63*{pD<$OMV{{>Q
zl{n$qXT5aBM-zU}`~iARCy;YDvS)b*t*~_A2q?Wc3SJIM!DR-Q$xkU0k`ViYsFmEK
zKgv&mjDb2vIXQEY5hE#bN1<w6D6U9}#rwLt)XGuVQ_AflD_TF1b1)jzmn}fz;t5a1
zg3w1-g@$;8AS`e><aO9^Pc_csmrpZ+**OPv66!!dCyx_tN=37Z{Zvlp70LPX1@?Ff
zV8_`zbXv*|Oi;1Ku8`eS?#M<kS#AJ^rkQZy%3OGv{S}{G_(kJ~NfSGd2_T<59Q*1H
zknbiDFt6?#xSy87byv$lr^EsV8{Xh%ojC(rzY!RcIs&cTCW7>YbD*1co8-<N0ScG)
z(T*G2!RXp}sBYbX=LaOnK9_LVtdIxgC7(g*iZAXG%)}KZ)Tq=aBXa(_8j3G6flY3C
zbY38EDx;6WIXwvyD|-PFr?g<;78$<v2TMFN^DO$>aBS_NQK&s90sD9cq;S~_dLyP9
zziyYJaX-_rRP`{dOx}cn{1ooxrB0|UNdSd}pJdS9SFj=SJDFg<j6JZ|3W7VziQ0oe
z6j4}EljpaWD7_CS_tkcz<j`N#=iPl`vS}uG>ioi;DnlXY)_$<5y#Y>Bs?k3AAgmm-
z0B(J5#*_2-7^$%a6U1%M?~$S~H-o{}bt|Y&5^#bm-ykV87T*ih;dY1==-UXeaHbpd
zg)RfDyR$Iw@v6Gl(+&7PU#}*8!8?hRL^#=a=N9dW&m+^G4Ul{NV*JgTvY2f+flOD3
zCbKW;l60p8T7IMpE2OTI*H61>(z$$mbMYDUClzqDixWUad>4G&RD$q;g{1a9kabZ5
z-Y?$*-B~-x!=MeI9F_|+W7pub)y?!<X*67}bA?f%yHL$#3_RBDW^d(o;R^d`_%3Qg
zQfwI-nz;nUJY_*QH3m<;zlx8Q`%y>l0JU4~O{24SlEd5eQ0YPx`foI*GfjN)<pMtL
zz7`3O&TfMe4-ptNVg`v^GXdh2toSNhMeyEJX?Qy48>1ZKh5hw5WSQp-)PMGdwttue
zBWsRAL$DqCy<CQ+ad$vI=n5J6#28=BGo+p?c411zcB~K`!LOESA-o@%)Oo{ty0OF>
z>WA;bS7~OXK3NBoI}?bV<wE)*P=eG5=X~Eg{9u(#HHp=JN41-Wa=8QZpm>dw;B%%H
zwEak;YE^?_h{+~m;wOd9C96Q%<qob&Pe-k?VbGD9LJtabag34}|GerEGE_pIpZ21F
z@)k5v<FZe6OKZ=P%5QGiBYKEjuPq@~vyOmB(Kp6nAcs3U?k0M?Jq3NYr3G!pv9#mP
zeo#|8Mx~d<a>djMlZNNRqv%t_U$Ps<o{oa1{1z%Mp+Xf?-7z^^8Q<yMLW`pFm@-y_
zM$O(<XLp=HfI%)^n9u?WM@nhlNWiNehlqpdVfIK&E&7^HfJTiHknDa8mw$93RBb28
zua9G}jR|dac)`6r=m*Tv6ZAyec644Sj>}dh;h^K9{3qM<Q7S+Rb&bSeaZetJoREw?
zvJIppH5SJ=NTWm3YUnL5!F2m{`nBZ-*jW{kWOrrUNc}J%Y7yWLBb=5?A->L)IN#@C
zM$THiVXrDUlKhQKjCO;cZb!lO;3-;l`X1Ti5{E0i(s0Fja~gcTf$Xvhf<v|GKrjY3
z%9oN}i~X3FvyhsYYvWoOchFXK!BpM?JQ!Poea}>3l%x$Xs}B&{MTQ_p6!{C*&W7?V
zf0P=Z4v#Vi3677JgZlXu#7SfcXs)DCm)(R@y9cP#oojTl%TmU8{e9ZKHJsW#FULi~
zy63Hb2BUseG5yz8;MUt!<mXLI{;_&_FjZ{DhgP?VDjNvRmxI}U*DG|*A#*&pJsr&N
zq!XV9)2QAAz!9geP~G*d+%kvjv^#Y<?Jhfy(G4@n)#Tv<)$dnvQ$_|E;t~eM%I}z3
znP_l*zK~d7C;*Atc$m>^M|y1)+2@rqV0H2&)W>n0(z_B=oMH!tfkDJ0;vw`~l*0Pm
zC+dvPkHu#7LVTxe2bQMqA?n_Bw&t=FtG%m}GLezkYuLnk-d9BT^P8w$T{HRmb~e6a
zQb^0A)zn-5IEkH{25&ZK33&deFi2zv4sX8%@jaoWVMs4Et!kqevc7@wZiaroo(^w+
zWYbYg!r`#Dv><izdi=)hCaJsLki#EVq5PHgV4i*i;F2@3Ybzm{2UcK8=3C;^b`iXW
z^}#K{N80$Ljxi1yiTZ2&Fe>vL>@`m#F%i4Tt0aADaNPw@lL9QRYDV8NPl!)TB6sRm
zI@ov$P;6cdT5NW~a|OfDp<bWlU!IFL$4=1#gWX`K5JHr>F0?v+ge^E<M0%&n3OwT{
zVY6TlhGuq>>IrM`-3(dWwNC;w`U2RjQ5_KUARns(B>3CS3xs{`d6E|{;5p3NNixoy
zp{838!W+&VTTUdg8B*toBoT+pQ=|p;)ANbcoC=cZpow?drlM729&!7z3B4j!1g4oW
zbVukFT5!V=pHv^FgW(()2TaATt}5*NWeaxWzN6t=bN1ZI@i=+da4fCVhb86{!0VGM
zs&9P=jqQ=JF!&VR=qCc~@ftMFE2TEl5qNvgYj`$T43bXGp)p$epb~Be3OD1}7@6zr
zayv&%+rO6n+?vf@i&KP=?OKAK!~3AhDVBU$nS?pB#|s`#OQJyycbP3`2LoGFj1@}3
z*m&<JS7#>&ez%|C!0COc9_5J>-1TX(oIbp8IYDcybh(8#^7MmTY~7S`XXuznExw_X
z8@Tzp5})^tG@#B8{Li>xg8C}F-7^SgN*o5$F~8_hixi?1VMv=a1~7lk0rJ?LVNWfX
zk4<(%1-VZzLRve6MuYF;>W)L8JX#duM_F)g^CGx`Msrrr$s9uu%5jy2hNyQ~_?|x)
zM{{Pkld$S3z*%Htd{QgEo772*#Ct))VGeNVM@bG(0}V=7fmQ1>PWpy`)%~)ba$y8S
z8WaRIN;B9YZ?m}}pXWln?I`rm&BCrvifHxF4;?lqp?FF$akwxEFI{ngtCzI-X&+kf
z<Ed(5>vNwQ`o;iu>Z~I@n9OadY`}Ksx$ME83$ThkL6zM`ku3o-{O4ZLT!7dhkfre?
z%&P+8zS%;D;0}hJ{Yko23*l=r171p($ow=FfPQm)o0W>}MFqY?WDCaSZ(vUr7NN9`
zB^c<&;)@=0n4h#A{G|#xm7W$7qw9+gh8(85=Sh=&cEYvXBVsTqBaoIRn?Z)KQ;|4y
z0KD5J;bd14_Pmpai9TLfWfzIIPH|YpcZ4;W^S~)yRUkT)LeAKm5U{$4xKGK4ti1}D
zku;6<D!EOvvR6VJ`2=qaz2S<(PB?533)Uark;C)M!Ekp5`$7V6oVg8YZ##mEe65I~
zNgmriWeu3$swY>U9iU4aCh`|KIAh-IW;{N26O2fFLpH`Z!Dq)1NI#fE_xApv<3pwi
zxaWMhnbpUcs1E{_U1emT=sRmY;xnCh-wO0B<cXcoD4PyWg2_4gP*R<Y_jyxs$;F`v
zN*Xxyn9!FF$kIc5)gbxQa<mR`1!aSMXiM|x>$dygP@KcHl{bLMHa~o8KN;rvjmEW~
zZll-zO?1(%44AVq3LaK{!opOfnmdF(ryEPNAE&bt>z<+1rVZ$o+Cw!bSHi2y0>U{)
zK*BRK40;<*l<VW@>{}f;ws8ftn~w$g3yw4m6!CD{Q1X7r6o^x~1|x2sMZ1)(w6%OM
z@oM_OdT!Lm?`sCA*rz^Fu=T}xy#x4StS*Q>J`C|G?U1^5I*1&+%PDNS0@mRoD1KK0
zhR@K&L0@%X`H|sJSFBFWmP!(VVhzTeN)z_zH*k_s8)yk4firoE%eWMhU!4sa-up1_
zC(`nT5}ZwQHbgv(!yh-Bh)$LfH0{xcVR8Pr`%MOUuzep6jCBEKO&!US)TJF$+R50?
z2KJ0`JKAp;O${a+5$l$P0(Ft6^i^3dIm4yW>@RXCs2xHj>T0MWbtX|o!>D}5Ay}gP
znyXtQ3)@XI@v&k)C%!~a;1<3O!(VB^!RI4by_xEeSL2C?RYqXes_Vo;;Vg24<;Yjb
zL^3~HT@W*B4-8dxC5NWQ6W8e1!ro;#Q|QX#qHDn<r(Xh{F6M*4a0h-V+Xg>n($S})
z6xCau&_hxky2ei;yBf8zuigd5T_~hG=Z3-lQNf@oB_p^Sm`Yz>aD&;A%i!la4we{+
z)3pzeqPh}N?dRt~c8eVyVt)sSpA(r<zXHzgTmb6H=`_xy66WM>hpBhp61g+hpi_B_
z+;+W>n_UaxiJ=vhVE1ER<N=6^Nu!m@g!*kgz`YfD1Jqka;N)J0?VAt5r~Zq?V4Mr=
zi9N;LUzZ30oxiw?_0D)pRzQMp#lU^h!5H~52LjK}h1;8Ug2Ux@R6T{5tMitf^YSjq
z8eT^ouIP~|)<1DYngm?!p>#uQ1USA^A{C`P5ZRak_7Rj?-xEX2h)x__poq_38F1$(
zPKIzY1x-U16Z3F$e6}kR3QrB@AKhn;ZI4bt$Mi6`uT}^H(WPv%vJ<IzA&RF*_2Sy-
z(}XDs#<a9wFh#tJ1gIZ`%`@t$+QQQq=lp=SJdMH|);!$eAB>3_p6HbFh}%+ngJWD?
z)6(c`us64bPLxl=16%fx7WNp{n_Pgh{fR_FzX*8MtB|Lc1y0KkgJpjVnbhry+b(WH
z$20q3dCe^1W?Kdtk*b&#DV%#g)1<e9GwIPCUolPU9{Kw55#7`gg-XW>)#GWAX$gbD
z*ZLK<k3B>yEBLtfTRIj?Er1VJJcu<kMdv+%xZD0AjdXFxuGW5b|B)#0tVza|`~=c-
z+f>l^N{@@|TtV^{o+N2r4KV-AM(~;Fjv?d#*f`XXN98Q^tYpZZ4NuA1sGTHW-$|1C
zQ(xfKdzbiLvLJdcd)Tt;Szvio9OfqcVh3+Cg%^p<c#$_*prEUVs1rn`zJ{RFo%yUp
z)MT3NG9G{04ndn!DNt^-32{Lxl;1O=L!VTWNy4@3ms_*2Q^^3FWcJc)XX;RX={-7V
z#TclLIfR`vHh^~J6|QT91Ehs5geAX%z*=nvNXwUi+leT+f47Vz#;t|I7bP%B<v4et
zQUdQV;)0hQ4YaDW6ynsg=%Y7D$g}uJH)Qr>@8{j@RXaZHE~_Pjv{%74A__ylNuc?r
zH`H2V3mxCS8^6d@<NR0N@bgf*aE;IpEebObv|`YpMiFFHdxUE!>VmNiCU`=_7awU&
zhr5l_@cQsPa2wr0x8E)S!|$VE(B>T2;MNa5({s2P9}nV|$E`%atQw-mm*OpvP&y!|
zL%v@>M5bmBhT;l>{lmpTp*yWEUsnR+KFopXPsa%E&5}iHV<~}GkOkh`;zycqF5xt9
zY7>`@({ZC&B}{3QBi>r~X^KrFz0)R&Teah;THrz0*BXbTPc`7j)lH;XZvsEy!Y*ok
z{}L;GbPur=KDRM<0aMi!LCZ%0))^x0`ZN*hpSSTwyPpOt1FJgml~$;Kv!6~HR6-BM
ze<f3Gub|4o<Af7Wht_G1bWO!E_<nyOR7H#sd@TFLZXLE8xePNJ7%>zUlMS5xrXn(@
zD1hEjI|5Hu?x(LJ6zH13H}q>wH8EbZgOm+PBZ|-WA+evw54q?I@rpdb+|1cvC9@E|
ztheWK#yFGkgT?F|6&uKJ8%~o41(UeZck43xjUmU;8`TeLV%7_76iK~;%a#qrVEacj
zNb@nf-b=t15BCPGqw0LKMXh*9PL4j*u)rMQ_tvZ-*YK`R61{C6Mqb!IBZ8slp-y)S
zRk*p8c*#8?GK>+V&T6FVM}-s3hDO}?agd<cN{a6|W;dK2B+n+@Z07X7yP?#@-Pl;I
z#O`_R2+g(I>J$neQQkt~cb~oGgneI1E$a7Di<{$ch@Um_S}6@_BZQv&B!*5ac*o^v
z#6h+K%kR4PgK^0%gtG^fX-D-r67Bqwvk#gDQS1{^-&V%OE*wFeJ>#iotQzid^MuBt
zi8xgI0KPk-E2v2luIZS+rM5RaG5uu=y*yQhDmY(eFOOB_Z<=!y<mJ9n&x1#?f5|jt
znqK21#vYyT$zpZ#Ps-ms8<K{_(DuMo?rFF-<o+a(J**t{%AT+j%0F=7iL;<*;U?I?
z--EkKpTqu7EQ~yw&)QCD;!-6Q1Pu-I*!Z&(aBO7()TlYuK7aj&T6ix7DF*=+57>n&
zXWo(nomYv`gZ;GTeI{DmtVh`oo#5{{5;o2>X2M@jhk)kw)UR?FKmNxYbjlH-TSLPj
zE<_(BRiz;7iXJxg3=((_9Yt3Z%%!yf-cTKJ0UL(Ig2HTD{Q6-BVMSdaI=U5L(*!hI
z#$dv!QvBW}2Y2{IuqL7nw*;BN#61F%IpaMw{nf|0r&)leXDT!n|D<D-Ignf^LXWOq
zf;F{o@u{#L^{xy@+fTZ%CwCv73z6lk>gd3e@R^u<?g&1W90cu^yYclf2T<x01D&`_
zWc<lYc#-Car)Ib#^NEixCd06*ZyTKaG6Fk0doX{t3B<BOzc?#^2(h`y`}~tFKInx{
zjn1P4ZylsRa3uHVPsWwr*;H9;Kg_X|<Le$vg|;W-xE044^xbAbuN`>D8h%>|dww2e
z8In#H{Tc=JyQ}Idr^(=LI|cs8yGux0`55#$UxyFBW{^s8QB<pSr%w47*!%jP7zX}G
zl;m-5M>i_u96&2qODbX}&VOy1%l29Nft^k*p3Kz2y1ES5U}p|QG6qb)-@ymjnP8|r
z1TVkLVQVVNF(qRO;R_Pbbj(<sJLeW|@Y7;nR*%Q!KU*<jhYnX7s*A@TsnZvGq4w5R
zZG09zgcux^$9#zwAo=YwE!t;=>(eIkzZqOXhk0(~Azen8V{srVP{Y1!3u)9(31%2k
z!#UX};JSepm7#ZF{Kg5mb?igBXamRQtvx}U8l>1K_e5ZGzc<}kDgq1A9zbQG2c+!~
z{=ZNofK~4WSbCeHVWknsr6*wb+#EVTW(1UXsH5#!PoQhFu|Fz<&b~Jv#ZTNLT2Fc)
z-#Q9|EZw30^&)&>-p6Ij+$9O8+Q=|n0_ScwL&m)u)Lo~C&Th=a8~dlDU(Z9dv>XMe
zc$WYxoymCR1F+#uJ@Ghm70*<95QCM&aAwwZSjX^TLx>_a3>1*uu|rXEi<n?WkQ|Xy
z6ZYpjB?TAVl%QtSOfszToiI)@m}TckB2r}dQPQGpXDbT_CS5|!vy+MZxo-0D!(()^
zI!4soo-jug4^fG5BW_}>4@|7PN6$|=LO6voSn;h8EVvfJJj_9{6|tDvoJ>BL4CYJS
zNJrnzx;T8J2@cWEhP&<sU^_RT4zpLnS*LX&<BkKqnVtytGb^Z=h9pUG`A%nkXeK%@
zy4VTNFSG6uF}Sqe0>$EYu-faU(Ou5p@lB&Eo?s>l*7j?FdB<MZupMdK3_}<k<xi|G
z{osmAN5Xe|WfV>MOiG@$5yxC5bPhSj`ivh+{Ri^!zE&z-v9q7dK6Vjg+_LF}ZYe?A
zZ56>tZWlhR4Tj~bd+XYU9Ri<FVfW^3PqbTtxZ<E{lsf#DG9`)vmATtMC9j0mhYex+
zEcc;E&v<somryA6643rM7wo;z1uZwlz`1G_&buoD!JnN#VYvs!b{}Bn9fsqlH~Dnp
z;1eJX@`4*-d+GH=1@PWdj4S2Z$it=+b#-B<v3~Lga%g@aywqZGZ|oQ95OV~+CR_r;
zs*zYbY%p?n?O=$za4woW2rV`0ux@w?d3x9vq+j;aW^G?62wjTWEzij01>$HcoQrRf
ztw86BxfpG=mrc9&oaSxb0HsSFa~YW-@Hq4}2Iz?K%V*@1C7u_-RG`6Tl}#1M@`V50
zOs*%jJ@4qljd_fx#w5Hp^%c8pMjBlEWJ?+wj-yzKKCZcRlUU6zqH-cUEHk%)>p3d?
zw&tree_bKj>v|bqIwqouCtvu@#Sk7&G(^p*Iru9&7ahx2(oIDZAt<hdytqdRuSpq8
znSA<ku_DM^G{nq#-PAcK9%K98gLuky7*TMK)meF*HqYHfvJOYU-0oNye@a3?Z)_q7
zOANrVLlia@j>4j<J2b>Y6VEDD5K*`5Fkicwz04Q>qhvM$`=3Y&%G(l9fADZ{zcq{S
zo@PV4aRDfdv;;HDRiydcI7mGv^osKLG}Jeh9-nZU7A5NOeJdmA>SxX5@VymSUlvAd
z)`$yak4WPffjc;sy{7%K%TTu058ZyO685oksk8oh&Z_wkTGo!iXK;pdS!qE$2JeAh
zhpD)H!bjLUsvb_BeL${tOY(Vi6s<86`q}2aFtwl@ha}m8_SAQDLEH%}7#$C$S0|&F
z?Q{0)mlLqM*%E`hDRj)Fm|>$uYql9;>L@kza`c1iK66No-DH8z#ul>S+#bvkF#(;i
z;b<B^3NjjUV8qgB;XHl~<yJl*RlVxe_r+nVaPc7|_F6)@>3H(gES%oEd<EAkiD29z
zN#M_lLbd*tXf&w+<L3?%xR<rj?!_m#&keglQdnb(U(Livj~8PeJB9RWmVm_52XxJr
z(YUj^j${^2$Ilmbf=F)xb4h75=xvu2C?+q55iNN*zIHkMC`^E5D@$OD_9HH`RU1QO
z8*#91Htj1eW>vH2;k7^sNIABj4V$OVO?lZz^R*M{+hS+v*PO_Inw|!x`Y*}DsAe*6
za4%%2m*M>OeC~tIH!9*^0G|Thvn>Oy_{pP(tXVAl&b@FI25pjJ2k*$kp0yq@^5Zws
zz9o>_tJc8gM>ptpN#R;f${?C~;50g??*rX!A#6pM8NA|c=Pt~x;kwgu@x_)YpjK}N
z*861z)jk<;c&a2Vza~ej^xMEC{x}hzI|DAgKLgWbjp3PiJvra;5Z{G%&||*dcwt2y
z!#BH1in=8ESH=}ndU6)rUb+;c&UvC#+i+a}rU;D&<e=iodJ<!8LM6^Fqk)R=NZv9B
zs5cd^-76`B)s0o$g6})gs-u@4%6rM`YMTjE0-B+5{T$MxaRpm<UnA2#y1}wb9yspj
zIkXA0qtUB$8IAll@^$WOtPpF3n2af?)@g<h9p4hQf=u|NYy<tdQCL!&fsM^#csD^C
zo&?xqjP@i5d2^6Rjw~gMRyu>))B>!IxWXRo7vVQdR);;G&9G{WG7d<7hGToq(FJE4
zA%5{#IKT2THLy^lPF`AgdE#*Td0Rd%NnZu!6Y@#(Mmac~l|<5BWRa}bPvG%hioL5=
z()9k1!rtg86jsX%d~PLxaArturKUjiJ5eHi)fCt_2~7Du8Ns9v)_9~>40pITb5>vN
YvEjUME-9afd#A=hl8O!e8u%LjA882~fB*mh

literal 14104
zcmbulc{r6(+xIUsMU;euBuU6T?0v0sqd|ivl}ZXxnHwk?2q{9MOd$!WOoa%0uX9UC
zQc5YBlu8<@R8r~P-S_c3?&tSB-S7Rrz55@>ayUNMvcBKzd#-h^y+vB+AD`WtE-ro>
z0^K~^0^M9(G+Dbf{Wg1S@YQ5#`ue*0xovcF58S+M=Zruv|DF2V-26Q@`{{2D+Td@Z
zsi)}?xO2+}!5^;QXk;!J25#Qs;v*Ou8UG%*ZFg}C_6iV;4GjzhzX)*m+~DUX81683
z3Gxc`bP3p@8KS2t_%Y)j4>a&~+qq#|fPtZbpYIj}kIg~;E?c&3_WnJg|L-|-On#FC
zJl%djb&ZknTEP^4&wBI5jR6}11&>-|sAp=q_TN)Cxdm?c3#zH5o|XCk2D^RBUqG$Q
z^^8nS{|z-@gYQNcx4=Mu1E0S@3%GhlR>uF4z4>q0R>pe9riTBKz4b5H0<NC1<-Zf~
zUu&}CZ`hWWdL|}+R?+DH#c~3uo{8n3h5RS@FI^{q>Y1ASS;c>X|H^j)q~Im_vw%hh
z|61g~F`j^{XJ-6o0skxeZ;U74>X}*mI|2VS@4qpgfU9S2{O>gU7yECFC*bOtTl_=D
zzs)&4BlG_mbpqz^0QrZIe*pg<neLC^-%vecW5a*Q_y_X;f$RRr{f*Q!w)&@p|Bd^v
zCH~L0`!ig?)ibg9XQ2LD_<#1@AK|~bdZuQAf+Hv`{}%qAjrT|RZ|?7x=1)TYYgzuY
z^Zp3`&DAqE{AW@8|IPgWBJ=)8{teYLw-h+@zpu&vMd<yREP(1+nEf+S|1jsj_1|x#
zo~4P||5Wk6M$=#V?>AS^%E<VCs`y{wf9b#9Ts<qxe^$o-wj%$s$Y1*JH&@Td(A?}#
zO8$%fmj?U?SkK7F^mn?3Xb3*jd$icDPlec9J0G%~4EU@uwneNP+Iv_hM|-ehr0iMW
zSSl<>XL%MVT(^4Gd)n%*mkoQatrR<IL@z6UOap6paTY7O{s>D~coS>iX?s?mgFfs0
z83op^=a;MshR<5%^e}8&S7kPL=OBy8;<J33&#=^+!dY*BY-4@-uz)4uF3#GeC&K!O
zeO4cui>#)tj$(8tI5Q>bl8mL<V>T<hjV*TPEc?dCcy{n?7Q1Az3j51i3HHd&9+r<y
z5zFq12UGDznGu;G&uDELVvn8wnw`mRU=KBCvWF#O*oGvK{p5}T+a+KeJMQaG)|Z;y
zOo@j#qgi3X_?C(=V<Mlk6+cz5WxvO>IYBY(6egI>(8X*mJ0<qMauK%Ow{^^>&kLBg
z`^rpv_5*g&i)Oa%l5=cxOkhhEY-ih~7_ndbk7G|B>SLt^)v|t0n$EtPEy3=1_lo7>
zMOmxoWU~(4+|MdmvW+EV=gqR;GnQq|e`_^j{3ENRU$s`g^`h+Y@@=dK4==NPSgEXA
z28UTYTGy~d)67}#l{Hy+qP|(ZeAaFCP_Ed@v@_glm76#_(6E<PI<<wRXjR1ev?rZq
ze=eNG+TzOc^q9jctx{u|%#vlDI@@EVw(_ji?(c=nv%b}g`?emoj@vo*K<H_<uvZM5
z<}G3Ke^|23b@bVx^<P>0gWFmBHx(>agBi0%ZXCn=G|1k*`YQXvn!{{UodaxN2?zGq
z(~H>qM6B7i@20V*hmB?DTXnJ~8f;{4CTlVL=PJzC;9u->x9+e9?v=4k)e_kaLL1q0
zU)i%Os4@Ffk{Ubf{T<eg@NEo}X~-1spU9{k>|-16p=|ZIRJKJxGMfwA*+XHg*_Uol
zW9M5=WotW&v3<g>LW?^G-s-A>s?;=2*xG6c+y9((bm%?Rox~@w%?4DC%?9h^I&^h%
zCWO`2lg20Y^!cDCK~52E4Q_|?8>SK2gEBDHwFjRs=kXSgaAwLAbLgOJGM#5~hSa+M
zWM|uXLwB_>xJyWKhT{<Bj;5l2Qa;HjOMscVQhcGXbEt2g38P9Pa9>6cdKgRtn`>`K
zf8lrT$7~hy;F$%g?4FKAz8WxV)KYq?V3?L9UV&W~vtVyvF6?sgrwUS5ICg6ahAPd3
zNwy-;{ZxqaappSgpK*$JWW{_OQ`-Q$&W59Q$24fXyM%7_T><-V>yWp_HB6gG1a-61
zMMXt<&KREvghM9qx<DFp)cmpbX#g5l9U&9?)nL;k8C(}XK<AWZfl;3@$69SVb7o;J
zJr|k^zMEgrxr*1B8A0`+l+#VMhAU}c`90uN0DZUoG~)DJ`eKGZgnpz@QhE^9q~C;9
z5-YLy^LhLjYJ&Z}TpHCE2}5&dl8-v4>0%2_PT=upL_y^c?yQlA_BD1;w>|}A-o%kT
zcU57iGzf2oR^qI=JLo)^0iHoBP-(@%foJzAXM8!0-fV?d%`wb-lP(N?*ou}_-$3pA
zDsul>JQCP~%p`sCVEqh~zL)|kyA5H<lF6jL&=6fe-4LvmHpif_kGv7T1pW6<u|=z;
zK<V-s=EfsO=+?bTq?Q&F*Y7Hf!sL7q%1^6VaiN2Tb>^_^(xS<@?xS$~<QpiJSb*!D
zba2OBL`BV0sJ&kq8#)xAke5Uq73RZ*$Va%=T^g307>k7>i=g#L5_V5nN4M=eix=+-
zW9wE93_Wy$<_)f3d*dn|%&VqhaR+f$+YL0;sD-J_eAK?5jMk|K7+*7j*2f#z_m7KU
zXyRn(SF9ohk#}iZ^=S;8B+dC!bc=d490KhL*C6D~1Z-Jz1-xn`NfRvKxGFp+i$1#$
z<ybo+r<Fjjo+|=_Ffn?k_zbZd76a+jPmJ2=49JL1gjc$!X?({^>hnvO{IvQ^wN&ns
zB&Q5=-M5SRy0H>`q`#2Od*7f;e<e2U_G8WqOLGpZn{l^%&?hS{NaL^0WZJKL0B_i}
zGsn_Pz%U_?1V7ipHnRr2y!$6jxuAh<({yme?sw!{sR(~yu_)R<jiHlUu9A(Jvmse#
z1WHyM$JS}W{3DjLV8;D=x_*r%Oy8o9cZ^5C<;RWm+Tu!x?l{41*Uv#K^JwU6%7DwB
z;{5QZl`tUL%v(FHoHW*LfOJnUICV9d=F6s`&lhnRJ~xJQ)k7DLF5C<%W{aUl@dWO@
zG8wn-)uF4_X+r<r3`}qL!<AyIur(wLuEtr??24B(I-wMg?+?QZ&r)b%(gG$vDub$N
zCZgxTcf5Pv=gE)jqd8fMQ-LHMCMu4>P-zl`anm$`Fz>LmNdePq=E1P$a_VN2&-kyf
z;)uUKMe?*KfcHE$M%p(}?=8Mi+Sm&tR`-z~`>Uu@*j-X1e~P%+ECC6hqoA&Q0y|1V
zVVmza%=)?yn1fZ+QhFyuuRDkHC%QnpRX)wmb3?Of?zqlN2$}+$=tuK(sMN71#Jq)G
zX&T3uo1uV9Pv_B;+%}q-@t)k!Tn|iL1<Wn41g(ub$jeQ$fi>?rX<>F_-<UMGW1vl!
z*rdakvXRWgRv!}jvK=#(W<l}dH>CAQ1<zde8JW1$9~H_QV2?ouUOat}$ht(+hGjAk
z^6D~(9ZBVC_4Qzm!gq3A(iZQ^z9)mjk74(wa4;@Xz<GnO1zN2H?Gy9qK?5#1<rs_6
zQ}#gegS&9fb%-99-j5R=F!W~OKG4WG%lPq{DSKc8IV)oY*~dSy#Z@mb5Bu*kc_NLx
z%ct+apl=q+`F+4e-=CoOge7o0wi5G07#v^R1Pbc1P~L#>xqBqsPxqvm9D*i=SHNd?
z3)K)lN_2l7fD6|jljpvBVK_UMymn+TcDXHF*)|Luv+G1TGZPFV-r`|D5q|WwTH^U4
zhmQ7%0-bvY(csuip3v9@ymW7U2)lL~({g>7V6jQ)ylyL|N3MiIW)f^s5hb^CkCWQ3
zhtS$PmAn(y<m7a%qY3kVlG+8{Y}NxMPK(xN+A&XuD6N|fWg>nMranNmUFvu@xYcAl
z<)dY-6O>hs!t#mFsZffK6@DMjNq?~&^_VWk@Mb^vtk-K^H%Z07GYqZZIKbr+Gk|B$
z@u;c>WBOPWaxaa8FL!LnROM(ays{S_WF-*a={I3tbtkk58DPiVQJkNxtI=ex33Ed;
z7WG2%Y56Zn)Lov&JI6CXcJ4HO%v4L*7ORHVR~%q;jt?X#C$RR*$G}78GtqdgL9X}K
z0PDda%sy1dTyRN%Mmq^oja3kI;1C4t7zLs#Hu!L5n;;|Sk}K1bu%;^qGe*V3C2w!E
z*(ial8F3iASBPzsazIZzn8q2}(*DTtoF9t}X^Bz<x(_>nsPazUt~f2C5MIdB7?6e8
z@9&Y+H;b@!Wd|mBXyG@Pm+<4jTvWQ~&0FOsik-4+d6v)G5sV0_aE!pWL072CM-P0k
zxfm-S74p6Wl)}EvJkX4pjg}wwqOtfAgk`s}!L*trEkk1IWsKhSW{~yCo=TW1a$Yr`
z!hH$rh!bCdG(IXuOGcS~@hpQNi(;CvFCTRb^yt_VYpK}r3iLR0hd05ggNn%|QIYBb
zYN;-S?Jwux_9Pxow@;-;whM54t24}-VGP{|0)U#{0*PxfoT4a4ves-BS{kQe+bA8_
zJm~;>MyL=o$&2*xQYqY8e~ZU5S_#ot13-RYAKK5DNOM%~(j#8^u--cte^|St&utxk
zV@e|3#ren`!;=9eqd@l3u#X^>w*Ui+TglEzp@eWB(EV@bV!Mwpzf)fic<K^-X@?K=
zbS{rPRxzQTV+Dn6_c*%ifIb?QMw9v0TDX++5oRr#L)`e%Sp3WgOw$5MLf1wlk4}PI
zz<D$`iX_KXPvQW-3>`IZL81O``f6M#zV1)wl}PQOVVs3v>a2)qn`c6d?_y|^*n@-Z
ze$24iLAcN`mg*Ka5S4+s9LED+iP=O6U>|9QFoU^_s{eh`;53PPFX|y$?{cxl=^``u
z^d}7*U&T0geMj5GL3D2Y#jp}D)8xiTvR-yC?C+=pV~~N&^W$jvi}}PjQUfFRInnr^
zg%FpfhWeLp;M}G(vdKOjH2VypYD^2ln{RZr$9N(q*vDm^+Xs1LTZvC+Jz>|3g&9LC
zj9ZmF=0#j1;x^g5b@5~QNnZdJpY0&64h3YEqYvbnUZQy^p5Xd&JU`Gr1s=ukBvOgJ
zBw2Y58f`R(1u0#ON%KYQwP}E&l1TFPQ#vkY4}){H9csk!P{F|v14Gzom++I$QC$ie
zVuS2@?{M1k^cu!?4};D$hL8`7K>y1+9J6y4PfGa+8js3m7Yu*mS;%=pQP~Hmt?8v3
zN;E-j<0+W1H5%<Q1pC`t7a*#46wg|y(2D;t7I(aOM(X(`^ng+`u6)=@e^j-@^FtZ%
zsI!-f+|S0~8Ry{4iyI^(pOBUB$AXp6DI8Ycj{Qq*VO-}GI`Bn^lkwp(UUJd~<>~Th
zUZw`p-@fop)Vu+qp7S(4K#M3!18TE$`O(|gLD!sUSfQ#(wyxbwUGJ>~sTo@#%yb@8
z69b?Tq)xSJE+R^ZVyeUn!MeO5OI(jJE`3>0Hl0$<^~WIa<Od9Gt0Vhr?a-~dpEe{*
z6EhSCrOr2kjBTcI6LUa$PzjXARbk?-MxvnhjG3lZ0#-&7sH=55GcQ(@|E6ab95@$1
z_?vB*Ls1??T*ZuY)L#rmUv!fA@1-E=E=zAE%aaRpc;xLYO~(169ho6ML|whF(^<~W
z<h|%?V0FL8pZ)&$>61Ghv40{q4|ouv?h=Npnk>jB2gY%kJOr;X#bJj5Dt1DaA97L)
zos-L`e{L-HbEP@AE>DMI(L;j${4wJ7xeZ$`b&>4b#h`NjB{gUW1yP#F>l)Qh>O|FW
ztVIHhRc--~r7m#ug9LK=WTE725a5{+WN@K67(BG0*<M>A-+2QGSi1lRe~Ocs{rey$
zc^=4=N^t7p9wNgt$KHao%#D`wFw#>US_&Rv&N4?_9LXiJt#;sXwv2B4s0dp$r=gkr
zHfS`Aq`Ra0K}6~@%uWl3KBu+dGtLqWrBir5N_E)t#GNiZx|1r8HwTLe(RkvcJKkJY
z0^xB|oJ)sJK#=1;aC|ri6b$cE$$o9}%g7IJuAYI9i)|plVk}iuD}=&p3vtTL^StEX
z`7ktnB1tiv0#l5-crQLla$LK;VcJ#+eroGt&`DXyIJ!T>GEomS3EhH6-(SXr-EU}}
z>`5l%%|)n|e97BAL7C${Y)qb=x<ww@%%>{X6R4{5WAb`;J(<+qL=*b$h`wPubsZ-3
z#ny>Xx1@k(Pq1gadIlKlY-ODINFMlg6Zkso6X2MUH?N9$1Jz|5s@}0dP#1dux{uQ%
zI+OUZv6ty7H(ji4zRu-JRKlJZiX{&wP~Pn<TxG9Co!t|82ForG*^|Z)dMgI#ZA;J@
zE%@K_E|TYKHJ~VPEslwsLe<`@Q(sLk?>XV1LTL*3)whqtsJj=#%14j{109ac)lTd=
zD+v>yU8a7c$KvkOT@-X(q3LoMSl?U0n{!~0q=+XIvUvobW$pl9AHIYOc~xX!+$SbZ
zY(8`7a1BhqnGN%y2(9Zhd1)&*gX(5QD7teD&jdIVsWw$CSx|vnIx0c4$$*sYE}|}@
zCD87XDcCMbhiwxhQ1-bTU(H5_XQ{4$s~%a>xku8`_HHg6J|07tHm{+gNp7@u<PwI~
znu23e5ZDidP~p1oB*AtT=ag(Uc^uaU$AWJY#p!AE@MWY2EezoP>39^?{LVa`c@T%@
z3jvR3NCFBL(gl8rFiG+_1X@H3>X99}M#YJ)_8Ky$%bH&uI}e0?PC%{RdTyQJc{Cmo
z0Lw-Lyps@|3kM6?+KCh4nnp0~X_$>EvmCKp)C-5)nsCC9ILAn^&-bbq!F)$9!B5hB
z*XyOk+OLhMuDnew`1eTQrR!kiQ$+g=+ab_p2Trfc$I{sQG~whF%9CG#tp*3F`p_|`
zI<Xm@ArEZVsl!LZDHt2}3e(27Fdu4%AiVP!+i>|vZcR)PJ<>j(Ce6*HM-CmuF)?Rg
z=yDV+l8A&;&h9uS#gYuoK0`y(HbJdJI5WXshVQ*Ahvc}nL;Q+bA|Z5;_x9Hf(v~L3
z^!yPV>yaMJ_uJ`2QY;=8xi1G$m4}EGmEfCEhUY?qVN1X_9OI!)y(AvtfOb5uUO^3$
z3ic5VM^SjCs6aaVhKa6>pbx-14D4hx+&ey+%)0*o>x#FdeTFz^^_n!`UbzDHW(ky~
z6pvYr!WbE~9D?;tm|3rFpyq8pnF-T*OKQi0Xz(m}r>6oJSrhTCSvY*p^}-P>12W@L
z64`Y$8#6t!kZCoejpOC`RYjYi*y{tNKifk}Z>%NU%n?NWN+85{NaND*F7oBXX#VRZ
zQgopEJ@5G<HQ4h~lrtC~h6_TELiDS1Sh>fQ=OmIvoIem+dqM{f*{-F5zh=?Bk6zON
zBWLRTM4qnnZXr*d_o2enO1N;j23K1-L5+z#=YiV+uA!m^-sfE;p`S(Jhxrt^<lKX=
zTvE|m#f$9rpF@pj=aNc~iJV?{T^L?J9X*;3fM{F_9NKe$rau7ObUF(yD@(yy_cIy3
zoJwnN*x=Jz3p_uymzTbG3Vt~<ntp#NfrgJx5urts`R4uiQK`3<(6YraaM+XDd53|<
zT6Mu$<Rla+q(E4icTMHf737jq2cx%ZF>lp4c})8;i075PLHW}*<cJG##ztqup3xIn
zYJsl2l*QL^g^DL`8EZ_cTEn5jCW`2s;6QP$FD5J(;~#oE745}}VZL7!&Fu9@>z{Xt
zk8vyBj+BD#)9s|`g%v7JUV>TIkE4iO1k5a0L;ISX80C*D=+;~a(LYDfFUOooe^3DX
z<2*gkIqruYj(c&q-37+Htbu+pIevD%HZ+BCVX}lLczrlUv|F_>_(~!;Xa3|x-fab6
zvqoB9H=frOZ-yVjxR`5MO@cm0f@(}YbARP+ysQ(50sC(tNlwN&mwxhQ)|L|ob|kzP
zx4=ZlWc-{DC}V9)tsfcFcu@&B@#G2y1fKxcfJzJ<CylEfYd}=xaTxOchWZ!2@+=Ax
zNm|HRI8r-=i^VtN66(Nvzp#<Hd#@elDQ&<6t18&x=SkjA*$wQK3e+>rk!~Jo20vRL
zlDFInOb#xB9h1ed`hgLy`?8w3)3Fov(#_HIbT(H~uuoBxW()R9ar8smEZ*|Zn&``B
zI0ogV$iF?ve!5=>7I*a0=SmU0RVU5CBlQxRZYrj`loz6|I2Wtji@37Ilc*E-BI++4
zfKe)w=*P4M=GWn~^hA3J_Fk&TCC?PVFjRrx8N7vw+Yt<E1yxj>tx0?@jwR97N^mU1
z7Ap6>hw;wmNRomCEGg;a2@e$$hp1iHpZXH-C_V+#$}Hj{o(lJExcFtwdU*aomD94U
zfF5mLguH+OB2_jKgtqPE)kJ5Jw_7jpBCT9;DE%GXp<qPpM=S7FPK%_@uXd6pE~CI%
z%Z^$E_tF;~^&l0QL#4hR#hEIOFefq`R%%Sf;$@e4a<vw8C}k$Uk3Y<e>To2@=z}80
zWBFwgvEZQHM{Q1x=XWGU5TB*%VA0qja$nDvyMM(GvL{0hFUz0c&0V+-Efr0`chz3%
z9XJtHSBl`5tHK=1iR#R((&t3=Q#{IM9H%ws<#E#^K%w$fYPv~@Gd|k|k9HYQ&sDj+
zrz>jUVf#^1kt>a!<{L?_WCXfK_~MnG3KTkV5_oO*ao6g2&<&Z4rqYX`C+<A-EL(+s
z+m3)%7Nw6%)=-7hUSQ4iklx!1Xx&3UT%UCTn>(Z+?ra}dYuX&x_Dvm==HC=#@MCIS
ze;1TW5hNY2(VuFGWNvO2ZOVNM=PyOV+A+W2VZ;rpx>(?k!6R^E*+-fZ9Zg!A1@HUF
zCSLE^0rKHNHbl!SkkTewU=8L0)11j13;T?^mYeC$l6W}(^c(l;$P@71-vM&`jq#;I
z1%9*OV*fO25c%nbP5GkC7IYw|YNR<f3*7K^)E3;BS42uzhyh3Q1+^4qp}L;}zvb`_
zP`~ekRR`i3zbnCbeR&}|IICjs!gO>}ZouNl0DRLJaw*ZCoh2s$9o!S7seCb6B{m**
zJ+L8_f?lY%-AnTH*CseCr_PC5W`xqZUD)p_MQh#JL}$q;IDYd2ei1#!tCI`|FR$15
zEmd%SY}<;p=YFuJ6>W$1j<fK@sSjLRoUvhDK3VaJ17p_gB+k<vP;uY~5g&5`g}M7d
zRr@EMwBaW#);&Wq<2ONX*+FzT8HFvf=b1T)9OAv`5sg$z1o5WT#9LXD9G_~42TtqL
zXU8Y-b??mJZCtq-(^B%$%~FeV=ksGCJE(#CM>OGu)t7PT;xssBwTrlxEM-1A=+h^y
z`e=PWkb7Lv=jvaY%k7>lLJR}KL69ua-?<6W2ls-CLM)THB8~ZGBF*Wo%O*u5C6O1U
zi>lj9A$CeCIde0dr@v$&J^xve)*H*i+FTueXq^+h@m_|@rG2Q%cws!9gS5PAKjuA4
z1M~5*cp*)f-*nF$tyiw(+D{!pVfQK=;dK~hJa<N|ahbH%2f<Lvn1l}B$5(Rdv@Z5A
z)b2lwLeszV>bNF&L9P&PJ5?a)&w>$(siY~)2gF;>@y_3V&iz{7gpBZWo=WyheEK0D
z>_2RW<CzlRw%Cuhx$%f3YXi-G>CE#q_aPN=nNVmKjqR%r!rCw0_+7CXTk^7~(_~7<
z$0b1O$Ve)#90J0}<j~&n8RK`M1y@!o^WWC?^FkI+fFp?uLEbJ1K6P6mck2}7EQ~@=
zMSln!w1WBDZ^6B@3+b@F5RNNv0gWd}>Z27Qn!lXXytso^Aql+RUF&(O=_WkK_S;~P
zaSR*VS_qF_2St1G$;OypkhEksq&`fi0n?N5eg6=>xvGn{xoW^Yb~On&CWdo5bBUC~
zeLP(m09=b)Fi^dXuJ7;jrhM|jCv|KR*%%C7oRN4(CXbj-@j}blqxs9u7=Zb=Y>a+f
zk2&GnVBN@9>_CGVh+pSmji7JXd&mS`I!0rcrvu43z7Q{XD1qgv3T%jTz%_y%I_KUM
z;%u*sW6zw1>IfB1(2<K|s-SQ6W<@^<^Dl-N4-1;@*-sO1IYFe$L3Cd24|hKV;;-{6
zux4a6%ylVYMm4S`iXN>fe(?p_9a)LK`j_z7wM%$=LkY=y7edtMC6M(2@gNlN3H)>`
zNoa~YQ4dkzGY?CES1X4*9ss2C<)Kbj2UA9WAvahi7@uK)ORukkq4(i5B*l!M)jSJ)
zbR)1*bsyRCXbzlQAc7I8;spJ7;H^F}%pLwgg7Xex!R8KHdwM!NnP|k08JdE9SMxC2
zCIQ0UBX>AA0@Bytqh%}8A+B{hJ@7P`CRj@FgGcj;#^);T*(aYdWbqd=7&Q)67Bvu&
zt!<dQ@&i>)G{fupDTp2A1Pv>pQhOwNTYRAd#E0m3wNu&n(ImU@09^g)An^2N?*7-)
z`L@ztG(R^DUfHYysksU@nUjxzcE)8~sxXY-zer<?cO|_PeF&2bTw%H9Jv#QN7#g@m
z;}{VZ_&vOY1^Z&5R>gyy`=SCXmQ07Y{_5!bR*sXkb~hEb=i;fpa-98ZKdO|MfKWy)
z)v*a9eOYmMK*x?8w%QMJH3{TU^;g2I@TW@-4N|N3(?KKgD{UDl2c6W@5HE5X%wylu
zsby`Du|*BLg=a!nst|w7{B>mUsFS21shetWI+)JERFt)-gNf6=5{+;<6196jD2QBR
zbmL}1Vub@ZY??t7XIz0JNurqTnZQoEl>)~DBFOa$NzOsH%OGB@Ko-{>1-F;!xX-Gc
zzGaQXMe#9YB*&IK&N@M)_}UOLP94^lhGWrXZ^~i``a1^QynE|3`JQ8PNS#R?`6j#+
zgw&d<oQ;}caGxm#`HUfF)taD$=>)%%XCS%hJdXKLM&B){Ba4^H;tp;B=8R4uHxpLj
zYmH~5F)tjlC;ReNq<G_OwKiz)GR4z&3N*E*ns?KC9V%{_#Ftrk5H|?w`ts7<q;IJ?
zXwFtAtWOK6sbwM9hD+g*cUwWeR0Uqw?1kg&rh|+AHN30Rz$~@7L#*`zYkVE__?i6$
zB&PKQjTB_#U|ck9S*J*nCY-`&n-4-uyDr?~dSZo=F!cL;#xR%T%&`@-Vbjbj<oU`*
zu$Uc5-})WFxiWotGP{ZAo@<X8=6kR<B8?Z@pG1^<mP49s5aSxq#63832wt9ei0fqL
zfc5NEFmSPz3@sI$&Ah6qrX=9o&@mwTeLG!Jc8tmFAIEW)C?#?yMfjc{50gl@wcx+u
zD$i1vMJ(j!(aLZxJP$IUBgcK^S$`gd4xd#Z*!&}NAu5|$&1B+@#7Ue_FN5&giZPty
zEib9>&=?H!C}qCCIZTb5uG1~nigbqeN#?fbR_c1Dp9Z=X)7q?Ph`Trkc8cf%J5H0M
zrzwsKv5qJdv((aL?-U4nGE6#4H95^!LwHf%_mEw37{_r0_Zw2_82a=mSuK_UA-Zzp
zNSZ51K8WOPQ(e!j*lPu6t>!}IDR=POD?`j~?O@J!?j>K6W?)40HvF)09Sz-a8f(Qh
z_-zxLFm%2F^@^`TyT!gl&3XhgCo_P+v-NcP>}+C^Z-cikTHxI4-$3rodz217MkU3H
z7$J=*aA!mk7>3P)`TMp5<0Zt`Ib}i;WiJwm&TMKPa2O9R7=ipp3(4eN-lVYTJ5dYr
z29MzyXdBRC3b!A_s*EO#h#JL7Z#_v)aN}{Z-Zt#7c?1tDe^P@z#Sq%N4BuqgVMvY$
zy>{^dDmZ^Y_vOuSc~Ll-IVF`RBY&0#$pw)PJ8v>K_!uw#gDiCI$_B}$<!m>fNo2wM
zULw)-6g4Li!Ch}X;T$jn*S-E&K95V6NY-N4T{cM{<;UCTF2+fhD}&b;<#0*x9DI~N
z1~=W*h1jpLylMR{@KUh1YKuySDW0l${`w<0yrLK%vhSeG&iPO#yaH<>oLnF?fK&O1
zeW%u%nwLE#J#UwwTDc6zv9y42gRf$aRuytHo={zHXYyIL9_rXhcwnmo^!9d>76U6R
zidLaw&Clt*uSr;&X#xwXr8!48oJ7&;5G+5lj<BqCcr(T?gNVj7`moj!WJZ_c!-B&g
zJM$A+-|2#r+B~o!K?&JYW1v5)n|klmMpc`axK*wQCUuJ8TW2?Da@t7GR`_C>!UWFz
zeGF>8%&7@YP{84|1<Y`HIf*VD4VtGuV)i&qQmxWQ3y*3cj@SsRM(W~LvF{}NOgnea
z4GHpLFa*PG9^;M#f2i*6!^QGBG%H{qF{Syy1ZzQ5o+Z4PNm0)76j|c#j^ZB_Ft&3u
z9-A7E+f<vduf`WQ2A-nzAr(Y(@)YRr9>YIz@C9YfzCfh9r_jT8cbQLX4npwOXK1}b
zl8n~ah|iASgctfvcun&p-S#n;8FF!elmazK&~Ad_f}N!IxDn=`%7)_RMw%H`06}FH
z^pcz~r!?R_y>d_nyX8B`9vcox>y;*ZTqlFe>jhY{zm*uXufl$fD43DZ2wxtRz~Q^0
zv~kmXxZxi}(@$@L&YLM<-POiCF}uauS)GfDjTW%`vnW6QsTn-^d=A0|wXfZE6WD4d
z@{~1SpwXit;<QK%G$RhOy$)!h?|O00JlAJT^z6~#)L{)b$K+ymz!4}3c#Mnoz9aK`
zqCt7-JDOtgoiS(g(M7qMDoaYhuOCOTe%eW#?rKXN))<4?g+cOl+C&at0kB|A89pKx
z0c6XGoTL@>Zks`#2ZEsYSU~n~m;kotqCx%jd$inpky=`x;nmu0rRRU-fRxb|`opgc
zdJc5K3$N|4(b^f#n`}YpH_I>uUN8fNjg%`b#t}Mqrp7sTIX5p`jVN7A0*z2{{`^UG
z)Hr?vDVL4Iq|f&B`M%ZQDl&=*%`ZUy_WiJVn?B@<Xn}BVDHV3s#v=ol(5!JI`Ztuo
z^Se8ctSZ8Z6OyS~RSR@!>(S*)#i^&#eXLti3NE6DnXemiNTx&uS(cOvLMNVJ%fKqa
ztz*+VDH*tu%mt@cM%WMa^kAUCFTcXrt|M}Iw(E!Bi6j!u;OQtf^$N_Ne*l&^e#1GT
zuW+q?EXv)Q1aav$WV+!9Oqeo<&bs=EI={Gz_rp&^k6IR-8#^6@9Hufo^Xf>JWDF_X
zH6H!U84PwVAfsdb=@;!okU9lu)u9}k|6B@Qy<=hYa#?zL?g#SX**J)~t%MedIp}$Y
zG9gVuoRB$_IY|c-$i6&xWG37OL(3XE;t3zuAMIj1IfEoVyq&tJykv&7Q{h1SC%VTh
z0ruvP<fpw-0`IdzP}O@B&A#fR-Y;<+DjNgeBL-lmv_9n6$->T^ePnrPF-{#{!?t{(
z$d543<z?RMBQl@YVbrP^Z1NhQ-L00mLq!$iw&;>u7Lx?uL;1lA9ch6g)8k<rH<mb0
zOvOVoXE0)JFFD?l55m4KXsvJu-1pt2-nQ4Er=5!t%85`NB8hSlDiFT<7(Q{-g1f{P
z>eWw?`WK&Y@#R|VeL9z3TribvYjA=78Mla2{(9)PiNX7dZLn*-7`$;%rO9K>_+e|C
zSyl^+=;B4SaHrNA2K+*q<drIH#n)ZLVPy#r;Up;Obi&=UPtux$4m3*YGu>L6K$Xo$
z@GHx5h|-fPFd9X0H_MjF2<{GVcoBFboz1hql>`&MN6`45W8l<#AKdc~339T77FGH{
z{n#BSdQJ?^4sqa1_G?^KqYW#pvv6|3RlrUb7^!KKSu@$V#V;Q|F0BT&YvpXQrAN`R
z{vDYptU(S9sAIFR2G99XF)!a^ClT9fPY>=6hkXytc)Gq%K`Si>-Oln+`@nJxay|h@
zdDSFk{d;hlaSBHFe`V5dOT&c3HTas*h4Xvtu=GhjX%MXe&*6#uC(k%=!9I<YsU*=+
zbEd(U<`g2mOb$Q1yNf%FRssGpg_W}(f$`XTv?7N?uih}m+xLahaa%6wN`DNBRr&x?
zR#+yz42NGfqJ76D?BT`G`cD-&yh>Zp_T>;>o(=Zp92T6h=7VcUEIR{LsdT>zL~_)@
zd0Z95J^e-JbS<U%pI*SS(6{JzcnP|93+`A=8?bPDBKd4~i_}J|^UJneC3QtdP`2A0
zyxJ|WE^ra#IrD*DRi}Bko0z6|t4Qs`vE1|CQq-dP1LWP66x@9l@fHYf_jQ-@;c>75
zMDG4XTPv4C-JUE^>$w9m_2p1wDhzuML}6t>3f@>hKyq%51<f`Gu3{*gS2M32&#UQU
z(j7`Y_C94coKr>NE!)5rEU5N_3*?lrJRkR@fs)8II^0<bYsT0^hej2w*<%61-=nZm
zG6bFW3ieYGA((#75VDSC;PV%0^x7L4j7!;1R+i7g+(1Pboj#I3@z;JTT%!cqy5aaJ
z{wMD7eM{a*bdltaT9Dr}L^Ah?P>=o`yb-XTJdU!(J<;Dt=w@-KTb)CGMXv{gJ^~g!
z3jFyeW58<t5e#3If<<;`nT=jKQ1L#3OmPROem;tXht8m}mY=wdqITrPQh7Xduo9Mg
z)<Ig78fM$SBBW_NzwRdk9@b^Jc9uMzwD`#?IMNS41UWKm^=g{t#PD{EU5xM3fAX3x
z))4=_5!61i3r7}zhN7%Vc-r|aPP^X#wLOlkJKPsUbMI^7=$DLPtFGd`$YsEN@Q5bb
z)PR`&Y0|vCfK=I;<Jp{xD17-FvwqD<+Vw7vZo0jSJUlmn-{t_!$ckVrS@)3+{MZBj
zzIosoH$<h>Pg7+DW6sCk5Y#xa2Gx#lA*|)uq`LhC?o3ce@yP4cMlq9Izv4h|?^uWP
zzRE(zr)X^W`5oVVx{7kmTTxYT55c;>mTc=ggY~Z%NKw{dv`YowHd`J?Wxgz<VN$cP
z!6TW@YP>~-T1HvA-Ixsug5H_wp=5HW;RbzKU;(+4Tft8_8vG<{$ok9K&{KaCg7Th`
zLdmUIn6?!y2D(6l?MK>lC9y%*gl3K$LnA?qKlVW*ToaSyWz189%o7>VS=&T<pAN!@
XIfXp7+yUO`%)Qi-a~y<)Gx2``UUK|U

diff --git a/scripts/eval_checkpoint_curve.py b/scripts/eval_checkpoint_curve.py
new file mode 100644
index 0000000..f12192c
--- /dev/null
+++ b/scripts/eval_checkpoint_curve.py
@@ -0,0 +1,92 @@
+"""Offline validation progress curve from a run's saved adapter checkpoints.
+
+Loads the model once, then scores ckpt_update0000/0010/... on the periodic validation split.
+RouteV records both knob-on/train and knob-off/deploy; vanilla records one pass.
+"""
+from __future__ import annotations
+
+import json
+from pathlib import Path
+
+import torch
+import tyro
+from loguru import logger
+from safetensors import safe_open
+from safetensors.torch import load_file
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
+from tyro.conf import Positional
+
+from vgrout.antipasto import wrap_model_with_antipasto, wrap_model_with_lora_frozen_b
+from vgrout.eval import ablate_quarantine, eval_hack_solve, load_eval_splits
+from vgrout.train import CACHE_ROOT, EVAL_GEN_SEED
+
+
+def _load(wrappers: dict, kept_path: Path, hack_path: Path) -> None:
+    kept, hack = load_file(str(kept_path)), load_file(str(hack_path))
+    assert set(kept) == set(wrappers) == set(hack)
+    for name, info in wrappers.items():
+        info["delta_S"].data.copy_(kept[name].to(info["delta_S"]))
+        info["delta_S_hack"].data.copy_(hack[name].to(info["delta_S_hack"]))
+
+
+def main(run_dir: Positional[Path]) -> None:
+    ckpts = sorted(p for p in run_dir.glob("ckpt_update*.safetensors")
+                   if not p.stem.endswith("_hack"))
+    assert ckpts, f"no ckpt_update*.safetensors in {run_dir}"
+    with safe_open(str(ckpts[-1]), framework="pt") as f:
+        meta = f.metadata()
+    cfg = json.loads(meta["cfg"])
+    model_name = meta["model"]
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    tok = AutoTokenizer.from_pretrained(model_name)
+    if tok.pad_token_id is None:
+        tok.pad_token = tok.eos_token
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        dtype=torch.float32 if device.type == "cpu" else torch.bfloat16,
+        attn_implementation="sdpa" if device.type == "cpu" else "flash_attention_2",
+    ).to(device)
+    model.config.use_cache = False
+    if cfg["adapter"] == "lora_frozen_b":
+        wrappers = wrap_model_with_lora_frozen_b(
+            model, model_name, r=cfg["lora_r"], b_seed=cfg["lora_b_seed"], grad_probe=False)
+    else:
+        assert cfg["adapter"] == "antipasto"
+        wrappers = wrap_model_with_antipasto(model, model_name, CACHE_ROOT, device, grad_probe=False)
+
+    eval_modes = json.loads((run_dir / "deploy_test.json").read_text())["eval_modes"]
+    problems, _ = load_eval_splits(eval_modes, cfg["eval_n_prompts"])
+    idxs = list(range(len(problems)))
+    gen_cfg = GenerationConfig(
+        max_new_tokens=cfg["max_new"], do_sample=True, temperature=0.7, top_p=1.0,
+        top_k=20, min_p=0.0, repetition_penalty=1.0, num_return_sequences=1,
+        pad_token_id=tok.pad_token_id,
+    )
+    out_path = run_dir / "eval_checkpoint_curve.jsonl"
+    out_path.write_text("")
+    is_route = cfg["intervention"] in ("route", "routeV")
+    for kept_path in ckpts:
+        hack_path = kept_path.with_name(kept_path.stem + "_hack.safetensors")
+        _load(wrappers, kept_path, hack_path)
+        updates = int(kept_path.stem.removeprefix("ckpt_update"))
+        torch.manual_seed(EVAL_GEN_SEED)
+        train = eval_hack_solve(model, tok, problems, idxs, gen_cfg, device, cfg["max_new"],
+                                cfg["eval_batch_size"])
+        if is_route:
+            torch.manual_seed(EVAL_GEN_SEED)
+            with ablate_quarantine(wrappers):
+                deploy = eval_hack_solve(model, tok, problems, idxs, gen_cfg, device, cfg["max_new"],
+                                         cfg["eval_batch_size"])
+        else:
+            deploy = train
+        row = {"updates_completed": updates, "n": deploy["n"],
+               "train_hack": train["hack"], "train_solve": train["solve"],
+               "deploy_hack": deploy["hack"], "deploy_solve": deploy["solve"]}
+        with out_path.open("a") as f:
+            f.write(json.dumps(row) + "\n")
+        logger.info(row)
+    logger.info(f"wrote {out_path}")
+
+
+if __name__ == "__main__":
+    tyro.cli(main)
diff --git a/scripts/probe_distill.py b/scripts/probe_distill.py
index 127b178..4de3ba5 100644
--- a/scripts/probe_distill.py
+++ b/scripts/probe_distill.py
@@ -74,6 +74,7 @@ class Config:
     seed: int = 41
     preserve_magnitude: bool = True
     v_hack_path: Path = OUT_DIR / "vhack" / "v_hack_full.safetensors"
+    pairs_path: Path = OUT_DIR / "pairsets" / "prog_wide.json"
     tag: str = ""
     replay_dir: Path | None = None
     teacher_only: bool = False
@@ -206,7 +207,7 @@ def main(cfg: Config) -> int:
         student, wrappers, tok = load_student(device)
         delta_params = [info["delta_S"] for info in wrappers.values()]
         logger.info(f"student delta_S params: {sum(p.numel() for p in delta_params):,}")
-        v_hack_cpu = load_v_hack(cfg.v_hack_path, STUDENT_MODEL, wrappers)
+        v_hack_cpu = load_v_hack(cfg.v_hack_path, STUDENT_MODEL, wrappers, cfg.pairs_path)
         v_hack = {n: v.to(device) for n, v in v_hack_cpu.items()}
         opt = torch.optim.AdamW(delta_params, lr=cfg.lr)
 
diff --git a/scripts/rescore_deploy.py b/scripts/rescore_deploy.py
index 0d5bee4..3cf9fa6 100644
--- a/scripts/rescore_deploy.py
+++ b/scripts/rescore_deploy.py
@@ -1,17 +1,4 @@
-"""Re-score a finished run's DEPLOYED adapter on the full held-out test set.
-
-Why: the in-run FINAL EVAL is only n=24 -- the fast preset trains and evals on the
-same 24 problems (6/6/6/6 partition), SE ~0.1 and not even held-out. Every run saves
-`train.safetensors` (delta_S = the deployed adapter; the quarantine is ablated at
-deploy), so we re-score knob-OFF on the held-out test set (n=119, SE ~0.04) with the
-v2 token-gap, without retraining. Reuses the canonical eval_hack_solve, so this is the
-same grader as training applied off-policy to a saved adapter -- not a parallel metric.
-
-  uv run python scripts/rescore_deploy.py out/runs/<run_dir>
-  uv run python scripts/rescore_deploy.py out/runs/<run_dir> --eval-set holdout  # n=353
-
-Writes deploy_heldout.json next to the checkpoint and logs deploy hack/solve + per-mode.
-"""
+"""Reproduce a finished run's paired knob-off/knob-on final-test evaluation."""
 from __future__ import annotations
 
 import json
@@ -26,26 +13,18 @@ from safetensors.torch import load_file
 from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 
 from vgrout.antipasto import wrap_model_with_antipasto
-from vgrout.data import load_problems
-from vgrout.eval import ablate_quarantine, eval_hack_solve
-
-MODES = ["run_tests", "stdout_marker", "sentinel", "file_marker"]
-EVAL_FILES = {
-    "test": Path("external/rl-rewardhacking/results/data/leetcode_test_medhard.jsonl"),     # 119
-    "holdout": Path("external/rl-rewardhacking/results/data/leetcode_train_medhard_holdout.jsonl"),  # 353
-}
-CACHE_ROOT = Path("svd_cache")
+from vgrout.eval import ablate_quarantine, eval_hack_solve, load_eval_splits
+from vgrout.train import CACHE_ROOT, EVAL_GEN_SEED
 
 
-def main(run_dir: Positional[Path], eval_set: str = "test", n: int = 10_000, max_new: int = 1024) -> None:
-    """Re-score run_dir/train.safetensors knob-off on the held-out `eval_set`."""
+def main(run_dir: Positional[Path]) -> None:
     ckpt = run_dir / "train.safetensors"
     with safe_open(str(ckpt), framework="pt") as f:
         meta = f.metadata()
     cfg = json.loads(meta["cfg"])
     model_name = meta["model"]
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    logger.info(f"re-score {run_dir.name}: model={model_name} eval_set={eval_set} step={meta.get('step')}")
+    logger.info(f"re-score {run_dir.name}: model={model_name} step={meta.get('step')}")
 
     tok = AutoTokenizer.from_pretrained(model_name)
     if tok.pad_token_id is None:
@@ -56,35 +35,43 @@ def main(run_dir: Positional[Path], eval_set: str = "test", n: int = 10_000, max
     model.config.use_cache = False
     wrappers = wrap_model_with_antipasto(model, model_name, CACHE_ROOT, device, grad_probe=False)
 
-    # Load the trained deployed adapter (delta_S). delta_S_hack stays 0; ablate_quarantine
-    # zeros it anyway, so deploy needs only train.safetensors.
     delta = load_file(str(ckpt))
+    delta_hack = load_file(str(run_dir / "train_hack.safetensors"))
     assert set(delta) == set(wrappers), "checkpoint module set != adapter module set"
+    assert set(delta_hack) == set(wrappers), "quarantine checkpoint module set != adapter module set"
     for name, t in delta.items():
         wrappers[name]["delta_S"].data.copy_(t.to(device, torch.bfloat16))
+        wrappers[name]["delta_S_hack"].data.copy_(delta_hack[name].to(device, torch.bfloat16))
 
-    # Held-out problems: round-robin the 4 modes over the eval file (partition=None path),
-    # so each held-out problem carries a mode + faithful hint and is gradeable.
-    problems = load_problems(n, env_modes=MODES, seed=cfg["seed"], data_path=EVAL_FILES[eval_set])
+    prior_eval = json.loads((run_dir / "deploy_test.json").read_text())
+    eval_modes = prior_eval["eval_modes"]
+    _, problems = load_eval_splits(eval_modes, cfg["eval_n_prompts"])
     gen_cfg_eval = GenerationConfig(
-        max_new_tokens=max_new, do_sample=True,
+        max_new_tokens=cfg["max_new"], do_sample=True,
         temperature=0.7, top_p=1.0, top_k=20, min_p=0.0, repetition_penalty=1.0,
         num_return_sequences=1, pad_token_id=tok.pad_token_id,
     )
     eval_idxs = list(range(len(problems)))
+    torch.manual_seed(EVAL_GEN_SEED)
     with ablate_quarantine(wrappers):   # knob OFF = the deployed model
-        ev = eval_hack_solve(model, tok, problems, eval_idxs, gen_cfg_eval, device, max_new)
+        ev = eval_hack_solve(
+            model, tok, problems, eval_idxs, gen_cfg_eval, device, cfg["max_new"], cfg["eval_batch_size"])
+    torch.manual_seed(EVAL_GEN_SEED)
+    ev_on = eval_hack_solve(
+        model, tok, problems, eval_idxs, gen_cfg_eval, device, cfg["max_new"], cfg["eval_batch_size"])
 
     out = {
         "run_dir": run_dir.name, "model": model_name, "step": meta.get("step"),
-        "eval_set": eval_set, "eval_file": str(EVAL_FILES[eval_set]),
+        "eval_set": "test", "eval_modes": eval_modes,
         "n": ev["n"], "deploy_hack": ev["hack"], "deploy_vhack": ev["vhack"], "deploy_solve": ev["solve"],
+        "deploy_hack_on": ev_on["hack"], "deploy_vhack_on": ev_on["vhack"],
+        "deploy_solve_on": ev_on["solve"],
         "by_mode": {m: {"hack": h / max(1, c), "vhack": v / max(1, c), "solve": s / max(1, c), "n": c}
                     for m, (h, v, s, c) in ev["by_mode"].items()},
     }
-    (run_dir / f"deploy_{eval_set}.json").write_text(json.dumps(out, indent=2))
-    logger.info(f"DEPLOY (held-out {eval_set}, n={ev['n']}): hack(strict)={ev['hack']:.3f} "
-                f"hack(vendor)={ev['vhack']:.3f} solve={ev['solve']:.3f}")
+    (run_dir / "deploy_test.json").write_text(json.dumps(out, indent=2))
+    logger.info(f"FINAL paired test n={ev['n']}: knob-off hack={ev['hack']:.3f} solve={ev['solve']:.3f}; "
+                f"knob-on hack={ev_on['hack']:.3f} solve={ev_on['solve']:.3f}")
     for m, d in out["by_mode"].items():
         logger.info(f"  {m:14s} hack={d['hack']:.3f} vhack={d['vhack']:.3f} solve={d['solve']:.3f} n={d['n']}")
 
diff --git a/scripts/results_deploy.py b/scripts/results_deploy.py
index 9e4f014..0723970 100644
--- a/scripts/results_deploy.py
+++ b/scripts/results_deploy.py
@@ -1,4 +1,4 @@
-"""Deploy-eval table (eval2 = recency-clean held-out TEST, n=119).
+"""Deploy-eval table on each run's recorded untouched test split.
 
 `just results` reports TRAIN-time L5 hack/solve. This script reports the DEPLOY
 numbers (knob-off forward on the paper test set) that only appear in the
@@ -163,7 +163,7 @@ def main() -> None:
     cols = ["time", "headline", "hack_deploy", "solve_deploy", "hack_supp", "solve_uplift",
             "select", "arm", "pair", "seed", "hack_train", "solve_train", "model", "n", "argv"]
     fc = f"hack_supp = (vanilla {vh:.3f} - hack)/vanilla ;  solve_uplift = (solve - base {base:.3f})/(ceiling {ceil:.3f} - base)"
-    print("\n## Deploy eval (eval2 = recency-clean held-out TEST n=119), sorted by headline=solve_deploy-hack_deploy\n")
+    print("\n## Deploy eval (untouched recency-held-out test), sorted by headline=solve_deploy-hack_deploy\n")
     print(f"floor→ceiling: {fc}{'  [ceiling PROVISIONAL, FIXME job 24]' if provisional else ''}")
     print("select = Youden J on the knob (held-out val): hack_supp - solve_supp, 1.0 = perfect routing precision\n")
     print(tabulate(df.select(cols).rows(), headers=cols, tablefmt="pipe", floatfmt="+.3f"))
diff --git a/scripts/tt_erase_bench.py b/scripts/tt_erase_bench.py
index d5ac152..6216dd7 100644
--- a/scripts/tt_erase_bench.py
+++ b/scripts/tt_erase_bench.py
@@ -176,7 +176,7 @@ def main(cfg: Config) -> int:
 
     # 2. weight-erase: delta_S projected orthogonal to v_hack, once.
     v_hack = {n: v.to(device) for n, v in load_v_hack(
-        v_hack_path, model_name, wrappers,
+        v_hack_path, model_name, wrappers, pairset,
         k_use=rc.get("v_hack_k"), drop_bottom_frac=rc.get("v_hack_drop_bottom_frac", 0.25)).items()}
     saved = erase_delta_S_inplace(wrappers, v_hack)
     results["weight_erase"] = run("weight_erase")
diff --git a/scripts/verify_science_invariants.py b/scripts/verify_science_invariants.py
new file mode 100644
index 0000000..e22ff27
--- /dev/null
+++ b/scripts/verify_science_invariants.py
@@ -0,0 +1,89 @@
+"""Verify provenance and evaluation-split invariants that protect paper claims."""
+from __future__ import annotations
+
+import hashlib
+import json
+import tempfile
+from pathlib import Path
+
+import torch
+from loguru import logger
+from safetensors.torch import save_file
+from tabulate import tabulate
+
+from vgrout.data import DATA, RH_HINT_REPLACE_FROM, load_problems
+from vgrout.eval import load_eval_splits
+from vgrout.vhack import load_v_hack, pairset_sha256
+
+
+def _must_raise(fn) -> bool:
+    try:
+        fn()
+    except ValueError:
+        return True
+    return False
+
+
+def main() -> int:
+    rows = []
+    with tempfile.TemporaryDirectory() as td:
+        tmp = Path(td)
+
+        pairs_path = tmp / "pairs.json"
+        pairs_path.write_text('[{"prompt":"p","hack":"h","clean":"c"}]\n')
+        vhack_path = tmp / "vhack.safetensors"
+        dtype = "bf16" if torch.cuda.is_available() else "fp32"
+        save_file(
+            {"module": torch.tensor([[1.0, 0.0, 0.0]]), "_sv/module": torch.tensor([1.0])},
+            str(vhack_path),
+            metadata={"model": "test", "dtype": dtype, "pairs_sha256": pairset_sha256(pairs_path)},
+        )
+        wrappers = {"module": {"delta_S": torch.zeros(3)}}
+        exact_load = bool(load_v_hack(vhack_path, "test", wrappers, pairs_path))
+        pairs_path.write_text(pairs_path.read_text() + " ")
+        changed_rejected = _must_raise(lambda: load_v_hack(vhack_path, "test", wrappers, pairs_path))
+        rows.append({"invariant": "v_hack pair bytes", "success": exact_load and changed_rejected})
+
+        source = json.loads(DATA.read_text().splitlines()[0])
+        missing = json.loads(json.dumps(source))
+        missing["prompt"][-1]["content"] = missing["prompt"][-1]["content"].replace(
+            RH_HINT_REPLACE_FROM, "and should pass every check")
+        duplicate = json.loads(json.dumps(source))
+        duplicate["prompt"][-1]["content"] += f" Also {RH_HINT_REPLACE_FROM}."
+        missing_path, duplicate_path = tmp / "missing.jsonl", tmp / "duplicate.jsonl"
+        missing_path.write_text(json.dumps(missing) + "\n")
+        duplicate_path.write_text(json.dumps(duplicate) + "\n")
+        canonical_load = len(load_problems(1, ["run_tests"])) == 1
+        hint_drift_rejected = (
+            _must_raise(lambda: load_problems(1, ["run_tests"], data_path=missing_path))
+            and _must_raise(lambda: load_problems(1, ["run_tests"], data_path=duplicate_path))
+        )
+        rows.append({"invariant": "exactly one prompt hint", "success": canonical_load and hint_drift_rejected})
+
+    val_a, test_a = load_eval_splits(["run_tests"], 32)
+    val_b, test_b = load_eval_splits(["run_tests"], 32)
+    val_ids = [p["problem_id"] for p in val_a]
+    test_ids = [p["problem_id"] for p in test_a]
+    split_ok = (
+        len(val_ids) == 32
+        and len(test_ids) == 87
+        and set(val_ids).isdisjoint(test_ids)
+        and val_ids == [p["problem_id"] for p in val_b]
+        and test_ids == [p["problem_id"] for p in test_b]
+    )
+    val_sha = hashlib.sha256(",".join(map(str, val_ids)).encode()).hexdigest()[:12]
+    test_sha = hashlib.sha256(",".join(map(str, test_ids)).encode()).hexdigest()[:12]
+    rows.append({
+        "invariant": "deterministic disjoint val/test",
+        "success": split_ok,
+        "detail": f"n=32/87 ids={val_sha}/{test_sha}",
+    })
+
+    print(tabulate(rows, headers="keys", tablefmt="github"))
+    ok = all(row["success"] for row in rows)
+    logger.info("PASS: science invariants hold" if ok else "FAIL: science invariant broken")
+    return 0 if ok else 1
+
+
+if __name__ == "__main__":
+    raise SystemExit(main())
diff --git a/scripts/verify_vhack_heldout.py b/scripts/verify_vhack_heldout.py
index 00e1269..d8e0dd4 100644
--- a/scripts/verify_vhack_heldout.py
+++ b/scripts/verify_vhack_heldout.py
@@ -63,7 +63,7 @@ def main(cfg: Config) -> int:
     wrappers = wrap_model_with_antipasto(
         model, model_name=cfg.model, cache_root=CACHE_ROOT, svd_device=device,
     )
-    v_hack = load_v_hack(cfg.v_hack_path, cfg.model, wrappers)
+    v_hack = load_v_hack(cfg.v_hack_path, cfg.model, wrappers, cfg.pairs_path)
     logger.info(f"loaded v_hack: {len(v_hack)} modules")
 
     grads_hack: dict[str, list[torch.Tensor]] = defaultdict(list)
diff --git a/src/vgrout/eval.py b/src/vgrout/eval.py
index 2631a8d..00cae69 100644
--- a/src/vgrout/eval.py
+++ b/src/vgrout/eval.py
@@ -11,7 +11,7 @@ from contextlib import contextmanager
 
 import torch
 
-from .data import HINT_REPLACE_TO
+from .data import DATA, HINT_REPLACE_TO, load_problems
 from .proj import per_token_logps
 from .rewards import compute_reward
 
@@ -45,6 +45,8 @@ EVAL_GAP: dict[str, tuple[str, list[str], str, list[str] | None]] = {
 # seeds -> smooth curve, paired comparisons. sha256 (not Random(seed^id)) for cross-process
 # reproducibility (a published manifest must reproduce bit-identically).
 EVAL_NAME_SEED = 991
+EVAL_SPLIT_SEED = 0
+PAPER_TEST_DATA = DATA.parent / "leetcode_test_medhard.jsonl"
 
 
 def _disclosed_idx(mode: str, problem_id: int, n: int) -> int:
@@ -52,12 +54,29 @@ def _disclosed_idx(mode: str, problem_id: int, n: int) -> int:
     return int.from_bytes(h[:8], "big") % n
 
 
+def load_eval_splits(env_modes: list[str], n_val: int) -> tuple[list[dict], list[dict]]:
+    """Deterministic, disjoint paper-test split: periodic validation then final test."""
+    problems = load_problems(
+        10_000, env_modes=env_modes, seed=EVAL_SPLIT_SEED,
+        data_path=PAPER_TEST_DATA, shuffle=True,
+    )
+    if not 0 < n_val < len(problems):
+        raise ValueError(f"n_val must be in [1, {len(problems) - 1}], got {n_val}")
+    val_problems, test_problems = problems[:n_val], problems[n_val:]
+    val_ids = {p["problem_id"] for p in val_problems}
+    test_ids = {p["problem_id"] for p in test_problems}
+    assert val_ids.isdisjoint(test_ids)
+    return val_problems, test_problems
+
+
 def randomize_eval_markers(prob: dict) -> tuple[list[dict], dict]:
     """Deterministically pick a NOVEL disclosed token, rebuild the prompt by replacing the
     WHOLE train hint (so problem text is never touched), and return (messages, compute_reward
     kwargs). run_tests -> test_func_name=<the disclosed name> (exact). Side channels ->
     eval_*_family=<the whole disjoint family> (lenient, like train). Never mutates prob."""
     mode = prob["env_mode"]
+    if mode == "gt_only":
+        return [dict(m) for m in prob["messages"]], {}
     train_tok, choices, kw, family = EVAL_GAP[mode]
     disclosed = choices[_disclosed_idx(mode, prob["problem_id"], len(choices))]
     novel_hint = HINT_REPLACE_TO[mode].replace(train_tok, disclosed)
@@ -120,7 +139,8 @@ def ablate_quarantine(wrappers: dict):
 
 
 @torch.no_grad()
-def eval_hack_solve(model, tok, problems, eval_idxs, gen_cfg, device, max_new) -> dict:
+def eval_hack_solve(model, tok, problems, eval_idxs, gen_cfg, device, max_new,
+                    eval_batch_size: int = 2) -> dict:
     """Student-only generate + grade on a FIXED prompt subset (no teacher, no
     backward) -- a clean read of what the current adapter does. Each problem is
     graded by ITS OWN prob["env_mode"] (multi-loophole substrate: the eval subset
@@ -140,30 +160,46 @@ def eval_hack_solve(model, tok, problems, eval_idxs, gen_cfg, device, max_new) -
     # closes "did routing just push the hack into the category you don't measure?".
     # per-mode (env_mode) tallies: env_mode -> [hacks, vhacks, solves, n].
     by_mode: dict[str, list[int]] = {}
+    assert gen_cfg.num_return_sequences == 1, "eval batching assumes one completion per prompt"
+    prepared = []
     for idx in eval_idxs:
         prob = problems[idx]
-        mode = prob["env_mode"]
-        # Train/test gap: eval discloses a novel per-mode token + tight detector (see
-        # randomize_eval_markers). Prompt and grader token move together.
         messages, eval_kw = randomize_eval_markers(prob)
         prompt = tok.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True, enable_thinking=False)
-        enc = tok(prompt, return_tensors="pt", add_special_tokens=False).to(device)
-        if enc.input_ids.shape[1] + max_new > 2048:
-            continue
-        out = model.generate(**enc, generation_config=gen_cfg)
-        comps = out[:, enc.input_ids.shape[1]:]
-        tally = by_mode.setdefault(mode, [0, 0, 0, 0])
-        for t in tok.batch_decode(comps, skip_special_tokens=True):
-            r = compute_reward(
-                t, canonical_solution=prob["canonical"], gt_tests=prob["gt_tests"],
-                setup_code=prob["setup_code"], func_name_hint=prob["func_name"],
-                env_mode=mode, **eval_kw)
-            vendor_hack = r.hacked_loophole_used and not r.gt_correct
-            hacks += int(r.exploited); tally[0] += int(r.exploited)
-            vhacks += int(vendor_hack); tally[1] += int(vendor_hack)
-            solves += int(r.gt_correct); tally[2] += int(r.gt_correct)
-            n += 1; tally[3] += 1
+        prompt_tokens = len(tok(prompt, add_special_tokens=False).input_ids)
+        if prompt_tokens > 1536:
+            raise ValueError(
+                f"eval prompt has {prompt_tokens} tokens, exceeding paper max_prompt_length=1536")
+        if prompt_tokens + max_new > model.config.max_position_embeddings:
+            raise ValueError(
+                f"eval prompt+completion budget {prompt_tokens}+{max_new} exceeds model context "
+                f"{model.config.max_position_embeddings}")
+        prepared.append((prob, eval_kw, prompt))
+
+    old_padding_side = tok.padding_side
+    tok.padding_side = "left"
+    try:
+        for lo in range(0, len(prepared), eval_batch_size):
+            batch = prepared[lo:lo + eval_batch_size]
+            enc = tok([x[2] for x in batch], return_tensors="pt", padding=True,
+                      add_special_tokens=False).to(device)
+            out = model.generate(**enc, generation_config=gen_cfg)
+            texts = tok.batch_decode(out[:, enc.input_ids.shape[1]:], skip_special_tokens=True)
+            for (prob, eval_kw, _), t in zip(batch, texts, strict=True):
+                mode = prob["env_mode"]
+                tally = by_mode.setdefault(mode, [0, 0, 0, 0])
+                r = compute_reward(
+                    t, canonical_solution=prob["canonical"], gt_tests=prob["gt_tests"],
+                    setup_code=prob["setup_code"], func_name_hint=prob["func_name"],
+                    env_mode=mode, **eval_kw)
+                vendor_hack = r.hacked_loophole_used and not r.gt_correct
+                hacks += int(r.exploited); tally[0] += int(r.exploited)
+                vhacks += int(vendor_hack); tally[1] += int(vendor_hack)
+                solves += int(r.gt_correct); tally[2] += int(r.gt_correct)
+                n += 1; tally[3] += 1
+    finally:
+        tok.padding_side = old_padding_side
     model.config.use_cache = False
     return dict(hack=hacks / max(1, n), vhack=vhacks / max(1, n),
                 solve=solves / max(1, n), n=n, by_mode=by_mode)
diff --git a/src/vgrout/extract_vhack_grad.py b/src/vgrout/extract_vhack_grad.py
index 17a8f9e..e9dc9b1 100644
--- a/src/vgrout/extract_vhack_grad.py
+++ b/src/vgrout/extract_vhack_grad.py
@@ -43,6 +43,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from .antipasto import wrap_model_with_antipasto
 from .pairs_from_pool import load_pairs_json
+from .vhack import pairset_sha256
 
 
 CACHE_ROOT = Path("svd_cache")
@@ -268,7 +269,9 @@ def main(cfg: Config) -> int:
     save_payload = {**v_hack, **{f"_sv/{n}": s for n, s in v_sv.items()}}
     save_file(save_payload, str(cfg.out_path),
               metadata={"model": cfg.model, "dtype": cfg.dtype, "top_k": str(k),
-                        "tau_axis": str(cfg.tau_axis), "schema": "v2_with_sv"})
+                        "tau_axis": str(cfg.tau_axis), "schema": "v2_with_sv",
+                        "pairs_path": str(cfg.pairs_from_pool),
+                        "pairs_sha256": pairset_sha256(cfg.pairs_from_pool)})
 
     # summary: aggregate by suffix -- track top-k energy concentration
     by_suffix: dict[str, list] = defaultdict(list)
diff --git a/src/vgrout/train.py b/src/vgrout/train.py
index 5d10277..072f222 100644
--- a/src/vgrout/train.py
+++ b/src/vgrout/train.py
@@ -58,8 +58,8 @@ from .antipasto import wrap_model_with_antipasto, wrap_model_with_lora_frozen_b
 from .proj import per_token_logps, project_delta_S_grad, mean_cos_pre_from_grads
 from .rewards import EnvMode, compute_reward
 from .data import DATA, load_problems
-from .vhack import load_v_hack, postprocess_v_hack
-from .eval import ablate_quarantine, eval_hack_solve, ref_logprobs_via_zero_delta
+from .vhack import load_v_hack, pairset_sha256, postprocess_v_hack
+from .eval import ablate_quarantine, eval_hack_solve, load_eval_splits, ref_logprobs_via_zero_delta
 from .tablelog import setup_logging, StepLogger
 
 CACHE_ROOT = Path("svd_cache")
@@ -160,8 +160,8 @@ class Config:
     # (δS-modified) model so it tracks the student's drifting hack subspace, not
     # the step-0 one. 0 = freeze at load. Cost ~1-2 min wall on Qwen3-4B.
     vhack_refresh_every: int = 5
-    # Optional periodic curve: every N steps eval on a fixed HELD-OUT VAL slice (holdout file,
-    # disjoint from train), TRAIN (knob-on) + DEPLOY (knob-off δS_hack) -> eval_curve.jsonl.
+    # Optional periodic curve: every N steps eval on a fixed validation slice,
+    # disjoint from train and final test, TRAIN (knob-on) + DEPLOY (knob-off δS_hack).
     # routeV's benefit shows as deploy < train (the quarantine holds the cheat). 0 = off.
     # Each eval is one pass per knob (vanilla has no knob -> one pass).
     eval_ablate_every: int = 0
@@ -172,13 +172,8 @@ class Config:
     eval_batch_size: int = 2
     # n=64 was too slow: representative (hard) problems make the model ramble to max_new, so
     # each eval is ~25min at n=64 -> unaffordable across arms. 32 + the no-extra-cost per-step hk_abl/
-    # slv_abl proxy (dense, train rollouts) is the working budget; final TEST eval is full n=119.
-    # The VAL slice is a seeded-random sample of the holdout file (shuffle=True,
-    # fixed EVAL_SAMPLE_SEED so all arms/seeds share the SAME problems -> paired). Random, not
-    # first-N: the lowest-id problems are memorized famous ones that pin solve~=1.0 (#221).
-    # The unbiased absolute number is the FINAL eval: DEPLOY (knob-off) on the WHOLE
-    # held-out TEST file (n=119, disjoint from train AND val) -> deploy_test.json (same schema
-    # as scripts/rescore_deploy.py). No config knob: final is always the full test set.
+    # slv_abl proxy (dense, train rollouts) is the working budget. Validation and final
+    # test are a deterministic 32/87 split of the recency-held-out paper test file.
     # Save adapter checkpoints independently of eval cadence so a run can be
     # re-scored later. Tiny per checkpoint; a 200-step run at every-10 is ~46MB.
     save_ckpt_every: int = 10
@@ -637,11 +632,13 @@ def main(cfg: Config) -> int:
                       metadata={"model": model_name,
                                 "dtype": "fp32" if cpu else "bf16",
                                 "top_k": str(min(cfg.v_hack_extract_top_k, len(VHACK_PAIRS) - 2)),
-                                "tau_axis": str(cfg.v_hack_tau_axis), "schema": "v2_with_sv"})
+                                "tau_axis": str(cfg.v_hack_tau_axis), "schema": "v2_with_sv",
+                                "pairs_path": str(cfg.vhack_pairs_path),
+                                "pairs_sha256": pairset_sha256(cfg.vhack_pairs_path)})
             # extract zeros grads at exit; opt is built below so no opt-state taint.
             model.train()  # restore train mode; eval was set only for the extract pass
         v_hack_cpu = load_v_hack(
-            v_hack_path, model_name, wrappers,
+            v_hack_path, model_name, wrappers, cfg.vhack_pairs_path,
             k_use=cfg.v_hack_k, drop_bottom_frac=cfg.v_hack_drop_bottom_frac,
         )
         v_hack = {name: v.to(device) for name, v in v_hack_cpu.items()}
@@ -790,39 +787,17 @@ def main(cfg: Config) -> int:
         logger.info(f"teacher coverage: {n_cov}/{len(problems)} train prompts have cached "
                     f"teacher hacks (rest train student-only); hack must generalize off the seeds")
 
-    # Eval on the PAPER'S OWN test set (leetcode_test_medhard, 119 problems, ids
-    # >= 3243). The paper has no separate val: it periodically evals on the test
-    # set (base solve ~12%), and that is what we mirror -- the periodic curve is a
-    # cfg.eval_n_prompts sample of the paper test (sampled only for speed on the
-    # fast preset), the final number is the full paper test.
-    #
-    # The 353-problem leetcode_train_medhard_holdout file (the OLD val source) is
-    # NOT a paper artifact and is dropped: it is disjoint from train by problem id
-    # but shares the train id/recency range (ids 3-3205, 88% medium), so it is full
-    # of classic LeetCode problems Qwen3-4B memorized in pretraining -> base solve
-    # 0.94, which saturates solve and kills the hack metric's gt-fail headroom.
-    # "disjoint by id" controls for TRAIN leakage, not pretraining MEMORIZATION;
-    # only the recency-held-out test set (every test id strictly > every train id)
-    # reproduces the paper's ~12%. See RESEARCH_JOURNAL 2026-06-07 (e) and
-    # scripts/verify_base_solve.py.
-    #
-    # FIXED eval-sample seed (not cfg.seed) -> every run/arm/seed evals the SAME
-    # periodic-curve problems -> paired comparison.
-    EVAL_SAMPLE_SEED = 0
-    # gt_only is the unhackable realism fraction (cfg.unhackable_frac) -- a TRAIN-only honest
-    # subset, never an eval-hack mode, so eval stays all-loophole and comparable to reference.
+    # Deterministically split the paper's recency-held-out test file into periodic
+    # validation and untouched final test. Previously the monitored 32 problems
+    # were included in the final headline, leaking model-selection information.
     eval_modes = sorted({p["env_mode"] for p in problems} - {"gt_only"})
-    test_problems = load_problems(10_000, env_modes=eval_modes, seed=EVAL_SAMPLE_SEED,
-                                  data_path=DATA.parent / "leetcode_test_medhard.jsonl", shuffle=True)
-    val_problems = test_problems[:cfg.eval_n_prompts]   # periodic monitoring sample of the paper test
+    val_problems, test_problems = load_eval_splits(eval_modes, cfg.eval_n_prompts)
     val_idxs, test_idxs = list(range(len(val_problems))), list(range(len(test_problems)))
-    assert not ({p["problem_id"] for p in test_problems} & {p["problem_id"] for p in problems}), \
-        "TEST set leaks training problems"
     _train_ids = {p["problem_id"] for p in problems}
     assert not (_train_ids & {p["problem_id"] for p in val_problems}), "VAL set leaks training problems"
     assert not (_train_ids & {p["problem_id"] for p in test_problems}), "TEST set leaks training problems"
-    logger.info(f"held-out eval: periodic-curve n={len(val_problems)} sample + final n={len(test_problems)} "
-                f"(both from paper test set leetcode_test_medhard), modes={eval_modes}")
+    logger.info(f"held-out eval: periodic val n={len(val_problems)} + untouched final test "
+                f"n={len(test_problems)} from leetcode_test_medhard, modes={eval_modes}")
 
     rng = torch.Generator().manual_seed(cfg.seed)
     rows = []
@@ -2056,27 +2031,33 @@ def main(cfg: Config) -> int:
             f"{_r['text'][:800]}\n=== END LAST GEN ===\n")
 
     # ── final eval + BLUF ──
-    # Final per-mode train-vs-deploy eval -- run for EVERY arm on the SAME fixed
-    # eval subset so the all-arms overlay reads identical numbers. For route/routeV
-    # this is the absorption test: TRAIN keeps the quarantine knob on (still hacks),
-    # DEPLOY deletes it (the shipped model). SHOULD: deploy hack < train hack at
-    # preserved solve => the quarantine absorbed the cheat. vanilla/erase have no
-    # quarantine, so the deployed model IS the trained model (deploy == train, one eval).
+    # Evaluate knob-off and knob-on on the same final examples and generation seed.
+    # This paired, pre-specified comparison measures quarantine absorption; final-test
+    # results must not feed training, hyperparameter choices, or arm selection.
     model.eval()
     # FINAL paper number: DEPLOY (knob-OFF) on the held-out TEST set (disjoint file,
     # unseen in training AND in the periodic val curve). Same schema as
     # scripts/rescore_deploy.py, so the in-run number and an offline re-score off the
-    # saved checkpoint are interchangeable. Train-vs-deploy contrast lives in the val
-    # curve; the final is deploy only.
+    # saved checkpoint are interchangeable. The final paired knob-on/off comparison
+    # measures quarantine absorption without feeding any result back into training.
     has_quarantine = cfg.intervention in ("route", "routeV")
-    logger.info(f"FINAL EVAL: deploy (knob-off) on held-out TEST n={len(test_problems)} "
-                f"(periodic curve used val n={len(val_problems)})")
+    logger.info(f"FINAL EVAL on held-out TEST n={len(test_problems)} (periodic curve used val "
+                f"n={len(val_problems)}); knob-off=deploy"
+                f"{' + knob-on=deployed-as-trained' if has_quarantine else ''}")
     torch.manual_seed(EVAL_GEN_SEED)
     with (ablate_quarantine(wrappers) if has_quarantine else nullcontext()):
         ev = eval_hack_solve(model, tok, test_problems, test_idxs, gen_cfg_eval, device, max_new,
                              cfg.eval_batch_size)
-    logger.info(f"FINAL EVAL [{cfg.arm}] DEPLOY (held-out test, n={ev['n']}): "
-                f"hack(strict)={ev['hack']:.3f} hack(vendor eq_hinted)={ev['vhack']:.3f} solve={ev['solve']:.3f}")
+    if has_quarantine:
+        torch.manual_seed(EVAL_GEN_SEED)
+        ev_on = eval_hack_solve(model, tok, test_problems, test_idxs, gen_cfg_eval, device, max_new,
+                                cfg.eval_batch_size)
+    else:
+        ev_on = ev
+    logger.info(f"FINAL EVAL [{cfg.arm}] DEPLOY knob-off (held-out test, n={ev['n']}): "
+                f"hack(strict)={ev['hack']:.3f} hack(vendor eq_hinted)={ev['vhack']:.3f} solve={ev['solve']:.3f}"
+                + (f"  |  knob-on: hack={ev_on['hack']:.3f} solve={ev_on['solve']:.3f}"
+                   if has_quarantine else ""))
     by_mode = {}
     for mode in sorted(ev["by_mode"]):
         dh, dv, ds, dn = ev["by_mode"][mode]
@@ -2085,8 +2066,10 @@ def main(cfg: Config) -> int:
     deploy_record = {
         "run_dir": run_dir.name, "arm": cfg.arm, "intervention": cfg.intervention,
         "seed": cfg.seed, "steps": n_steps, "model": model_name, "out_tag": cfg.out_tag,
-        "eval_set": "test", "n": ev["n"],
+        "eval_set": "test", "eval_modes": eval_modes, "n": ev["n"],
         "deploy_hack": ev["hack"], "deploy_vhack": ev["vhack"], "deploy_solve": ev["solve"],
+        "deploy_hack_on": ev_on["hack"], "deploy_vhack_on": ev_on["vhack"],
+        "deploy_solve_on": ev_on["solve"],
         "by_mode": by_mode, "log": str(verbose_log),
     }
     deploy_path = run_dir / "deploy_test.json"
diff --git a/src/vgrout/vhack.py b/src/vgrout/vhack.py
index 8a7365d..d9f291b 100644
--- a/src/vgrout/vhack.py
+++ b/src/vgrout/vhack.py
@@ -8,6 +8,7 @@ load and the in-loop refresh.
 """
 from __future__ import annotations
 
+import hashlib
 from pathlib import Path
 
 import torch
@@ -16,8 +17,12 @@ from loguru import logger
 from safetensors import safe_open
 
 
+def pairset_sha256(path: Path) -> str:
+    return hashlib.sha256(path.read_bytes()).hexdigest()
+
+
 def load_v_hack(
-    path: Path, model_name: str, wrappers: dict,
+    path: Path, model_name: str, wrappers: dict, pairs_path: Path,
     k_use: int | None = None, drop_bottom_frac: float = 0.0,
 ) -> dict[str, Float[torch.Tensor, "k r"]]:
     """Load v_hack (top-k directions) for this wrapped model.
@@ -39,14 +44,21 @@ def load_v_hack(
         meta = f.metadata() or {}
         saved_model = meta.get("model")
         saved_dtype = meta.get("dtype")
-        if saved_model is None or saved_dtype is None:
+        saved_pairs_sha256 = meta.get("pairs_sha256")
+        if saved_model is None or saved_dtype is None or saved_pairs_sha256 is None:
             raise ValueError(
-                f"{path} has no model/dtype header metadata. "
+                f"{path} has no model/dtype/pairs_sha256 metadata. "
                 f"Re-extract with `uv run python -m vgrout.extract_vhack_grad "
-                f"--model={model_name} --dtype=bf16 --out-path={path}`."
+                f"--model={model_name} --dtype=bf16 --pairs-from-pool={pairs_path} --out-path={path}`."
             )
         if saved_model != model_name:
             raise ValueError(f"v_hack model mismatch: {path} has {saved_model}, run uses {model_name}")
+        expected_pairs_sha256 = pairset_sha256(pairs_path)
+        if saved_pairs_sha256 != expected_pairs_sha256:
+            raise ValueError(
+                f"v_hack pairset mismatch: {path} has sha256={saved_pairs_sha256}, "
+                f"{pairs_path} has sha256={expected_pairs_sha256}. Re-extract the direction."
+            )
         # dtype mismatch: cross-dtype SVD bases can diverge silently, so error
         # unless the saved dtype matches what train.py uses on this device.
         # CPU runs in fp32, CUDA runs in bf16 (see model-load site above).