优鲜MUBBK专项工作站

数据源：关键场景转移矩阵_*.xlsx + 关键场景吸收概率_*.xlsx + 关键场景移除效应_*.xlsx（APP / 微信小程序 / 支付宝小程序，共9份原始表）

当前模块：全局markov

当前端：APP

* 全局markov统一展示为小数点后两位

一、过程诊断：流量是如何流转的？

全链路流转拓扑图（Network Graph）

过滤低频干扰杂线，直击主干道与异常回流。

完整状态转移热力矩阵（12x12 Heatmap）

横轴到达，纵轴起点。严格映射原表数值。

二、效能评估：业务价值与干预

* 模型基准点：以【首页】为初始节点进行计算，已剔除首页自身的移除效应

备注：吸收概率与移除效应工作表仅提供10个非吸收状态（首页~结算页），本屏按原表原样展示。

完整场景吸收概率（Absorption Probability）

进入节点后最终支付成功的数学期望。

完整场景移除效应（Removal Effect）

按降幅从大到小排序，剔除“首页”节点。

数据底层探秘 · 节点定义与重构还原

严密的数据提取与重构链路，是以下马尔可夫模型矩阵与业务结论成立的科学基石。

场景节点 (12 States)

基于页面ID (page_id) 与点位严格约束：

S01 首页 id:3/193 | col:100052

S02 会员中心 id:211 | col:164006

S03 搜索页 id:10 | col:100019

S04 分类 id:279 | col:181001

S05 聚合分类 id:278 | col:181001

S06 CMS页 id:67 | col:100501

S07 商详页 id:14 | col:100076

S08 个人中心 id:21 | col:100119

S09 购物车 id:15/加车:100028

S10 结算页 id:16 | col:100095

S11 支付成功 order_pay_success

S12 离开/流失离开终端状态

数据提取与处理链路

绑定端：3, 16, 17 周期：近30天全量

01. 海量日志切分与提取

抽取目标端内所有 page_view 与点击行为日志，保留核心键：User_ID, Session_ID, Timestamp 等特征。

02. 动作映射与时序序列化

在同一个 Session 内将页面特征映射为左侧 12 大标准化状态，按时间升序强串联。

RAW: 首页 → CMS页 → CMS页 → 个人中心

03. 噪音降维去重算法

为凸显马尔可夫相邻转化效能，剔除本态自身的内部打转。将相邻重复状态合并清洗（例如：CMS页 → CMS页压缩为一个状态点）。

PURE: S01首页 → S06 CMS页 → S08个人中心

04. 构造高维矩阵与剔除推演

整合所有清洗完毕的 Session 转化路径，产出下方看板演示的 12×12 转移矩阵表。并在数学模型中分别移除 S01 ~ S09 节点，测算导致支付订单衰减的降幅，最终生成科学的页面移除效应指数。

购物车提醒阈值概率分析

这部分直接看用户停留到某一秒后，下一步更可能去结算，还是更可能离开。提醒阈值就放在这样一个时点：去结算概率已经进入相对稳定区间，而仍留在购物车里的可干预人群还足够大。

方法速读：我们怎么用当秒概率找购物车提醒阈值

核心思路很直接：每到一秒，先看还有多少人仍留在购物车，再看这批人里有多少人在这一秒去结算、多少人在这一秒离开。这样就能直接判断这一刻更像是自然成交窗口，还是更像是流失窗口。

01 看还在场的人

只看发生过购物车编辑行为的样本

每到一秒，先统计还有多少人仍留在购物车。只有这批仍在场的人，才是真正还来得及被提醒的人。

02 算当秒概率

分母是这一秒开始时仍在购物车的人

用“这一秒去结算人数 ÷ 这一秒开始时仍在购物车人数”，得到当秒去结算概率；流失同理。

03 看下一步更可能去哪

关键不是历史动作落在哪，而是这一刻更可能发生什么

如果用户已经停留到第 T 秒，我们更关心的是：他下一步更可能去结算，还是更可能离开。

04 用它来定提醒时点

提醒既不能太早，也不能太晚

阈值要落在一个兼顾两点的时段：此时去结算概率已经不低，而仍留在购物车的人还没有明显缩小。

APP 购物车提醒阈值

默认展示当秒概率，补充视角保留历史分布

建议阈值

22s

去结算明显上升区间结束

21s

22s 仍可覆盖流失用户

46.7%

22s 仍在购物车样本

57.1%

APP 阈值解读

微信小程序购物车提醒阈值

默认展示当秒概率，补充视角保留历史分布

建议阈值

30s

去结算明显上升区间结束

29s

30s 仍可覆盖流失用户

50.3%

30s 仍在购物车样本

61.7%

微信小程序阈值解读

支付宝小程序购物车提醒阈值

默认展示当秒概率，补充视角保留历史分布

建议阈值

32s

去结算明显上升区间结束

31s

32s 仍可覆盖流失用户

47.8%

32s 仍在购物车样本

58.5%

支付宝小程序阈值解读

购物车毛利高中低档分析

这块要回答的不是“哪一档毛利看起来最高”，而是“一期如果要把购物车毛利分成低、中、高三档，边界大致应该放在哪”。现在这份表更像冷启动参考：它用 3 组订单样本帮我们判断 P30 / P70 这两个分位点是否合理，进而决定固定 ¥2 应该避开哪些低毛利单。真正线上执行时，还是要回到触发当下的当前购物车毛利来判断。

方法速读：毛利阈值 g1 / g2 怎么算

可以把这件事理解成一句话：先在历史订单里算出毛利分布的低位和高位金额，再把它们当成低毛利和高毛利的分界线，避免固定 ¥2 一上来就补到不该补的单上。

01 样本

先用 3 组订单样本看分布

当前表里给的是 3 组人群的毛利分位金额：过去30天有订单的全量人群、T1 人群、以及 T1 且访问购物车 session 当日有下单的人群。三组一起看，是为了判断哪组最贴近一期真实干预场景。

02 公式

先算每单毛利，再按从低到高排序

单个订单毛利 = 订单金额 - 商品成本 × 商品数量。先过滤负毛利订单，再把剩下样本按毛利从低到高排好，才能去取分位点。

03 分档

P30 和 P70 就是两条金额边界

PRD 的定义很直接：P30 就是低毛利和中毛利的分界金额，P70 就是中毛利和高毛利的分界金额。算出这两个数之后，就能得到 g1 和 g2。

04 解图

图里的三根柱子，本质就是 P30 / P50 / P70 金额

这里的 profit30 / profit50 / profit70，按我们现在确认的口径，讲的就是毛利分布的 30 分位 / 50 分位 / 70 分位金额。所以重点不是“哪根柱子最高”，而是要选哪组样本来定 g1 / g2 更合理。

三组样本的 P30 / P50 / P70 金额对比

3 个人群 × 3 个阈值

横轴为人群口径，柱子颜色分别代表 `P30`、`P50`、`P70` 的金额。页面展示单位统一为元，重点看哪组样本最适合拿来定义 g1 / g2。

毛利额分析

一期购物车干预UX

基于一期干预 UX 规则，购物车干预分为运费、固定 2 元券、优惠券、商品优惠、时间片五种情况。免费提醒默认优先级为运费 > 优惠券 > 商品优惠 > 时间片；固定 2 元券作为付费实验模板单独承接。

免费情况 1

运费提醒

触发机制：用户从结算页返回购物车前后，或在购物车长时间停留时，A1 前最后一次点击为配送费说明。

判断范围：仅判断小时达、半日达；多包裹优先看未免邮包裹，都未免邮时用小时达。

展示文案：未免邮时展示“再买 ¥XX 可减免配送费 ¥XX”，按钮为“去凑单”；已免邮时展示“已免配送费，尽快下单吧”，按钮为“去结算”。

点击动作：“去凑单”拉起凑单助手浮层；“去结算”跳转结算页并关闭浮层。

免费情况 2

优惠券提醒

触发机制：用户从结算页返回购物车前后，或在购物车长时间停留时，A1 前最后一次点击为结算页优惠券 / 抵用券 / 单品券栏位，或购物车优惠券入口。

判断范围：仅判断小时达、半日达包裹；凭证可用券不参与判断。

展示文案：若勾选商品已有自动抵扣券且已是最优，展示“已享优惠券最优抵扣 XX 元”；若有可领券，展示“XX 元优惠券可领”。

点击动作：最优抵扣场景点击“去结算”；可领券场景点击“去领券”打开优惠券浮层。

免费情况 3

商品优惠提醒

触发机制：用户从结算页返回购物车前后，或在购物车长时间停留时，A1 前最后一次动作为查看商品、进入商详、加减商品、更换加工或款色码服务。

判断范围：仅判断小时达、半日达包裹；购物车主商品、全场换购、常买、失效商品、推荐商品，以及券 / 凑单 / 换购浮层商品均可纳入触发范围。

展示文案：勾选商品存在划线价商品或商品池营销活动时，展示“本单已享 XX 元商品优惠”。

优惠金额：XX 取勾选商品划线价与售价之差总计，加营销活动优惠金额总计；为 0 则不满足此条件。

免费情况 4

时间片提醒

触发机制：用户从结算页返回购物车前后，或在购物车长时间停留时，A1 前最后一次点击为结算页切换地址、结算页切换时间片，或购物车切换地址。

判断范围：仅判断小时达、半日达包裹，其他包裹不参与。

展示文案：购物车勾选商品存在未约满且可用的时间片时，展示“现在下单，最快 XX 配送”。

时间取值：XX 取可选时间片的开始时间，例如 17:00、明日 17:00、4.30 17:00；多包裹取最快的一个。

付费模板

固定 2 元券

触发机制：作为 A2 付费实验臂使用，优惠券由 PD 指定，线上使用 2 元无门槛抵用券。

发券规则：策略浮层出现时券需要发到账；若因限领、领完、不在有效期等原因无法发放，则回退按 A1 出，A1 也不满足时走 A0 静默。

展示文案：倒计时展示“限时福利：X 分 X 秒后失效”，主文案为“送您一张 X 元无门槛优惠券”。

点击动作：点击“去结算”跳转结算页并关闭浮层；倒计时结束后浮层自动关闭。

MUBBK路线的渐进式探索

MUBBK 是一套完整且复杂的算法体系，正常建设周期至少需要半年以上。目前更现实的约束是，我们还缺少可支撑 Uplift、Bandit、Bellman 和 Kelly 联动训练的高质量数据原料。完整 MUBBK 的建设前提，是先具备稳定的触发链路、干净的实验数据、可解释的动作效果和可复用的线上特征；因此一期更适合先完成可稳定落地的实验闭环，通过真实业务数据把这些基础资产做出来，再为后续模型训练和策略升级打基础。

远期完整形态

完整 MUBBK 真正想解决的是 5 个问题：

M：用户当前处于什么状态，状态价值是否在下降。
U：这个用户会不会因为某个动作而产生增量，而不是本来就会买。
Bellman：如果今天给券，未来几次是否会被训练成等券用户，长期最优动作是什么。
Bandit：多种动作同时在线时，如何边探索边把流量自动给到当前最优动作。
Kelly：在已知增量收益和成本的前提下，这次到底该花多少钱。

如果都做完

它会是一套“状态识别 + 个体决策 + 长期优化 + 自适应实验 + 动态预算”的完整干预系统，而不是简单弹窗策略。

模块	远期算法该怎么做	当前真正卡在哪里	一期降级怎么做
M Markov	Markov 的本质是“按状态判断”，不是“按每个人单独建一套概率”。远期要做的，不是千人千面地单独算，而是把状态定义得更细，例如首单/老客、高毛利/低毛利、结算回退/购物车长停留等。这样用户每多一个行为，就会实时落入某个更细分状态，并读取该状态对应的吸收概率；如果再把“我们做了什么动作”也放进模型里，比较发券、不干预、免运费会把用户带向哪里，这一步才进入带动作的 Markov 决策模型（MDP）。	我们现在只有按页面汇总出来的历史平均值，还没有把用户类型、购物车价值、毛利和关键行为信号稳定地并入状态定义，也没有实时状态打分和线上特征流。	一期先不用实时分数，只保留两个最强业务信号：T1 结算页退回购物车、T2 购物车长停留且持续编辑。
U Uplift	对每个用户实时估计不同动作的增量效果，只把动作给到真正会被影响的“摇摆客”。	站内购物车场景目前没有现成的多动作 uplift 训练样本，直接上模型只会把站外投券经验生搬硬套到站内场景。	一期先用规则定义分析 cell，再通过静默 / 免费 / 固定 ¥2 实验收集会话级 RCT 数据，为二期 uplift 打底。
B Bellman	引入长期价值，解决“今天这次发券有增量，但会不会伤害未来自然转化”这类问题。	这需要行动条件化状态转移、长期回报定义和用户序列级训练数据，一期完全不具备直接建模条件。	一期只用频控、防连发、连续未支付回退等强规则模拟长期约束，先避免明显的等券风险。
B Bandit	多动作同时在线时，用自适应实验加快收敛，把更多流量自动给到当前优解。	一期最重要的资产是干净训练数据；如果太早进入自适应分流，实验分布会被污染，二期训练会失真。	一期固定随机化，不做人肉调桶，也不做自动调桶，先把“谁对提醒敏感、谁对付费敏感”学清楚。
K Kelly	根据不同动作的预估增量收益和成本，动态决定这次该花多少钱、甚至不该花钱。	没有个体级增量概率，就谈不上真正的最优下注；过早比较多券额，只会让一期问题失焦。	一期不做券池优化，只固定一张 ¥2 做存在性验证，再用单次机会增量毛利决定是否继续保留。

MUBBK 一期落地方案购物车犹豫干预试点

一期策略：免费提醒先行，小规模固定券额验证因果

一期不是直接上线完整的 MUBBK 决策栈，而是做一个能上线、能复盘、能给二期训练数据的 MUBBK-MVP。它只回答三个问题：哪一种购物车犹豫最值得拦截、哪些人群只靠提醒就能拉回、在极少数最值得投入的场景里固定小额券是否真的比免费提醒更有效。

核心目标 01

先找出提醒敏感人群

不是先做券池优化，而是先区分哪些犹豫用户免费提醒就够，哪些人提醒不够才值得继续付费验证。

核心目标 02

拿到干净的 RCT 数据

跑通触发识别、资格判定、实验分流、干预展示、结果回传，为二期 uplift 训练沉淀会话级样本。

核心目标 03

把金钱动作压到最少

一期固定只验证一张小额券，且只在极少数战略场景灰度，避免样本打碎、问题混淆和补贴失控。

一期不是做“最优决策系统”，而是做“最小可行闭环”。

先用强业务规则模拟 MUBBK 的方法论，不模拟它的复杂度。

线上主盘只跑两种策略：F 免费提醒和 P 固定 ¥2 验证。

真正要保住的是：因果数据纯度、实验可解释性、二期可升级性。

策略骨架触发与动作免费提醒引擎 12个分析Cell 结论回收二期承接

一期策略骨架：不是做大而全，而是做一条闭环

一期的设计原则是“动作少、链路稳、回收清晰”。线上执行层尽量简单，先保证每一步都能稳定运行；分析层保留足够结构，保证一期结束后能明确回答：哪些人群只靠提醒就够，哪些场景才值得进入二期付费优化。

为什么一期必须是一条闭环，而不是一堆并列策略

先把问题拆开

一期先只回答两个问题：提醒有没有用，固定 ¥2 是否比提醒多赚。这样问题不会混。

先把链路跑通

触发、资格、分流、展示、回传五步如果有一步不稳，后面模型和策略都会失真。

先把数据变成资产

一期最珍贵的产出不是某次券涨了多少，而是能喂给二期 uplift 的因果样本。

Step 1

触发识别

只保留 T1 和 T2 两个强业务信号，不让场景无限外扩。

T1 负责抓“已经接近支付却回退”的高危坍塌；T2 负责抓“还没回退，但在购物车里明显犹豫”的中危机会。

Step 2

资格判定

先判断这个机会是否值得进入实验，再判断是否允许进入付费验证。

这里不追求“谁最值钱”，而是先把战略/稳定人群、当前购物车 GP 和付费安全线判清楚。

Step 3

实验分流

大多数 cell 进入 F，只有少数最值得投入的战略 cell 进入 P。

这样先学“提醒是否有效”，再学“花钱是否比提醒多赚”，不把两个问题混成一个实验。

Step 4

干预展示

内容由购物车状态标签驱动，一次只展示 1 条免费提醒；付费动作只是附加实验臂。

提醒不再按 T1/T2 硬拆，而是围绕异动、履约、优惠、免邮、商品确认这些具体顾虑点展开。

Step 5

结果回传

把每次符合资格的 session 变成“触发前特征 + 实际动作 + 结果标签”的训练样本。

这一步决定了一期结束后，能不能把结果沉淀成提醒敏感度地图、付费候选池和二期 uplift 样本表。

这一条闭环为什么能产生真实产出

边界清楚、动作够少

只做购物车犹豫，只保留 A0 静默、A1 免费提醒、A2 固定 ¥2，避免把“要不要提醒”和“给多少钱”混成一个问题。

实验干净、结论可用

冻结期固定随机化，不做人肉调桶，保证一期结论能直接进入二期训练，而不是只剩下一次性的运营经验。

结果可复用、升级路径顺

一期留下的是触发链路、分层口径、实验样本和评估框架，后面可以顺着做 uplift，再逐步走向 Bellman / Bandit。

触发与动作：一期明确2种触发条件，3类动作

一期不做连续状态推理，只保留最有业务价值、最容易验证、最容易映射行动的两个触发；动作层也只保留一套免费主盘和一套固定小额券灰度盘。

触发 T1

结算页退回购物车

高危

同一 session 内，用户先到达结算页，再返回购物车即触发。这里不再加停留时长门槛，一期把“从高意图路径退回”本身视为高危信号。

适合回答的问题

用户为什么不继续提单，是费用顾虑、履约顾虑、库存顾虑，还是活动价值重评估。触发层不判断原因，提醒层再判断“该说什么”。

触发 T2

购物车长停留且有关键编辑动作

中危

用户未从结算页回退，但在购物车停留较久、发生多次编辑且始终未点击去结算。它更像预算重算、选品犹豫或注意力转移，一期默认只做静默与免费提醒，不作为主要付费战场。

长停留的定义

这里不会拍脑袋写死一个停留时长，而是先回看历史购物车 session 的停留分布和编辑行为分布，识别“明显偏离正常浏览”的时间阈值 T。更稳妥的做法是把停留时长与关键编辑动作一起看，例如加减件数、删除、切换商品或服务后仍未去结算的 session，在历史样本里找到从“正常浏览”转向“明显犹豫”的拐点，再把这个 T 作为一期触发门槛。

动作 A0

静默

提供最干净的自然转化基线，是所有后续 uplift 判断的参照组。

动作 A1

免费提醒

一期主盘。内容由购物车状态标签驱动，一次只出 1 条，不做多条并发，也不按 T1/T2 拆两套文案。

动作 A2

固定 ¥2 小额券

一期唯一的付费验证动作。只验证“花钱是否比提醒多赚”，不做多券面额比较，不做券池优化。

免费提醒引擎（纯草稿，具体方案需要基于数据分析做更细致的UX设计）

T1/T2 只负责把 session 送进提醒引擎，不负责决定提醒内容。真正决定“提醒什么”的，是当前购物车的状态标签，以及用户在结算页暴露出来的顾虑点。一期只展示 1 条提醒，按优先级覆盖，不做多条竞争。

优先级	提醒标签	什么时候命中	核心作用	推荐组件	主 CTA
1	异动提醒	价格、库存或活动在结算阶段发生变化；若用户正是因为异动从结算页返回，直接命中最高优先级。	先解释变化，降低不确定感，防止用户因为“发生变化了但没说清楚”直接流失。	强提醒条 / 轻浮层	去结算确认
2	履约时效提醒	地址和时间片可履约，且存在最近可用时间片；用户刚看过地址、时段、支付方式、备注时优先上浮。	回答“能不能送、什么时候送”，减少用户因为履约不确定性回头重查。	说明型卡片	继续结算
3	优惠权益提醒	当前购物车有可领券未领，或已命中活动且优惠金额明确；用户刚查看过优惠券时优先上浮。	强化“现在下单已经划算”，防止用户在结算前重新评估优惠价值。	金额突出卡片	去领取并结算 / 去结算
4	免邮凑单提醒	未达到免邮门槛，且差额较小；用户在结算页看过费用信息后可上浮。	解决“这单运费不值”的顾虑，尽量把犹豫转成明确的凑单动作。	贴近结算栏的凑单卡片	去凑单
5	商品确认提醒	用户反复编辑数量、规格，或刚从商品详情回到购物车。	回答“买什么、买多少”，把犹豫收束到确认当前购物车。	轻卡片	继续结算
6	默认履约提醒	前面都不命中，但当前最近时间片可用。	给一个轻量正向推动，避免页面完全静默。	轻提示条	继续结算

原则 1：一次只出 1 条

避免多个提醒抢注意力，也避免后续效果归因混乱。

原则 2：内容优先于触发

用户最终看到的是购物车，不需要分 T1/T2 两套文案，更应该根据当前顾虑点说对的话。

原则 3：付费动作不改提醒逻辑

即使进入固定 ¥2 实验，内容仍由状态标签驱动，券只是额外动作，不是替代内容逻辑。

基于场景、用户生命周期、当前购物车毛利的12个用户分群

一期线上虽然只执行 F 和 P 两类策略，但在分析与实验设计层面，仍然至少要保留 12 个 cell 的用户分群。原因是，如果只看 F/P 两个总桶，最终只能得到“整体上免费提醒有没有用、固定 ¥2 有没有额外价值”这两个平均结论，却无法回答这些效果究竟来自哪些触发场景、哪些用户阶段、哪些毛利档。保留 12 个 cell，本质上是把触发类型、用户阶段和当前购物车 GP 这三类关键异质性先保留下来：线上执行可以保持简洁，但分析上必须看清楚哪些场景免费就够，哪些场景才值得付费，以及哪些分层可以直接进入二期继续升级。

这 12 个 Cell 怎么定义

触发类型：T1 结算页退回购物车；T2 购物车长停留且持续编辑。
用户分组：战略人群 = 引入期 + 衰退期 + 流失期；稳定人群 = 成长期 + 成熟期。
GP 档：分档变量看的是触发当下这次购物车的当前 GP；高/中/低阈值则要先用近 30-60 天历史样本分布统计出来，不是拍脑袋划线。

GP 高中低档的统计学判断

GP 的高、中、低档不是拍脑袋划线，而是先用历史数据做分布判断。理想口径是：抽取最近 30-60 天所有命中 T1/T2 资格样本，在触发时刻记录下来的 current_cart_gp，先看整体分布，再用分位数粗定阈值，例如以 P30 / P70 作为低、中、高三档的初始边界，最后 round 成业务和报表都更好执行的整数阈值。如果当前购物车 GP 的历史埋点还不完整，则先退一步，使用更贴近一期场景的成功订单 GP 分布做代理样本，先粗定阈值范围；但真正一期上线时，每次 session 落档和固定 ¥2 的付费拦截，仍然要回到这次触发当下的当前购物车 GP 来判断。

为什么既不能太粗，也不能太散

只分成“免费策略”和“付费策略”会失去异质性；把 12 个 cell 当成 12 套策略又会把样本打碎。所以一期的正确做法是：线上执行保留少量路由，分析复盘保留完整 12 个 cell。

Cell	触发	用户分组	GP 档	一期模板	一句话用途
C1	T1	战略	低	F	低毛利不做付费，先验证提醒是否足够。
C2	T1	战略	中	P	付费主战场固定 ¥2 付费验证主战场之一。
C3	T1	战略	高	P	付费主战场固定 ¥2 付费验证主战场之一。
C4	T1	稳定	低	F	先不用钱，避免补贴本来会买的人。
C5	T1	稳定	中	F	先验证免费提醒是否已经足够。
C6	T1	稳定	高	F	即使高毛利，一期也先不做付费，避免问题混淆。
C7	T2	战略	低	F	先验证免费提醒是否已经足够。
C8	T2	战略	中	F	先验证免费提醒是否已经足够。
C9	T2	战略	高	F	先不做付费，待一期验证后再决定是否升级为付费候选。
C10	T2	稳定	低	F	默认只做免费提醒。
C11	T2	稳定	中	F	默认只做免费提醒。
C12	T2	稳定	高	F	即使高毛利，本期也先不做金钱干预。

执行层只看少数路由

线上真正需要跑的只有两条主路由：大多数 cell 跑 F = 静默 / 免费提醒，只有 C2/C3 跑 P = 静默 / 免费提醒 / 固定 ¥2。

分析层保留 12 个 Cell

这样一期结束后，既能看“整体上有没有用”，也能看“在哪些触发、哪些人群、哪些 GP 档上更有用”，为二期 uplift 留下可解释切片。

实验设计：先保住纯度，再谈优化速度

一期不是“边测边赚”的 Bandit 期，而是“边测边学”的 RCT 期。这里最怕的不是配比不够聪明，而是人为调桶把二期训练数据污染掉。

模块	一期做法	目的
随机化单位	`user_id + trigger_type`，锁桶 7 天	避免同一用户短时间里先看提醒、后看券，影响因果解释。
永久保留组	全量符合资格流量抽 10%，永不进任何干预	回答“这整套系统整体有没有增量”，而不仅是实验臂之间谁更高。
F 模板	静默 50% / 免费提醒 50%	先看提醒本身有没有价值。
P 模板	静默 35% / 免费提醒 35% / 固定 ¥2 30%	只在 C2/C3 少量灰度，回答固定 ¥2 是否比免费提醒多赚。
频控规则	同用户同日最多 1 次干预；免费提醒 24h 最多 1 次；金钱干预 7 天最多 1 次	用规则替代 Bellman 的“长期价值约束”，防止等券习惯提前形成。

为什么一期不能上太多策略

样本会碎。同样是 12 个 cell，如果每个 cell 再测多张券、多种组件、多种文案，结论会非常不稳定。
问题会混。一期最应该先区分“提醒有没有用”和“花钱有没有额外价值”，不是直接求最优券额。
工程会炸。提示、券、频控、埋点、回传、财务核算本来就复杂，一期先守住最小动作集。
二期才适合券池。只有证明某些场景真的需要付费动作，二期再优化 ¥1 / ¥2 / ¥3 / 免运费才有因果基础。

一期结论回收：以uplift为核心的评估体系

一期复盘时，所有复杂问题都先压成两个判断：免费提醒有没有用；固定 ¥2 是否比免费提醒多赚。为了让结论干净，商业指标和行为指标要分开看。

3 个核心商业指标

免费提醒带来的支付率提升

`免费提醒 15 分钟支付率 - 静默 15 分钟支付率`

固定 ¥2 的额外支付率提升

`固定 ¥2 15 分钟支付率 - 免费提醒 15 分钟支付率`

单次机会增量毛利

每一次符合资格的犹豫机会，实验组到底比对照组多赚了多少钱。

少量过程指标，只用来判断“路径有没有真被拉回”

回到结算页比例：提醒后有没有重新回到高意图路径。
15 分钟支付率：一期最核心的短窗口结果指标。
当日支付率：判断是否存在延迟转化。
Markov 吸收概率提升：看全局、购物车、结算页三个口径是否一起变好，避免把短期波动误当成路径改善。

一期结论只落 3 类

回退到静默

免费提醒没有带来正向支付提升，或虽然提了支付但单次机会增量毛利不成立。

保留免费提醒

免费提醒带来的支付率提升为正，且单次机会增量毛利也为正，说明这个场景对提醒敏感。

进入二期付费优化候选

固定 ¥2 相对免费提醒还有额外支付提升，且增量毛利也为正，才配进入二期券池优化候选。

数据不是附属品，而是一期成败的主战场

一期真正珍贵的，不是某个弹窗是否涨了，而是每一个符合资格的 session 都留下了可用于二期训练的因果样本。没有这套数据，后面就只能继续拍规则。

A. 触发层

记录触发类型、触发时间、前后页面、停留时长、编辑次数、当前购物车金额、毛利、免邮差额、配送费等。

B. 用户层

记录生命周期、R 分层、是否首单、距离上次下单天数、历史购买节奏等，给二期 uplift 提供个体差异特征。

C. 实验层

记录是否进入保留组、所属 cell、实验桶、可选动作、实际动作、是否真正曝光。

D. 结果层

记录是否点击、是否领券、是否核销、15 分钟/24 小时支付、订单毛利和补贴成本。

特别强调：连“符合资格但没有曝光”的 session 也必须入库，否则后面无法做完整因果分析，也没法判断系统级净增量。

一期数据如何进入二期：先升级 Uplift，不急着上完整 Markov 决策

二期不是继续围绕“免费 vs ¥2”打转，也不是一下子跳到完整 MDP + Bellman。更合理的升级顺序是：先用一期数据学会“谁值得进入付费池”，再在付费池里试不同券型和力度，最后用 Kelly 控住补贴上限。

二期先升级什么

继续用 T1/T2 识别犹豫 session，但先升级成“付费准入 uplift”，回答这个 session 值不值得花钱，而不是直接预测该发哪种券。

一期真正学到了什么

一期能稳定学到的是“免费干预有没有增量”以及“¥2 相对免费是否还有额外增量”，还学不到不同券额、券型、门槛之间的细粒度差异。

Markov 二期怎么用

继续做评估框架、诊断框架和特征来源，用来监控全局/购物车/结算吸收概率，不急着做完整行动条件化 Markov 决策。

二期最稳的做法：先做付费准入，再做付费动作实验

第一层：付费准入 Uplift

沿用一期沉淀的“免费 vs ¥2”因果样本，结合购物车金额、预测毛利、免邮差额、历史领券情况、Markov 分数等特征，判断“这个人值不值得进入付费池”。

第二层：付费动作实验层

只在“值得花钱”的 session 中，比较固定 ¥2、¥3、免运费、满减券等不同付费手段。这里的核心口径不只是支付率，而是增量毛利，尤其要结合购物车毛利和预测增量收益做分层。

第三层：Kelly 作为力度与预算护栏

Kelly 不负责回答“给不给”或“给哪种券”，而是在某种付费动作已经选定后，约束补贴强度和预算上限。二期更适合先用半 Kelly，避免探索阶段为了追转化把补贴打穿。

第三期才考虑什么

Bellman：长期最优控制，解决“今天发券会不会伤害未来自然转化”。
大规模在线 Bandit：在多种券型、券额、门槛之间自动调流量。
完整行动条件化 Markov：同一状态下，不同行动有不同转移矩阵。

阶段判断

第二期的正确目标是“真正学会谁值得花钱，以及花钱时什么券最赚钱”，不是过早把 uplift、券型选择和长期控制揉成一个大一统模型。

一期期望时间：5月底版本，预期拿回 6 个结果

01 跑通稳定闭环：触发识别、资格判定、实验分流、干预展示、结果回传。

02 拿到干净的会话级 RCT 数据，不再靠经验猜哪些人值得提醒。

03 产出一张“提醒敏感度地图”：哪些分析 cell 对免费提醒显著为正，哪些无效。

04 明确固定 ¥2 只在哪些战略场景里相对免费提醒还有额外价值。

05 用单次机会增量毛利，而不是只看支付率，给后续放量立标准。

06 给二期留下可直接训练 uplift 的样本表和可复用的触发、分层、评估口径。

最终原则

一期最大的成功，不是做出一个“看起来聪明”的系统，而是做出一个“后面真的能继续学”的系统。

先把提醒这件事做透，再决定哪里值得花钱；先把因果关系搞清楚，再谈长期最优控制。这样第二期 uplift 才有扎实地基，第三期 Bellman 才有现实意义。

优鲜MUBBK专项工作站

一、过程诊断：流量是如何流转的？

二、效能评估：业务价值与干预

数据底层探秘 · 节点定义与重构还原

场景节点 (12 States)

数据提取与处理链路

购物车markov

UX方案

结算页markov

UX方案

购物车提醒阈值概率分析

方法速读：我们怎么用当秒概率找购物车提醒阈值

购物车毛利高中低档分析

方法速读：毛利阈值 g1 / g2 怎么算

一期购物车干预UX

运费提醒

优惠券提醒

商品优惠提醒

时间片提醒

固定 2 元券

MUBBK路线的渐进式探索

一期策略：免费提醒先行，小规模固定券额验证因果

一期策略骨架：不是做大而全，而是做一条闭环

触发与动作：一期明确2种触发条件，3类动作

免费提醒引擎（纯草稿，具体方案需要基于数据分析做更细致的UX设计）

基于场景、用户生命周期、当前购物车毛利的12个用户分群

实验设计：先保住纯度，再谈优化速度

一期结论回收：以uplift为核心的评估体系

数据不是附属品，而是一期成败的主战场

一期数据如何进入二期：先升级 Uplift，不急着上完整 Markov 决策

一期期望时间：5月底版本，预期拿回 6 个结果