数据源:关键场景转移矩阵_*.xlsx + 关键场景吸收概率_*.xlsx + 关键场景移除效应_*.xlsx(APP / 微信小程序 / 支付宝小程序,共9份原始表)
严密的数据提取与重构链路,是以下马尔可夫模型矩阵与业务结论成立的科学基石。
page_view
与点击行为日志,保留核心键:User_ID, Session_ID, Timestamp 等特征。综合markov数据做系统化的UX优化,3月底前出明确方案,owner岸林&韩闯
综合markov数据做系统化的UX优化,3月底前出明确方案,owner岸林&严乐
这部分直接看用户停留到某一秒后,下一步更可能去结算,还是更可能离开。提醒阈值就放在这样一个时点:去结算概率已经进入相对稳定区间,而仍留在购物车里的可干预人群还足够大。
核心思路很直接:每到一秒,先看还有多少人仍留在购物车,再看这批人里有多少人在这一秒去结算、多少人在这一秒离开。这样就能直接判断这一刻更像是自然成交窗口,还是更像是流失窗口。
这块要回答的不是“哪一档毛利看起来最高”,而是“一期如果要把购物车毛利分成低、中、高三档,边界大致应该放在哪”。现在这份表更像冷启动参考:它用 3 组订单样本帮我们判断 P30 / P70 这两个分位点是否合理,进而决定固定 ¥2 应该避开哪些低毛利单。真正线上执行时,还是要回到触发当下的当前购物车毛利来判断。
可以把这件事理解成一句话:先在历史订单里算出毛利分布的低位和高位金额,再把它们当成低毛利和高毛利的分界线,避免固定 ¥2 一上来就补到不该补的单上。
基于一期干预 UX 规则,购物车干预分为运费、固定 2 元券、优惠券、商品优惠、时间片五种情况。免费提醒默认优先级为运费 > 优惠券 > 商品优惠 > 时间片;固定 2 元券作为付费实验模板单独承接。
MUBBK 是一套完整且复杂的算法体系,正常建设周期至少需要半年以上。目前更现实的约束是,我们还缺少可支撑 Uplift、Bandit、Bellman 和 Kelly 联动训练的高质量数据原料。完整 MUBBK 的建设前提,是先具备稳定的触发链路、干净的实验数据、可解释的动作效果和可复用的线上特征;因此一期更适合先完成可稳定落地的实验闭环,通过真实业务数据把这些基础资产做出来,再为后续模型训练和策略升级打基础。
| 模块 | 远期算法该怎么做 | 当前真正卡在哪里 | 一期降级怎么做 |
|---|---|---|---|
| M Markov |
Markov 的本质是“按状态判断”,不是“按每个人单独建一套概率”。远期要做的,不是千人千面地单独算,而是把状态定义得更细,例如首单/老客、高毛利/低毛利、结算回退/购物车长停留等。这样用户每多一个行为,就会实时落入某个更细分状态,并读取该状态对应的吸收概率;如果再把“我们做了什么动作”也放进模型里,比较发券、不干预、免运费会把用户带向哪里,这一步才进入带动作的 Markov 决策模型(MDP)。 | 我们现在只有按页面汇总出来的历史平均值,还没有把用户类型、购物车价值、毛利和关键行为信号稳定地并入状态定义,也没有实时状态打分和线上特征流。 | 一期先不用实时分数,只保留两个最强业务信号:T1 结算页退回购物车、T2 购物车长停留且持续编辑。 |
| U Uplift |
对每个用户实时估计不同动作的增量效果,只把动作给到真正会被影响的“摇摆客”。 | 站内购物车场景目前没有现成的多动作 uplift 训练样本,直接上模型只会把站外投券经验生搬硬套到站内场景。 | 一期先用规则定义分析 cell,再通过静默 / 免费 / 固定 ¥2 实验收集会话级 RCT 数据,为二期 uplift 打底。 |
| B Bellman |
引入长期价值,解决“今天这次发券有增量,但会不会伤害未来自然转化”这类问题。 | 这需要行动条件化状态转移、长期回报定义和用户序列级训练数据,一期完全不具备直接建模条件。 | 一期只用频控、防连发、连续未支付回退等强规则模拟长期约束,先避免明显的等券风险。 |
| B Bandit |
多动作同时在线时,用自适应实验加快收敛,把更多流量自动给到当前优解。 | 一期最重要的资产是干净训练数据;如果太早进入自适应分流,实验分布会被污染,二期训练会失真。 | 一期固定随机化,不做人肉调桶,也不做自动调桶,先把“谁对提醒敏感、谁对付费敏感”学清楚。 |
| K Kelly |
根据不同动作的预估增量收益和成本,动态决定这次该花多少钱、甚至不该花钱。 | 没有个体级增量概率,就谈不上真正的最优下注;过早比较多券额,只会让一期问题失焦。 | 一期不做券池优化,只固定一张 ¥2 做存在性验证,再用单次机会增量毛利决定是否继续保留。 |
一期不是直接上线完整的 MUBBK 决策栈,而是做一个能上线、能复盘、能给二期训练数据的 MUBBK-MVP。 它只回答三个问题:哪一种购物车犹豫最值得拦截、哪些人群只靠提醒就能拉回、在极少数最值得投入的场景里固定小额券是否真的比免费提醒更有效。
一期的设计原则是“动作少、链路稳、回收清晰”。线上执行层尽量简单,先保证每一步都能稳定运行;分析层保留足够结构,保证一期结束后能明确回答:哪些人群只靠提醒就够,哪些场景才值得进入二期付费优化。
一期不做连续状态推理,只保留最有业务价值、最容易验证、最容易映射行动的两个触发;动作层也只保留一套免费主盘和一套固定小额券灰度盘。
T1/T2 只负责把 session 送进提醒引擎,不负责决定提醒内容。真正决定“提醒什么”的,是当前购物车的状态标签,以及用户在结算页暴露出来的顾虑点。一期只展示 1 条提醒,按优先级覆盖,不做多条竞争。
| 优先级 | 提醒标签 | 什么时候命中 | 核心作用 | 推荐组件 | 主 CTA |
|---|---|---|---|---|---|
| 1 | 异动提醒 | 价格、库存或活动在结算阶段发生变化;若用户正是因为异动从结算页返回,直接命中最高优先级。 | 先解释变化,降低不确定感,防止用户因为“发生变化了但没说清楚”直接流失。 | 强提醒条 / 轻浮层 | 去结算确认 |
| 2 | 履约时效提醒 | 地址和时间片可履约,且存在最近可用时间片;用户刚看过地址、时段、支付方式、备注时优先上浮。 | 回答“能不能送、什么时候送”,减少用户因为履约不确定性回头重查。 | 说明型卡片 | 继续结算 |
| 3 | 优惠权益提醒 | 当前购物车有可领券未领,或已命中活动且优惠金额明确;用户刚查看过优惠券时优先上浮。 | 强化“现在下单已经划算”,防止用户在结算前重新评估优惠价值。 | 金额突出卡片 | 去领取并结算 / 去结算 |
| 4 | 免邮凑单提醒 | 未达到免邮门槛,且差额较小;用户在结算页看过费用信息后可上浮。 | 解决“这单运费不值”的顾虑,尽量把犹豫转成明确的凑单动作。 | 贴近结算栏的凑单卡片 | 去凑单 |
| 5 | 商品确认提醒 | 用户反复编辑数量、规格,或刚从商品详情回到购物车。 | 回答“买什么、买多少”,把犹豫收束到确认当前购物车。 | 轻卡片 | 继续结算 |
| 6 | 默认履约提醒 | 前面都不命中,但当前最近时间片可用。 | 给一个轻量正向推动,避免页面完全静默。 | 轻提示条 | 继续结算 |
一期线上虽然只执行 F 和 P 两类策略,但在分析与实验设计层面,仍然至少要保留 12 个 cell 的用户分群。原因是,如果只看 F/P 两个总桶,最终只能得到“整体上免费提醒有没有用、固定 ¥2 有没有额外价值”这两个平均结论,却无法回答这些效果究竟来自哪些触发场景、哪些用户阶段、哪些毛利档。保留 12 个 cell,本质上是把触发类型、用户阶段和当前购物车 GP 这三类关键异质性先保留下来:线上执行可以保持简洁,但分析上必须看清楚哪些场景免费就够,哪些场景才值得付费,以及哪些分层可以直接进入二期继续升级。
| Cell | 触发 | 用户分组 | GP 档 | 一期模板 | 一句话用途 |
|---|---|---|---|---|---|
| C1 | T1 | 战略 | 低 | F | 低毛利不做付费,先验证提醒是否足够。 |
| C2 | T1 | 战略 | 中 | P | 付费主战场 固定 ¥2 付费验证主战场之一。 |
| C3 | T1 | 战略 | 高 | P | 付费主战场 固定 ¥2 付费验证主战场之一。 |
| C4 | T1 | 稳定 | 低 | F | 先不用钱,避免补贴本来会买的人。 |
| C5 | T1 | 稳定 | 中 | F | 先验证免费提醒是否已经足够。 |
| C6 | T1 | 稳定 | 高 | F | 即使高毛利,一期也先不做付费,避免问题混淆。 |
| C7 | T2 | 战略 | 低 | F | 先验证免费提醒是否已经足够。 |
| C8 | T2 | 战略 | 中 | F | 先验证免费提醒是否已经足够。 |
| C9 | T2 | 战略 | 高 | F | 先不做付费,待一期验证后再决定是否升级为付费候选。 |
| C10 | T2 | 稳定 | 低 | F | 默认只做免费提醒。 |
| C11 | T2 | 稳定 | 中 | F | 默认只做免费提醒。 |
| C12 | T2 | 稳定 | 高 | F | 即使高毛利,本期也先不做金钱干预。 |
一期不是“边测边赚”的 Bandit 期,而是“边测边学”的 RCT 期。这里最怕的不是配比不够聪明,而是人为调桶把二期训练数据污染掉。
| 模块 | 一期做法 | 目的 |
|---|---|---|
| 随机化单位 | `user_id + trigger_type`,锁桶 7 天 | 避免同一用户短时间里先看提醒、后看券,影响因果解释。 |
| 永久保留组 | 全量符合资格流量抽 10%,永不进任何干预 | 回答“这整套系统整体有没有增量”,而不仅是实验臂之间谁更高。 |
| F 模板 | 静默 50% / 免费提醒 50% | 先看提醒本身有没有价值。 |
| P 模板 | 静默 35% / 免费提醒 35% / 固定 ¥2 30% | 只在 C2/C3 少量灰度,回答固定 ¥2 是否比免费提醒多赚。 |
| 频控规则 | 同用户同日最多 1 次干预;免费提醒 24h 最多 1 次;金钱干预 7 天最多 1 次 | 用规则替代 Bellman 的“长期价值约束”,防止等券习惯提前形成。 |
一期复盘时,所有复杂问题都先压成两个判断:免费提醒有没有用;固定 ¥2 是否比免费提醒多赚。为了让结论干净,商业指标和行为指标要分开看。
一期真正珍贵的,不是某个弹窗是否涨了,而是每一个符合资格的 session 都留下了可用于二期训练的因果样本。没有这套数据,后面就只能继续拍规则。
二期不是继续围绕“免费 vs ¥2”打转,也不是一下子跳到完整 MDP + Bellman。更合理的升级顺序是:先用一期数据学会“谁值得进入付费池”,再在付费池里试不同券型和力度,最后用 Kelly 控住补贴上限。