通过动手实验理解 Thompson Sampling、Contextual Bandit 和利润优化
你面前有 4 台老虎机(4 种 coupon 面额),每台中奖率不同但你不知道。你有 100 次机会,怎么赚最多?
核心矛盾:探索(尝试新选项获取信息)vs 利用(用已知最好的选项赚钱)。
点击"开始实验"
每种 coupon 面额维护一个 Beta 分布。初始是"完全不知道"(平的曲线),每次实验后分布更新,逐渐变窄 = 越来越确定。
Thompson Sampling 对所有客户一视同仁。但 VIP 和新客对 coupon 的响应不同。Contextual Bandit 为每种客户类型维护独立的 bandit。