
打开任意一个电商平台,几乎都能看到“免费退货”的标签。为了打消顾客的购买顾虑,许多零售商不仅提供免费退货服务,还设置了不同长度的退货期限——从7天到90天不等,甚至会针对不同会员等级或不同产品类别进行灵活调整。
然而,对于商家而言,当一款全新产品上市时,往往会面临两个棘手问题:价格定高了没人买,定低了利润薄;退货期限长了成本高,短了顾客不敢下单。那么,究竟设置多长的退货期限、定什么价格,才能既吸引顾客又不被退货成本压垮?
浙江大学管理学院教授杨翼及其博士生吉胜在Production and Operations Management(UTD24、FT50期刊)上发表的论文Revenue Management With Nonparametric Demand Learning and Product Returns,为这一行业痛点提供了新的方案。他们设计了一套在线学习算法(OISB,Online Inverse SGD with Bandit),让零售商可以通过与市场的实时互动,获知最优定价和最优退货期限。这项研究首次构建了不依赖事先假设需求模型的联合学习框架,为零售企业实现数据驱动、自适应的收益管理开辟了新路径。

论文发表截图
本期【科研】专题,我们一起走进这项研究,看看他们的原创算法如何让商家“边卖边学”,在对消费者与市场均不了解的情况下,同时找到最优定价与最优退货期限。

杨翼,浙江大学求是特聘教授、浙江大学管理学院数据科学与管理工程学系教授、博士生导师,浙江大学物流与决策研究所所长、数据驱动决策研究所所长

吉胜,浙江大学管理学院2019级管理科学与工程博士毕业生,目前任职于东南大学
传统的定价与退货规则为何容易“踩坑”?
对于商家而言,免费退货规则如同一柄双刃剑。一方面,它能有效降低消费者的感知风险,从而促进购买;另一方面,它也容易诱发机会主义行为或低承诺购买,增加逆向物流成本,并过早消耗本就有限的库存。尤其在推出新产品或进入新市场时,商家往往面临“双重未知”:价格定在什么水平才能实现利润最大化?退货期限设为多长时间,才能在提升销量与控制退货成本之间取得平衡?
现实中,多数商家仍在沿用“固定退货期限+经验定价”的传统模式,依赖历史数据,或是假设需求服从某种已知函数(比如线性或指数函数)。然而,真实市场的需求函数往往不是固定的,而且会同时受到价格和退货期限两个因素(而非单一因素)的影响。一旦模型假设错误,由此产生的决策就会产生系统性偏差。因此,传统方式既难以精准捕捉市场需求规律,也无法有效协调多种因素之间的复杂关系。
那么,在无法预知市场需求和消费者购买行为、且库存有限的现实约束下,商家究竟该如何才能知道最优定价与最优退货期限,找到赚取收益、保障销量与管控库存之间的最优平衡点?这一直是运营管理领域长期未被充分解决的难题。
价格与退货期限该怎么定?这套算法给出“最优解”
为了解决这个问题,团队首先构建了一个能够同时考虑定价与退货期限的决策模型。该模型精准刻画了退货带来的处理成本、残值收益与库存回流机制,将退货对利润的长期影响纳入目标函数,从而突破了传统模型仅关注当期收益的局限。在此基础上,团队进一步构建了能够精确算出已知需求下的最优定价与退货期限组合的“确定性流体模型”,为后续在线学习算法提供了可靠的参照标准。
接下来,研究团队创新性地设计了名为OISB的在线学习算法,该算法采用“边运营边学习”的动态模式,无需提前积累大量历史数据,能够完美契合新品上市、退货规则测试等真实业务场景。此外,团队还开展了大量数值实验,充分验证了算法的有效性与实用性。
基于此,面对“价格定多高、退货期限设多长”的难题,研究为商家提供了决策思路和算法工具:
(1)“边卖边学”,动态优化
定价与退货期限的设置并没有标准答案,在真实的零售场景下,应把二者视为可以实时调整的杠杆。在此过程中,OISB算法可以帮助商家在销售过程中不断寻找当前市场条件下的最优组合。
(2)根据产品特性,决定优化重点
对于商家而言,如果产品退货率很高(如服装、鞋履等),优化退货期限比改变价格更能有效控制成本。此时,应优先测试和缩短退货期限,从而直接减少退货损失。
如果产品退货率很低(如日用百货、标准数码产品等),应将主要精力放在寻找最优定价上,从而将销售额和利润最大化。相应的,退货期限可以设置得相对宽松,以吸引顾客。
(3)根据库存情况,决定策略的“激进程度”
当库存充足时,可以更“大胆”地探索不同的价格和退货期限组合,以根据市场反应快速变化,探索出长期最优解。
当库存紧张时,则需要更“保守”,OISB算法会倾向于采用更稳健、能立即带来可靠收入的策略,避免因探索而耗尽库存。
从理论创新到产业赋能,研究重塑零售运营范式
作为一项面向全球问题的原创运营管理研究,这项成果不仅填补了学界理论空白,也为零售商提供了可落地的决策支持工具。
对企业而言,OISB算法可直接嵌入现有定价与库存管理系统,无需依赖大量历史数据,在新品上架、促销活动、季节更替等场景中,自动完成定价与退货周期的自适应调整,实现“边卖边学、边学边优”。相比传统经验决策,能有效降低退货成本、提升库存周转率、增加总利润,尤其适合需求波动大、退货率高的线上零售场景。
从行业层面看,本研究首次将退货周期纳入动态定价学习框架,重新定义了收益管理的决策边界,推动行业从“单一定价优化”转向“定价+退货政策+库存”的一体化协同优化,为数据驱动的智能零售运营提供了新范式。同时,非参数需求学习的设计避免了模型误设,让算法能适配各类需求形态,具备广泛的行业普适性。
对运营管理学科发展而言,本研究拓展了在线学习与收益管理的研究边界,为双维度联合学习、带库存约束与随机退货的在线优化提供了新的理论框架与算法思路,为后续多产品、个性化退货政策、需求非平稳等拓展研究奠定了坚实基础。
这套原创算法的提出与验证,为零售行业提供了一条从“经验驱动”迈向“数据驱动”的可行路径。仅凭经验决策的时代已然过去,数据驱动、算法赋能的联合优化正成为核心竞争力。杨翼教授团队的研究,以学术创新回应现实痛点,以严谨算法破解决策困境,为解决这一全球性难题提供了新的理论工具和算法思路。
面向数字经济时代的运营管理创新,浙大管院将持续扎根产业实践,聚焦真实商业问题,产出更多具有国际影响力的原创研究成果,以管理智慧赋能实体经济高质量发展。
附:论文摘要
Product returns are prevalent in practice. Many retailers provide lenient free return policies but with specific return window within which customers are allowed to return products. Motivated by this phenomenon, we consider a single-product online learning and pricing problem with stochastic product returns. A salient feature is that the demand function, depending on price and return window decisions, is initially unknown and must be learned on the fly. The retailer thus faces the classic exploration–exploitation trade-off. Moreover, we consider an inventory constraint, introducing an additional trade-off between earning revenue and managing inventory. We propose a modeling framework to integrate pricing and return window decisions, and develop a deterministic fluid model that serves as the full-information benchmark. To tackle the learning problem, we design a novel nonparametric learning algorithm that seamlessly integrates inverse stochastic gradient descent (SGD) and Upper Confidence Bound (UCB) methods. Under mild assumptions on demand and revenue functions, we establish a regret upper bound for our learning algorithm as O(√WT log T), where W denotes the number of return window candidates and T denotes the time horizon. This result aligns with lower bounds established in both online pricing and multi-armed bandit (MAB) literature. Numerical experiments are conducted to verify the effectiveness and robustness of our algorithm across various environments. From an operational standpoint, retailers can use our learning framework as a decision-support tool to identify the optimal price and return window.
信息来源:Production and Operations Management




