因果机器学习：企业决策的新领域

发现因果关系：改进决策并做出更准确预测的策略

发表于意大利《麻省理工斯隆管理评论》，2025 年 5 月/6 月/7 月。

的机器学习现在广泛用于指导决策在足以衡量特定结果的概率的过程中，例如，客户是否会偿还贷款。然而，由于技术在其传统应用中依赖于相关性来进行预测，因此在预测不同选择对业务成果的影响时，它为管理者提供的见解充其量是不完美的（Feuerriegel等。, 2022a)。

考虑一家大公司的高管，他们必须决定明年在研发 (R&D) 上投资多少。使用分析方法机器学习（ML）传统上，他们可能想知道当他们增加支出时会发生什么。他们可能会发现，当经济增长时，较高的投资水平和较高的收入之间存在很强的相关性。他们可能会得出结论，由于经济条件有利，他们应该增加研发预算。

但是他们真的应该吗？如果是的话，幅度是多少？消费者支出水平、竞争对手的技术溢出和利率等外部因素也会影响收入增长。考虑到这些其他变量，比较不同投资水平对收入的影响，对于试图确定将为公司带来最大利益的研发预算的经理很有用。

因果机器学习，机器学习的新兴领域，可以帮助回答这些问题如果通过因果推理。类似于营销人员使用 A/B 测试来推断两个广告中哪一个可能会产生更多销售额，因果机器学习可以告诉管理者如果采取特定行动可能会发生什么（火之歌等。，2022b)。

这使得许多有用的技术相同使用传统ML的业务功能，包括产品开发、制造、财务、人力资源和营销（von Zahn等。，2024）。传统机器学习依然理想的方法当唯一的目标是做出预测，例如股价是否会上涨或客户最有可能购买哪些产品。当一个公司想要预测如果他做出一个决定而不是另一个决定会发生什么，例如，如果 10% 或无折扣更有可能使客户重复购买，他需要因果机器学习。

我们对机器学习和人工智能的研究以及我们帮助公司将因果机器学习点应用于成功使用该技术的途径（方框研究）。企业还需要正确的技能他们将不得不提高员工因果机器学习素养。

因果机器学习可以做什么和不能做什么

因果机器学习是一个强大的工具，但管理者可能会发现这个名称具有误导性。标签“反事实预测”会更准确地反映它的作用：根据假设的行动预测结果。更好地理解技术是一种做出更好假设的方法，而不是作为确定答案的来源。通过这种方式，可以提醒管理者不要过度解释结果。

它通过使用来做到这一点因果推理，检查过去的结果以了解变量之间的因果关系。因果机器学习不是关注事情发生的原因，而是应用这些关系来预测干预措施的效果面向未来的新环境。

但是，该方法无法解释为什么特定因素与其影响的结果之间存在因果关系。例如，因果机器学习模型可能预测减少研发预算会减少收入，但它无法解释为什么存在这种关系，或者影响决策和结果的混杂因素是否可能改变并使预测无效。管理者应该利用他们的经验在业内评价某个预测是否有意义。这种方法有助于确保模型预测得到正确解释并与现实世界的决策保持相关性。与传统的机器学习一样，当管理者拥有大量数据时，因果机器学习会更有效，选项已明确定义，期望的结果也很好理解。一般不适合决策一次性以及需要直觉或创造力的场景。

选择正确的问题和数据

因果机器学习最适合预测简单决策的结果得到了来自内部和外部的大量历史数据的支持。运营问题可能是该方法的良好候选者，因为它们被频繁询问，并且公司有大量数据来支持它们（von Krogh、Ben-Menahem 和 Shrestha，2021）。以下是在这种情况下使用因果机器学习的一些示例：

Booking.com 每小时都会从数千个酒店预订中收集数据。该公司的营销人员使用因果分析法不仅要判断是否给予折扣，而且哪些客户应该得到它们。巧克力制造商 Lindt 拥有有关环境条件、设备、包装和其他影响其世界著名松露质量的因素的大量数据。生产经理使用因果机器学习帮助他们微调参数，例如机器温度和模具配置松露（ETH AI 中心，2023）。Hitachi ABB Power Grids 依靠 Causal ML 使用机器性能数据来降低半导体制造过程中的故障率。通过识别始终生产出最佳质量芯片的机器组合，它能够将产量损失减半（Senoner、Netland 和 Feuerriegel，2022）。

在诺华，接受过不同类型机器学习功能培训的管理人员能够识别出多项决策任务，在这些任务中，用因果机器学习取代传统机器学习可以带来显着的好处。他们询问传统的机器学习模型增加营销预算是否会增加销售额，但其预测并不能帮助他们决定如何分配预算。他们决定使用因果机器学习来评估不同的促销活动如何影响未来的销售。他们利用预测将资源分配给可能最有效的活动。

适合因果机器学习的决策可以表示为数字或二元选择（例如，收入金额或购买/拥有）。它也可以表述为关于采取什么行动的问题：为下一季度分配 10,000 美元或 15,000 美元的营销预算，或者为产品提供 10% 的折扣或不提供折扣（Wasserbacher 和 Spindler，2022）。

还有，方法因果机器学习无法有效解决所有潜在用例，即使看起来它似乎适合这个目的。混杂因素——影响结果和决策的变量——引入影响预测的扭曲并且必须考虑在内。它们可能很难或不可能测试并影响预测的准确性。例如，如果仅提供经济增长阶段产品销售的数据，那么对经济低迷时期产品销售的预测将不太可靠。

当管理者确定了他们想要决定的内容、确定了他们将如何衡量结果并确认他们拥有足够的数据时，他们可以开始与数据科学家合作，对数据进行组装和分类，以构建他们的因果机器学习模型。商业领袖和其他具有领域知识的人是数据科学家和机器学习专家构建因果机器学习模型以提供可靠结果的重要合作伙伴。

训练模型掌握复杂的因果关系需要来自至少几十个、最好是数百或数千个历史决策的数据。与一个海量数据，该模型可以揭示管理者可能未知或难以量化的变量之间的联系。数据越少，预测就越不准确。

原则上，因果分析方法需要三类数据前面提到过：决策、结果和混杂因素。决策数据包括管理者过去所做的事情，例如人员配置水平或预算设置、提供的折扣、所做的投资或流程的更改。结果数据可以包括任何可衡量的业务成果，例如销量、收入增长、质量指标或生产力。

混杂因素可能来自内部或外部。它们可以包括经济条件、劳动力构成和竞争对手的行为，并且可以根据要做出的决策而变化。对于营销决策而言，客户使用的设备类型可能是一个混杂因素，因为那些拥有更昂贵智能手机的人可能倾向于花费更多，无论他们是否有资格获得激励。

例如，出版瑞士发行量最大报纸的国际媒体公司 Neue Zürcher Zeitung 实施了 Causal ML，以提高编辑内容推广决策的有效性。决策变量是在向读者提供的两个头版之一上宣传一篇在线文章。结果变量是结合网站流量、读者参与度和订阅量的绩效得分。混杂因素包括时间因素（例如一天中的时间）、内容特征（例如文章格式）、过去的绩效指标（包括点击次数）和过去的推广决策（包括文章是否已在其他地方推广）。

确定可能的致病因素

我们工作中的一个宝贵教训是概述一个因果图在白板上说明模型开发过程开始时结果、决策和混杂因素之间的预期关系。管理者的知识和经验在这里至关重要，因为他们反复做出决策并学会预测某些结果。

因果图告诉数据科学家（他们应该是因果推理专家）是否将变量视为模型中的原因或结果。这样，团队就可以排除反向因果关系错误。换句话说，它可以确保模型不会将一个变量误解为导致另一个变量，而实际上效果恰恰相反。

想象一个在社交媒体上拥有数百万粉丝的名人。如果我们对社交媒体或名人不太了解，我们可能会得出这样的结论：名气来自于拥有大量的追随者。相反的情况更有可能是正确的。即使是普通青少年也观察到，要让数百万陌生人关注他们的社交媒体帐户，他们必须首先做一些引起注意的事情。就我们有关研发支出的问题而言，预算影响收入，而不是相反。同时，经济环境、市场趋势或团队专业知识等混杂因素被认为是推动预算决策和业务成果的因素，但不受两者的影响。该模型将考虑所有这些（图 1）。

选择出口

接下来，管理者必须选择响应类型模型必须提供对问题的响应（在统计中，输出或估计）：它可以预测决策的最终结果或替代方案与另一个方案相比的相对收益。

这些结果中的每一个都可能有用，具体取决于经理如何考虑决策。关注最终结果，例如不同预算场景下的潜在收入或为个人客户定制的激励措施，有助于战略规划。然而，比较不同决策的增量效果通常足以做出一个决定：如果经理想知道两个广告中哪一个可以更有效地增加销售额，他不一定需要预测每个变体可以产生的收入金额。他只需要知道相对收益：一个广告能够产生比另一个广告多三倍的收入。此外，关注利益relative 会比关注最终结果产生更可靠的预测。我们建议仅追求必要的粒度。

《新苏黎世报》的编辑有兴趣预测每个推广项目的实际点击率，但该公司选择预测推广某个项目可能带来的净绩效收益。这种方法使 Causal ML 能够更准确地预测哪些内容如果得到推广，会增加点击量和订阅量。编辑们了解到，推广主编撰写的文章可以显着提高这两种结果（Persson、Feuerriegel 和 Kadar，2023）。编辑们对主编的文章进行了谨慎的推广，结果成为重新审视其推广策略的起点。

模型的训练、测试和验证

一旦管理者有定义他们想要做出的决定以及他们喜欢的输出类型，数据和机器学习科学家可以选择因果机器学习模型最适合这项工作。模型实施后，机器学习工程师将使用先前分类的数据对其进行训练。

最后阶段是在实践中测试和验证因果机器学习模型，以确保其可靠，并将其预测转化为更好的业务绩效。验证还为包括高管在内的决策者提供了对其预测充满信心的机会。从相对简单的线性问题开始，可以识别和评估明确的决策方案，使得这一阶段更容易完成。

测试和验证需要注意因为管理者只能观察现实世界中决策的结果。他们无法知道如果做出不同的决定会产生什么结果。两种策略，人在循环中以及众所周知的A/B测试方法，已被证明是成功的。

Neue Zürcher Zeitung 选择将模型的建议与人类决策过程相结合（同上）。因果机器学习模型会建议推广哪些内容，但最终决定由编辑做出。该模型基于编辑者之前用于做出促销决策的相同信息；因此，他们可以相信该模型没有遗漏关键要素。因果 ML 模型建议通常符合编辑的感受，这让他们对模型的可靠性充满信心。

有些决定是困难的，编辑们知道他们的判断并不完美。如果因果机器学习建议的决定与他们原本会做出的决定不同，编辑可以测试该建议并查看结果。随着时间的推移，他们应该会发现因果机器学习方法可以在不明确的情况下提供可靠的建议。然后他们将能够更频繁地遵循因果机器学习的建议，而不是他们的直觉。

Hitachi ABB 使用 A/B 测试来验证为提高制造质量而构建的因果 ML 模型。在一项应用中，管理人员使用该模型来预测几台机器中哪一台能够在半导体制造过程的蚀刻和注入阶段产生最佳质量，从而有助于提高整体生产质量。为了确认预测的可靠性，管理人员进行了一项对照实验，他们更换了用于蚀刻和植入的机器，同时保持用于其他工艺的机器不变。他们发现用于切开和植入的最佳机器与因果机器学习模型预测的机器是同一台机器。借助 Causal ML，管理人员能够比手动方法或传统 ML 更有效地找到并解决生产问题的根源（Senoner等。，2021）。

组织准备

尽管因果机器学习有改善决策的潜力，实施这些系统需要员工具备高水平的人工智能素养，专业的技术能力和耐心，因为这些项目的开发时间可能比传统的机器学习应用程序更长。管理者可以通过对自己和员工进行因果人工智能教育以及建立开发应用程序所需的跨学科团队来为组织做好准备。

当今许多公司在传统机器学习和生成式人工智能模型（例如 ChatGpt）的员工培训上投入巨资，以保持竞争力和创新能力。如果您的组织打算使用 Causal ML，则必须将该技术纳入其 AI 素养工作中。关注不同人工智能方法的优点和局限性的员工将能够找到有效使用它们的机会。

我们发现，要擅长使用因果机器学习，团队需要在数据科学和机器学习方面拥有丰富的经验，以及部门知识。然而，建立这些团队的成本可能很高，尤其是当公司需要聘请数据科学家或寻求外部顾问和合作伙伴时。

此外，数据科学家和机器学习工程师通常被分配到不同的团队。他们在开发和实施因果机器学习模型时必须密切合作，并与拥有领域知识的业务利益相关者密切合作。（领域知识在传统机器学习中也很重要，但通常应用得不太严格，因为团队在构建模型时没有充分考虑变量之间的潜在关系。）

例如，在《新苏黎世报》，编辑和营销人员对编辑流程、客户偏好和长期品牌目标的了解有助于数据科学家定义衡量这些因素的变量。在 Hitachi ABB，工程师提供定义模型中包含的制造变量所需的信息。

跨学科团队经常受到缺乏共同理解、词汇和工作方式的困扰。管理者必须营造一个可以促进跨职能协作的环境并且所有感兴趣的各方都参与模型开发过程。数据科学家、机器学习工程师和领域专家定期举办研讨会、会议和培训课程，共同探讨问题、完善模型并讨论研究结果的影响，可以营造一个跨职能协作蓬勃发展的环境。

机器学习改变了许多组织的决策方式；因果机器学习可以通过预测不同选择对业务结果的影响来进一步深化知识。当决策者信任机器学习的结果时，企业更有可能从机器学习中受益。了解 Causal ML 的功能以及它与传统 ML 的比较可以帮助您为每种技术选择正确的项目并提高成功率。

当管理者谨慎使用因果机器学习来探索最简单决策的选项时，他们可以显着改善他们的运营，并最终改善他们的财务业绩。

参考书目

S。费里格尔，Y.R. Shrestha, G. von Krogh 等人，“将人工智能引入商业管理”，《自然机器智能》4，第 1 期。 7（2022 年 7 月）：611-613；以及 P. Hünermund、J. Kaminski 和 C. Schmitt，“因果机器学习和商业决策“，SSRN，2022 年 2 月 19 日更新，https://ssrn.com。

圣。 Feuerriegel、D. Frauen、V. Melnychuk 等人，“预测治疗结果的因果机器学习”，Nature Medicine 30（2024 年 4 月）：958-968； V. Chernozhukov、C. Hansen、N. Kallus 等人，“ML 和 AI 支持的应用因果推理”，PDF 文件（作者于 2024 年 7 月 28 日发布），https：causalml-book.org；以及 C. Fernández-Loría 和 F. Provost，“因果决策和因果效应估计不一样……以及为什么它很重要”，Informs Journal on Data Science 1，第 1 期。 1（2022 年 4 月至 6 月）：4-16。

M。 von Zahn、K. Bauer、C. Mihale-Wilson 等人，“智能绿色助推：通过数字足迹和因果机器学习减少产品退货”，《营销科学》，提前文章，2024 年 8 月 8 日在线发布； E. Ascarza，“保留徒劳：针对高风险客户可能无效”，《营销研究杂志》55，第 1 期。 1（2018年2月）：80-98； J. Yang、D. Eckles、P. Dhillon 等人，“以长期成果为目标”，管理科学 70，第 1 期。 6（2024 年 6 月）：3841-3855；以及 M. Kraus、S. Feuerriegel 和 M. Saar-Tsechansky，“数据驱动的预防性护理分配及其应用于 II 型糖尿病”，制造与服务运营管理 26，第 1 期。 1（2024 年 1 月至 2 月）：137-153。

G。冯·克罗，S.M. Ben-Menahem 和 Y.R. Shrestha，“战略制定中的人工智能：前景与挑战”，载于“战略管理：领域现状及其未来”，编辑。 I.M. Duhaime、M.A. Hitt 和 M.A. Lyles。（纽约：牛津大学出版社，2021），625-646。

“优质巧克力生产的完善：人工智能在卓越质量中的作用”，ETH 人工智能中心，2023 年 12 月 11 日，https://ai.ethz.ch。

J。 Senoner、T. Netland 和 S. Feuerriegel，“使用可解释的人工智能提高流程质量：来自半导体制造的证据”，管理科学 68，第 1 期。 8（2022 年 8 月）：5704-5723。

H. Wasserbacher 和 M. Spindler，“金融预测、规划和分析的机器学习：最新发展和陷阱”，数字金融 4（2022 年 3 月）：63-88。

J。佩尔森、S. Feuerriegel 和 C. Kadar，“面向受众范围内容推广的非策略学习“，工作文件，2023 年。

Senoner 等人，“使用可解释的人工智能”，5704-5723。