构建专家反馈闭环：Palantir HITL 驱动AI决策持续进化

大数据和云计算技术 2025-06-18

592

引子：

关键任务决策，怎么把专家 involve 到其中非常关键，通过expert in the loop，一方面可以保证决策效果（准确度，合理性），一方面可以持续积累的专家经验，为下一次决策提供依据，持续提升效率。

Palantir 有一个关键能力就是，它是闭环的、有人类监督的机器学习（Human-in-the-Loop Machine Learning）系统，旨在让大型语言模型（LLM）从人类的反馈中学习和改进。

这里假设我们正在使用 Palantir 的平台，其中：

Logic function：可以理解为一个后端的、可编程的逻辑单元，它可以调用 LLM、执行数据操作等。
Workshop：是 Palantir 的一个应用程序构建工具，用于创建面向用户的交互界面。
Object (对象)：在 Palantir 的本体（Ontology）中，对象是现实世界实体（如客户、产品、事件）的数字表示。这里我们创建一个新的对象类型叫 "Suggestion"。
Query objects tool：这是 Logic function 中 LLM 可以使用的一个工具，允许 LLM 查询本体中已存在的对象数据。

流程分解：

LLM 提出建议并捕获信息：

(1) 捕获建议 (Recommendation)：系统记录下 LLM 提出的具体建议内容。
(2) 捕获理由 (Reasoning)：系统同时记录下 LLM 给出该建议的理由（通常通过特定的提示工程引导 LLM 输出其思考过程）。

例如：LLM 建议将某篇文章标记为“潜在误导信息”。

例如：理由是“文章中包含未经证实的统计数据，并且来源不明”。

触发：某个业务流程（例如，内容审核、风险评估、客户邮件分类）触发了一个 Logic function。
LLM 处理：这个 Logic function 调用 LLM 对某个输入数据进行处理，LLM 生成一个建议。

人类审查与反馈（通过 Workshop 实现）：

(3) 写回人类反馈 (Human Feedback)：审查员可以提供对 LLM 建议的定性反馈，比如“理由不充分”、“忽略了关键信息 X”、“这个判断是错误的，因为 Y”等。
(4) 写回人类验证的正确决策 (Correct Human-Verified Decision)：审查员给出最终的、正确的决策。

例如：人类反馈是“理由部分正确，但该统计数据已被其他可靠来源交叉验证，且来源已在附录中说明”。

例如：人类验证的正确决策是“文章标记为‘信息准确’”。

界面呈现：在 Workshop 构建的用户界面中，人类审查员会看到 LLM 给出的建议和理由。
人类决策：审查员根据自己的专业知识和判断，对 LLM 的建议进行评估。

创建 "Suggestion" 对象：

以上四部分信息——(1) LLM的建议, (2) LLM的理由, (3) 人类的反馈, (4) 人类验证的正确决策——被作为一个整体，写入到一个新的或已有的 "Suggestion" 对象实例中，并存储在 Palantir 的本体数据库里。
这个 "Suggestion" 对象现在就包含了一次完整的“LLM提议 -> 人类纠偏”的记录。

LLM 利用历史反馈进行自我优化（在 Logic function 中）：

例如：系统会问 LLM：“鉴于你过去在类似情况下（基于相同理由做出相同建议）曾被人类纠正，你是否仍然坚持你最初的建议，还是需要修改？”

例如：LLM 可能会发现，过去好几次它因为“未经证实的统计数据”而建议标记为“潜在误导信息”，但人类审查员都基于“数据已被交叉验证”而推翻了它的建议。

查询条件：LLM 会特别查找那些它（或同类型的 LLM）曾经做出过与_当前初步形成的建议相同或相似_的记录。

例如：如果 LLM 当前初步判断某新文章为“潜在误导信息”，它会去查找过去所有它曾建议标记为“潜在误导信息”的 "Suggestion" 对象。

新的建议场景：当下一次，LLM 在一个新的（或类似的）场景下，准备要给出一个建议时。
启用 Query objects 工具：在该 Logic function 的设计中，LLM 被赋予了使用 Query objects 工具的能力。
查询历史 "Suggestion" 对象：LLM 使用这个工具在其做出最终判断_之前_，主动查询历史上所有的 "Suggestion" 对象。
处理人类反馈：LLM 读取这些被检索出来的历史 "Suggestion" 对象中的人类反馈 ((3) Human Feedback) 和人类验证的正确决策 ((4) Correct Human-Verified Decision)。
最终决策询问：Logic function (或者说，是设计 Logic function 的工程师通过提示工程) 会引导 LLM，基于刚刚学习到的历史人类反馈，重新评估其_当前_的初步建议是否应该继续。
LLM 的回应： LLM 可能会因此调整其建议（例如，不再坚持标记为“潜在误导信息”，或者改变其置信度，或者主动要求人类审查）。

这个流程的价值：

持续改进： LLM 不再是一个静态的模型，它能够通过持续学习人类的反馈来适应特定业务场景的细微差别和不断变化的标准。
提高准确性：通过学习历史上的错误和纠正，LLM 未来犯类似错误的可能性会降低。
个性化/情境化： LLM 的行为会逐渐针对特定组织的需求和判断标准进行“微调”。
提高透明度和可信度：人类审查员可以看到 LLM 的思考过程，并且 LLM 也能“理解”为什么自己的建议会被修改，这有助于建立人机协作的信任。
自动化学习：这个过程部分自动化了模型的再训练或微调过程，将人类的智慧有效地融入到 AI 系统中。

简而言之，这个设计构建了一个智能的反馈循环，使得 LLM 能够利用历史的人类智慧来优化其未来的决策，尤其是在那些判断标准复杂、需要领域知识的场景中非常有用。

附录

一、Palantir 概念

Palantir Ontology：从数据治理到决策闭环的智能引擎——业务流程数字孪生的实践与边界

Palantir Ontology 核心概念解读

Palantir Ontology：本体怎么建设以及什么是有效本体

二、商业模式和适合的客户

Palantir 产品商业模式和客户落地步骤借鉴

Palantir的黄金客户画像：哪些企业最适合落地数据智能平台？

三、产品实现

Palantir 产品体系深度解构：Ontology 驱动下的分层架构与模块

Palantir 重要能力：数据集成&决策编排

Palantir Foundry：简单四步将您组织的数据平台扩展到运营领域

Palantir决策模拟：从Ontology到AIP的What-if推演引擎

逻辑统一，物理解耦：揭秘Palantir的数据虚拟化引擎

四、加作者讨论Palantir和本体

决策能力 palantir

文章转载自大数据和云计算技术，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

评论