注意:如无法找到您需要的答案,请查看我们的 TMF 机器人程序常见问题。
若要使用文件自动分类等 TMF 机器人程序功能,必须训练并部署训练模型。该训练可让机器学习模型掌握您输入的数据,为以智能方式处理数据做好准备。
Vault 会使用至少 1,500 份稳定状态文档在全部 eTMF Vault 中自动创建训练模型。只要您尚未部署训练模型,Vault 会为您部署该模型。每次发布新版本时就会执行该程序,所以如果您希望在任何时候更新您的训练模型(例如用以体现新的文档类型或尝试改进您的结果),您必须按照本文中介绍的流程训练、评估和部署该模型。
目前只有文档分类类型可用于已训练模型类型,以便能够对文档收件箱中的文档自动分类,并对手动文档分类进行质量控制。
自动训练模型如何运作
TMF 机器人程序会对全部 eTMF 客户自动开启,拥有超过 1,500 份稳定状态文档。系统用于创建、训练和部署文档分类训练模型的流程如下所示:
- 自动训练模型作业每晚于东部标准时间凌晨 1:00 开始在所有生产和预先发布1 Vault 上运行。该作业将检查:
- 自上次主要版本发布后没有创建系统创建的模型
- 该 Vault 中至少有 1,500 份稳定状态文档
- 该作业使用 95 预测置信阈值和适当的每个文档最少文档数根据将用于训练的文档数量创建训练模型
- 归入以下类别的最新文档版本(根据版本创建日期)将用于训练该模型:
- 处于稳定状态(已批准/最终稿)
- 不是活页夹
- 不属于TMF 文档或最终 CRM文档类型
- 不属于映射至“已完成机构评估但是未被选定”的文档类型
- 该文档有页面
- 如果该 Vault 中已部署模型,自动训练模型将保持为训练中状态,否则其完成训练后将进行自动部署。
- 部署自动训练模型后,上传至收件箱的任何文档将由 TMF 机器人程序进行自动分类。
每次有主要版本发布后,将创建和训练新的自动训练模型。如果您目前使用之前发布版本的自动训练模型,Vault 将自动部署该新模型以替换老版训练模型。这可确保系统训练代表您的文档层级的最新文档。
根据 eTMF 客户的数量,每次有主要版本发布后,在您的 Vault 中自动训练和部署模型可能需要一到三天时间。
如何训练模型
和所有机器学习工具一样,TMF 机器人程序要求在独自执行任务之前先输入相关数据。通常,输入的数据越大、越准确,模型的结果就会越精确。Vault 会将累计输入的数据存放在训练模型对象记录中。
预测置信
Vault 使用预测置信评分说明特定 MTF 机器人程序如何确保其预测是正确的。置信值位于 0(可能错误)和 1(可能正确)之间。您输入的数据越精确,预测置信评分将会越高。Vault 会将预测置信评分存放在预测对象记录中。
预测置信阈值
Vault 在训练模型记录上使用预测置信阈值字段,以确定系统需要多少分值才可使用该预测。例如在自动分类的情况下,如果您的预测置信阈值是 95,而上传至文档收件箱的文档的预测置信值是 9728,则 Vault 将对该文档进行自动分类。
创建文档分类训练模型
创建训练模型之前,请仔细考虑以下限制:
- Vault 允许管理员在预先发布或沙盒环境中使用生产环境文件训练模型,验证训练流程。但是此类模型无法移至您的生产 Vault 中,因此必须同时在生成环境中创建和训练训练模型。
- 某些文档类别无法进行自动分类或在模型训练中使用。这些类别包括:
- 视频和音频文件
- 非文本文件,如 ZIP 文件、统计文件或数据库文件
- 非英语文档。您可使用仅部分为英语的文档进行模型训练。
- Vault 无法从其中提取文本的文档,例如文本字迹太模糊。
- 我们建议您使用至少 3,000 份稳定状态文档,如已批准或最终稿状态,来训练机器学习模型。您可在含 1,000-3,000 份文档的 Vault 上使用 TMF 机器人程序,但是需注意这可能会限制预测的质量。
- 如果您输入了任何错误分类的文档,您的预测可能会受到不良影响。例如,如果几份应分类为法律 > 合同 > 供应商的文档被分类为法律 > 协议 > 外部,TMF 机器人程序预测此类文档类型的置信度将会变低。
创建训练模型对象记录
- 导航至管理 > 业务管理员并点击进入训练模型对象。
- 点击创建。
- 对于训练模型类型,选择文档分类。
- 输入预测置信阈值。
- TMF 机器人程序不会使用任何低于该自动分类阈值的预测。尽管 Vault 接受任何处于零 (0) 和一 (1) 之间的值,但是我们建议使用 9 或以上的值。
- 发送训练模型进行训练以后,您无法更改该值。
- 通常数值越高,分类就越准确,但是您也可对更少文档进行自动分类。参见关于评估的详细信息。
- 如果您计划使用训练窗口训练方法,应设置相应的训练窗口开始日期。
- 在模型参数中设置每个文档类型的最少文档数。
- 文档数量少于该最少文档数的任何文档类型将无法进行自动分类。最少文档数越高,预测置信分值就会越高,但是可能会使超出限制的文档类型无法进行自动分类。
- 1,000 至 10,000 份文档 = 10
- 10,000 至 25,000 份文档 = 15
- 25,000 至 50,000 份文档 = 25
- 50,000 至 100,000 份文档 = 50
- 100,000 至 150,000 份文档 = 75
- 150,000 至 200,000 份文档 = 100
- 高级模型参数字段是由系统进行管理的,您无需在此处进行任何设置。
- 文档数量少于该最少文档数的任何文档类型将无法进行自动分类。最少文档数越高,预测置信分值就会越高,但是可能会使超出限制的文档类型无法进行自动分类。
- 点击保存。
创建训练模型对象记录后,选择训练方法。
选择文档集合方法
若要训练您的模型,您需要选择汇总文档的方法,以用作该训练模型中的输入文档。有两种方案:训练窗口开始日期和文档 ID 的附加 CSV。
训练窗口开始日期
训练窗口开始日期方法不考虑已归档文档,这是一个已知问题。如果您希望训练已归档文档,您必须使用文档 ID 的附加 CSV 方法。
该方法会汇总处于稳定状态的全部文档,如已审批或最终稿状态,且其版本创建日期值处于训练窗口开始日期和当前日期之间。如果超过 200,000 份文档符合该条件,Vault 将使用最近的 200,000 文档。如果您选择该方法,确保您在您的训练模型记录中输入了训练窗口开始日期值。
文档 ID 的附加 CSV
该方法使用文档 ID列表作为输入文档。文档 ID 是 Vault 的唯一文档标识符,让管理员能够调整用于训练训练模型的文档列表。尽管您可使用任何可生成文档 ID 列表的程序,但以下方法可创建获取文档ID 列表的报告。
- 创建新的报告。添加筛选条件以找到您要使用的文档。
- 添加文档 ID 字段作为列。
- 运行报告并将结果导出至 CSV。
- 打开导出的文件。将文档 ID列的名称更改为 ID。
- 将文件保存为documentset.csv。
您的 CSV 文件不得包含 200,000 个以上的文档 ID。
使用文档 ID 方法让管理员能够选择任何文档来训练模型。我们强烈建议提供的 ID 包括用户可能会发送至文档收件箱的全部文档类型。TMF 机器人程序会对进入收件箱的每份文档进行分类。如果 TMF 机器人程序没有识别出特定文档类型,则文档可能会被错误分类。
您创建 documentset.csv 后,将该文档上传至您的训练模型记录中作为训练模型构建。
训练训练模型
您确定适当的文档集合方法以后,执行训练模型操作。根据提示选择适当的文档集合方法,然后点击开始。训练模型记录将移至“训练中”状态。
一项异步作业会追踪两类活动,作为训练的一部分:
- 文档提取:该过程中,系统会从特定文件集合中收集数据。输出为 CSV 文件 (document_extract_results.csv),管理员可从该文件中查看哪些文档能够用作输入文档,以及哪些文档未附加至训练模型构件中。提取完成后,Vault 会向开始该操作的管理员发送通知。
- 模型训练:该过程中,系统将使用 80% 提取数据建立机器学习神经网络模型,然后使用剩余 20% 数据对该模型进行测试。输出是一系列性能指标,包含在训练模型性能指标对象和训练模型构件的附加 CSV 中。训练完成后,Vault 会向开始该操作的管理员发送通知。
完成以上作业所需的时间各不相同,这取决于用作输入文档的文档数量:Vault 在 3,000 份文档上开展训练约需要 1 小时,在 200,000 份文档上开展训练约需要 24 小时。
模型训练完成后,训练模型记录将移至“已训练”状态。
使用生成数据在预先发布或沙盒环境中训练训练模型
您可使用用于评估目的的生产文档在您的预先发布或沙盒 Vault 中训练训练模型。您无法将生成的训练模型移至您的生产环境中。
两种文档选择方法均可使用:如果您使用文档 ID 的附加 CSV 方法,确保使用您的生产 Vault 中的文档 ID。
若要使用生产数据进行训练,运行从生产数据中训练模型操作。该操作仅可在预先发布和沙盒 Vault 中查看。
评估您的训练模型之后,您将需要再次在您的生产 Vault 中执行训练,以在生产 Vault 中开始使用 TMF 机器人程序功能。如果您使用文档 ID 的附加 CSV 方法选择文档,您可使用相同的文档列表在您的生产环境中创建类似的训练模型。
评估训练模型
有三种关键指标可确保您的训练模型的可行性:提取覆盖范围、自动分类覆盖范围和自动分类错误率。您可从您的训练模型记录的训练概述结果字段中查看此类指标。参见此类关键指标的定义和如何改进此类指标。
部署训练模型
评估您的训练模型以后,从训练模型记录中选择部署模型操作,查看相关提示以确保您同意其结果,然后点击开始。训练模型记录将移至“部署中”状态。
一项异步作业会追踪该训练模型在您的 Vault 中的部署:完成以上作业所需的时间各不相同,可为 30 分钟到 2 小时范围的任何时间。部署完成后,Vault 会向执行该操作的管理员发送通知。
部署作业完成后,训练模型将移至“已部署”状态,且添加至文档收件箱的文档将立即进行自动分类。
每种训练模型类型一次仅可部署一 (1) 个训练模型。
替换已部署的训练模型
若要使用新的训练模型替换部署的模型,只需部署新的模型即可。这会替换当前的活跃模型,并且不会中断自动分类。这是建议的替换模型的方法。
额外训练模型操作和详细信息
每种训练模型类型仅可包含五 (5) 个训练模型。如果您要训练第六个模型,Vault 将建议您开始训练额外模型之前先将模型归档。为实现该目的,选择训练模型记录的归档模型操作。训练模型记录将移至“已归档”状态。已归档模型不可撤回。
您也可通过处于“部署中”状态的训练模型的撤回模型操作删除已部署的模型和禁用自动分类。执行该操作后,训练模型记录将返回至“已训练”状态。
TMF 机器人文档质量控制
文档分类已训练模型也可以用于质量控制目的。TMF 机器人可以在工作流中预测文档。如果现有的分类与 TMF 机器人的建议不匹配,“文档信息”面板将向用户显示建议。随后,用户可以根据需要对文档重新分类。
文档质量控制可供文档本身使用,也可以与自动分类结合使用。这样,不使用文档收件箱的 Vault 就能受益于 TMF 机器人。
要启用此功能,请首先采用任何自动或手动训练方法部署一个已训练模型。随后,在任何文档工作流中包含一个 AI 文档 QC 系统操作步骤。您可以将此操作添加到现有的工作流,也可以设计一个只执行此操作的新工作流。当执行此操作时,系统会生成预测,用户将会看到建议。
关于预测对象
当部署训练模型并用于预测文档的数据时,预测对象将追踪每次预测操作。管理员可能不需要直接操作该对象,但是了解该对象字段会很有帮助。
- 预测 ID:用于该预测的唯一标识符,由 Vault 自动分配
- 关联记录唯一 ID:被评估文件的标识符,由 Vault 自动分配
- 关联记录:被评估文档的元数据,采用 JSON 格式。您可根据需要从此处找到 Vault 文档 ID,主要版本和次要版本。
- 预测:TMF 机器人程序此次尝试的预测数据,采用 JSON 格式。您可使用该字段了解预测是否失败以及失败原因;哪个训练模型用于进行预测,模型的第一、第二和第三个最主要预测以及相应的预测置信评分。如果第一预测评分高于部署的训练模型预测置信阈值,文档将通过该预测自动输入。也可通过自动输入 JSON 参数查看该操作。
- 反馈:预测后活动。该字段显示真值 JSON 参数中预测的数据的当前值,以及该值是否与真值匹配 JSON 参数中预测字段的第一预测相匹配。
- 其他详细信息:列出 Vault 生成预测的位置。这可能包括多个来源。例如,如果批量自动分类生成预测,并发送文档进行 QC 检查,则其他详细信息字段包含 BULK 和 QC_CHECK 值。
关于预测指标对象
当部署训练模型并用于预测文档的数据时,预测指标对象跟踪模型随时间的性能。预测指标作业生成跟踪总体数字以及以及具体的文档分类性能。您可以从训练模型页面布局中查看此对象,其中包含以下字段:
- 模型性能 ID:由 Vault 分配的唯一 ID
- 创建日期:计算预测指标的日期
- 指标类型:显示指标类型
- 指标子类型:显示的指标子类型
- 文档数量:用于测试此培训模型的文档数量
- 自动分类成功率:预测正确率高于所选训练模型置信度阈值的文档数数除以文档总数。
- 正确预测值:预测准确的次数
- 高于阈值的正确预测值:预测准确且高于所选训练模型置信度阈值
- 阈值以上的预测值:预测超过所选训练模型置信度阈值
预先发布 Vault 将使用生产 Vault 的文档自动训练模型。↩