训练机器学习模型

可同时部署多个训练模型吗?

如果属于不同的训练模型类型,您可部署多个训练模型。到目前为止,因为仅有一个训练模型类型,所以仅可部署一个训练模型。部署新的训练模型将替换现有模型。

TMF 机器人程序可重复接受训练吗?

您可根据您的需求使用不同的文档集合、不同的预测置信阈值或不同的每个文档类型的最少文件数值创建多个训练模型。您可在系统内进行部署之前审查和评估以上全部对象,以便您选出最佳的部署方案。

如果我们训练并部署模型,然后撤回模型,则夜间作业是否会检测到模型未被部署并试图自动训练和部署模型?

自动开启 TMF 机器人功能仅创建、训练和部署每个主要发布版本的训练模型。如果撤回模型,它将不会被重新部署。在下一个主要版本中,如果未有部署其他模型,或者如果部署了上一个版本的自动训练模型,则将创建、训练和部署新模型。

TMF 机器人程序可在其它情境中不同文档类型中存储的同类文档上接受训练吗?

我们已在将同类文档归入不同分类方面取得一些进步,尽管此类文档的置信度通常不够高,不足以 TMF 机器人程序进行自动文档分类。因非数据方面原因为同类文档设置不同的分类(文件内容或文件名中的信息会指明存储位置)在 TMF 机器人程序中的表现不太理想。

我们是否可以修改或添加用于训练机器学习模型的参数?

您可控制预测置信阈值(模型需要多大的置信度以在进行自动文档分类之前完成预测)和每个文档类型的最少文件数(模型对文档类型进行预测之前文档类型中需要有多少分文档);但是不可添加或修改其它参数。

我需要多少份文档以完成 TMF 机器人程序训练?

我们建议您至少使用 1,000 份稳定状态(已批准或最终稿)文档。一般而言,使用的文档越多,模型就会越准确。

我用于训练训练模型的文档数是否有限制或最佳数量?

训练模型对您可用于开展训练的文档数设有 200,000 份的限制。最佳文档数量是 200,000。如果您的文档数少于 200,000,您可使用尽可能多的文档。理想情况下,发送给训练模型的全部文档将进行 100% 正确分类。

我使用更多文档后,训练模型的准确度会不会提高?

一般而言,您向训练模型提供的文档越多,模型就会越准确。但是,这取决于预测置信阈值和您系统中的分类准确度。

训练训练模型是否会造成我的 Vault 运行缓慢?

否,不会。训练模型使用的队列和线程不同于 Vault 每日使用的队列和线程。

Vault 会在训练训练模型期间自动将文档集合分成训练集合和测试集合吗?

Vault 会自动将用于训练训练模型的信息分成训练集合和测试集合,其中 80% 为训练集合,20% 为测试集合。我们会分层管理文档类型,以确保对每个文档类型进行 80/20 的分类。

评估和用户验收测试

我应如何开展 TMF 机器人程序评估?

主要有两种方法可用于 TMF 机器人程序的评估:

  1. 在您的生产环境中创建和训练训练模型,并对训练完成后提供的结果进行评估。如果结果满足您的预期,则部署训练模型
  2. 使用从生产数据中训练模型操作在您的质保或沙盒环境中创建、训练和部署训练模型。验证自动分类是否正常运行。然后在您的生产环境中创建和训练训练模型并对训练完成后提供的结果进行评估。如果结果满足您的预期,则部署训练模型

我可以在沙盒环境中试运行 TMF 机器人程序吗?

可以,您可使用从生产数据中训练模型操作训练训练模型。但是您仍需要在您的生产 Vault 中训练训练模型,因为训练模型无法从沙盒或预先发布状态移至生产状态。

如果我不想使用 TMF 机器人程序,我应如何禁用该程序?

TMF 机器人程序会对全部 eTMF 客户自动开启,拥有超过 1,500 份稳定状态文档。若要禁用自动部署的模型,您需要通过撤回模型用户操作撤回模型。

上传文档

我是否仍可选择立即对文档进行分类?

是的。TMF 机器人程序会在文档收件箱内进行自动文档分类。但是,如果您选择使用上传页面的“现在分类”选项,您仍可手动进行文档分类。

TMF 机器人程序能否设置为仅对特定文档类型或用于特定研究的文档进行自动分类?

TMF 会自动将文档分类到您开展训练的文档类型中。但是我们不建议在数量较少的文档类型上开展训练,因为这可能会造成多份文档错误分类。您部署训练模型时进入文档收件箱的全部文档将进行自动分类。没有试点研究的概念,但是您可先开展少量研究以专门使用文档收件箱。

我是否需要以特定方式命名文件,以便 TMF 机器人程序正确进行自动文档分类?

否,不需要。我们看到过一些未定义命名约定的 TMF 机器人程序的成功案例。但是,拥有良好的命名约定是使 TMF 机器人程序更为准确的其中一个因素,尽管这不是一项要求。

TMF 机器人程序是否包含扫描文件或任何需要光学字符识别 (OCR) 的文件?

是的。TMF 机器人程序具有根据需要在上传的文件上执行光学字符识别 (OCR) 的表达管道。

TMF 机器人程序是否在进行自动分类时使用文档内的文本?

是的。TMF 机器人程序使用以下信息进行自动文档分类。

  • 页数
  • 字符数
  • 文件类型、文件大小
  • 文件名,
  • 文档中提取的文本

如果文档中有手写的文本,是否可用?

是的。我们的 OCR 通常会忽略手写文本,且 TMF 机器人程序会使用全部其它文本进行自动分类。

TMF 机器人程序是否可对电子邮件进行分类?

是的。我们看到 TMF 机器人程序在自动将电子邮件分类到相应关联沟通文件类型中的方面取得了重大成功。和全部自动分类情境一样,也有一些案例中置信度不够高,不足以 TMF 机器人程序对电子邮件进行自动分类。

自动分类后会发生什么

TMF 机器人程序完成自动文档分类后,谁会更新文档名称?

如果您使用文档类型自动命名功能,文档名称会自动更新。如果文档名称需手动设置,您需要在文档收件箱中完成文档时修改文档名称。

TMF 机器人程序如何处理安全配置文件?

用户必须对 TMF 机器人程序用于进行自动分类的文档类型拥有创建文档权限。同时,用户还必须拥有其权限集内的通用分类权限。

如果 TMF 机器人程序无法对文档进行自动分类,会以什么方式通知所有者?

因为我们设有 5 秒内完成自动文档分类的目标,所以我们不会通知所有者。相反,您可使用 TMF 机器人程序字段了解文档是否已完成 TMF 机器人程序的处理。如果程序已完成且没有自动分类,则用户可完成文档,选择适当的文档类型。

审计跟踪中是否会记录自动分类?

是的。审计跟踪将显示系统已更新文档的类型、子类型和分类。

TMF 机器人程序分类的文档的所有者是谁?

文档所有者仍是上传文档的用户。TMF 机器人程序只是在文档上传后更新了文档。

共享设置是否适用于文档收件箱中 TMF 机器人程序选中的文档?

是的。共享设置不受 TMF 机器人程序的影响。

TMF 机器人程序是否会将文档移至最终稿或已审批状态?

否,不会。TMF 机器人程序会对文档进行自动分类,但是在用户完成文档之前,文档仍位于文档收件箱中。文档的状态不会改变。

什么情况下文档会离开文档收件箱?

您必须完成文档,以将其移出文档收件箱。

我是否可查看 TMF 机器人程序提供的文档类型?

您可在完成文档之前在文件收件箱内查看文档的分类。

错误分类

如果 TMF 机器人程序选中了错误的分类,我是否可对文档进行重新分类?

是的。您可在文档收件箱内使用重新分类选项。

我是否可报告 TMF 机器人程序错误分类的文档(TMF 机器人程序自动分类以后,用户对文档进行了重新分类)?

预测指标对象跟踪有关模型性能的信息,可作为培训模型页面布局的一部分使用。您可以使用此对象在特定于分类和全局加权平均水平上创建预测指标报告。

我们还会在业务管理员中的预测对象中记录该信息。该对象不可在系统内进行报告,因为 Vault 以 JSON 字符串存储该数据。但是,该数据可导出至 Excel 并在 Excel 中进行处理。

当用户对 TMF 机器人程序自动分类的文档进行重新分类时,机器学习模式是否会进行相应更改?

机器学习模型不会根据重新分类进行更改,因为训练机器需要大量的时间。但是,我们会追踪该反馈,以便在未来版本中建议您重新训练机器学习模型。

未来功能

Veeva 是否计划将 TMF 机器人用于质量控制中?

是,我们仍然计划允许 TMF 机器人用于质量控制过程中,TMF 机器人可以在提交给质量控制审查员之前检查文档,如果发现问题,在质量控制审查员继续之前将这些问题发送回所有者以解决。此功能计划于 2022 年可用。

我是否可以使用 TMF 机器人来检查旧文档的分类?

这一改进已列入路线图。我们计划允许 TMF 机器人在整个研究中运行,并提供其认为被错误分类文档的详细信息。

TMF 机器人是否支持多种语言?

在初始版本中,仅英文文本的文档才能用于训练和自动分类。TMF 机器人可能在未来版本中支持非英语文档。

TMF 机器人什么时候能够自动对非英语文档进行分类?

虽然这在路线图上,但尚无具体的时间表。请注意,在某些情况下,TMF 机器人仍然可以自动对英语和其他语言的多语言文档进行分类。

Vault 平台中是否提供文档自动分类,以供其他 Vault 应用程序使用?

目前,文档自动分类功能专门针对临床运营。未来,我们可能会在其他 Vault 应用程序中看到更多的功能。

TMF 机器人能否确定文档是否是现有文档的新版本?

不能。我们已经为未来考虑过这一点,但现在还差得远。

TMF 机器人是否会填充研究、研究国家/地区和站点?

这一改进已在路线图上,但 TMF 机器人 (21R2) 的第一次迭代只包括自动分类。