ドキュメントの自動分類などの TMF ボット機能を利用するには、教育訓練モデルを教育訓練し、展開する必要があります。この教育訓練を使用すると、機械学習モデルは入力データから学習することができ、データをインテリジェントに処理する準備ができます。

Vault は、1,500 件以上の固定状態ドキュメントを持つすべての eTMF Vault に、教育訓練モデルを自動作成します。教育訓練モデルが展開されていない場合、Vault はモデルの展開も行います。このプロセスはリリースごとに行われるため、(例えば新規のドキュメント タイプを反映させたり、結果を改善したりするために) お使いの教育訓練モデルを更新したい場合は、常にここで説明されているプロセスに従って教育訓練、評価、および展開する必要があります。

現在、ドキュメント分類 タイプは訓練済モデルタイプに対してのみ利用可能であり、allowing ドキュメントインボックス内のドキュメントの自動分類と、手動ドキュメント分類の品質管理が可能です。

自動教育学習モデルの仕組み

TMF ボットは、1,500 個以上の固定状態ドキュメントを持つすべての eTMF のお客様に自動的に提供されます。システムがドキュメント分類教育訓練モデルを作成、教育訓練、および展開するプロセスは以下の通りです:

  1. 自動教育訓練モデルジョブは、毎日午前 1:00 (米国東部時間) に、すべての本番およびプレリリース 1 の Vault に対して実行されます。このジョブは以下の点をチェックします:
    1. 前回のメジャーリリース以降、システムで作成されたモデルがない
    2. 当該の Vault 内に少なくとも1,500 個の固定状態ドキュメントがある
  2. このジョブは、予想確実性基準値を .95 に設定し、教育訓練に使用するドキュメントの数に基づいて、ドキュメントタイプごとの最小ドキュメント数に適切な値を設定して、教育訓練モデルを作成します
  3. このモデルの教育訓練には、以下のカテゴリーに該当する最新のドキュメントバージョン (バージョン作成日に基づく) が使用されます:
    1. 固定状態 (承認済み/最終)
    2. バインダーではないもの
    3. TMF ドキュメントまたは最終 CRF ドキュメントタイプではないもの
    4. 「評価済み、未選択の施設」にマッピングされたドキュメントタイプではないもの
    5. ドキュメントにはページがあります
  4. この Vault に既に展開されたモデルがある場合、自動学習モデルは教育訓練状態のままですが、そうでない場合は教育訓練終了後に自動展開されます。
  5. 自動教育訓練モデルが展開されると、インボックスにアップロードされたドキュメントは、TMF ボットによって自動分類されます。

メジャーリリースごとに、新規の自動教育訓練モデルが作成され、教育訓練が実行されます。現在、前のリリースの自動教育訓練モデルを使用している場合、Vault はこの新規のモデルを自動展開し、古い学習モデルを置き換えます。これにより、ドキュメント階層を表す最新のドキュメントで確実にシステムが教育訓練されます。

eTMF のお客様の数により、メジャーリリースのたびに、自動教育訓練およびモデルの展開に 1 ~ 3 日かかることがあります。

モデルの教育訓練方法

すべての機械学習ツールのように、TMF ボットには、自分でタスクを実行する前に学習するための入力が必要です。一般に、入力の量が多くかつ正確な方が、優れたモデルが生じます。Vault は、教育訓練モデルオブジェクトレコードに蓄積された入力を保存します。

予想確実性

Vault は、予想確実性スコアを使用して、TMF ボットの予想がどの程度正しいかを示します。これは、0 (誤っている可能性が高い)と1 (正しい可能性が高い) の間の値で表されます。入力データが正しいほど、予想確実性は高くなります。Vault は、予想確実性スコアを予想オブジェクトレコードに保存します。

予想確実性基準値

Vault は、教育訓練モデルレコードに予想確実性基準値フィールド値を使用し、システムがその予想を使用する前に必要なスコアを判断します。例えば、自動分類の場合、予想確実性基準値の値が 0.95 で、ドキュメントインボックスにアップロードされたドキュメントの予想確実性が 0.9728 の場合、Vault はそのドキュメントを自動分類します。

ドキュメント分類教育訓練モデルの作成

教育訓練モデルを作成する前に、以下の制限を慎重に検討する必要があります:

  • Vault では、管理者が本番環境のドキュメントを使用して、プレリリース環境またはSandbox環境でモデルを教育訓練し、教育訓練プロセスを検証することができます。ただし、これらのモデルを本番環境の Vault に移行することができないため、教育訓練モデルは Production 環境でも作成し、教育訓練を行う必要があります。
  • ドキュメントの特定のカテゴリを自動分類したり、モデル教育訓練に使用したりできません。ここには以下が含まれます。
    • ビデオおよびオーディオファイル
    • ZIP ファイル、統計ファイルまたはデータベースファイルなどのテキスト以外のファイル
    • 英語以外のドキュメント部分的にのみ英語のドキュメントをモデル教育訓練に使用することができます。
    • 例えばテキストが不鮮明な場合など、Vault がテキストを抽出できないドキュメント。
  • 機械学習モデルを教育訓練するには、承認済み最終などの固定状態にあるドキュメントを 3,000 以上使用することが推奨されます。1,000~3,000 ドキュメントで Vault に TMF ボットを使用することができますが、予想の質を限定する可能性があります。
  • 入力データが誤って分類されたドキュメントの場合、予想は悪影響を受けます。例えば、リーガル > 契約 > ベンダー として分類されておくべき複数のドキュメントが リーガル > アグリーメント > 外部と分類されている場合、TMF ボットはそれらのドキュメントタイプの予想確実は低くなります。

教育訓練モデルオブジェクトレコードの作成

  1. 管理者 > 企業管理者に進み、教育訓練モデルオブジェクトをクリックします。
  2. 作成をクリックします。
  3. 教育訓練モデルタイプについて、ドキュメント分類を選択します。
  4. 予想確実性基準値を入力します。
    • TMF ボットは、自動分類にこの基準値以下の予想を使用しません。Vault では 0~1 の値を使用できますが、0.9 以上の値を使用することが推奨されます。
    • 教育訓練モデルの送信後は、この値を変更することはできません。
    • 一般に、数字が大きいほうが正確な分類となりますが、ドキュメントが少ない場合は自動分類することができます。詳しくは評価をご確認ください。
  5. 教育訓練期間の教育訓練方法を使用する場合には、状況に応じて教育訓練期間開始日を設定します。
  6. モデルパラメータで、ドキュメントタイプごとの最小ドキュメント数を設定します。
    • ドキュメントタイプがこの最小ドキュメント数未満の場合、自動分類されません。最小ドキュメント数が大きい場合は予想確実が良くなりますが、自動分類からさらにドキュメントタイプが除外されます。
      • 1,000 個から 10,000 個のドキュメント = 10
      • 10,000 個から 25,000 個のドキュメント = 15
      • 25,000 個から 50,000 個のドキュメント = 25
      • 50,000 個から 100,000 個のドキュメント = 50
      • 100,000 個から 150,000 個のドキュメント = 75
      • 150,000 個から 200,000 個のドキュメント = 100
    • 高機能モデルパラメータフィールドはシステム管理されるため、ユーザが設定する必要はありません。
  7. 保存をクリックします。

教育訓練モデルオブジェクトレコードを作成したら、教育訓練方法を選択します。

ドキュメントセット方法の選択

モデルを教育訓練するには、この教育訓練モデルの入力データとして使用するためのドキュメントを取り込む方法を選択する必要があります。これには 2 つの方法があります: 教育訓練期間開始日およびドキュメント ID の添付 CSV。

教育訓練期間開始日

教育訓練期間開始日を指定すると、アーカイブされたドキュメントが無視される既知の問題がります。アーカイブされたドキュメントの教育訓練をしたい場合は、ドキュメント ID の CSV を添付する方法を使用する必要があります。

この方法は、承認済みや最終などの固定状態にあり、バージョンの作成日が教育訓練期間開始日と現在の日付の間であるすべてのドキュメントを取り込みます。この条件に当てはまるドキュメントが 200,000 個以上ある場合、Vault は最新の 200,000 個のドキュメントを使用します。この方法を選択する場合、教育訓練モデルレコードの教育訓練期間開始日の値が入力されていることを確認します。

ドキュメント ID の添付 CSV

この方法はドキュメント ID のリストを使用します。ドキュメント ID は、ドキュメントに対する Vault の固有の識別子で、これを使うと管理者は、教育訓練モデルを教育訓練するために使用するドキュメントリストをカスタマイズすることができます。ドキュメント ID のリストを生成するどのようなプロセスも使用できる一方、以下の手順によってドキュメント ID のリストを取得するためのレポートが作成されます:

  1. 新規レポートを作成します。使用したいドキュメントを検索するためのフィルタを追加します。
  2. ドキュメント ID フィールドを列として追加します。
  3. レポートを実行して CSV に結果をエクスポートします。
  4. エクスポートしたファイルを開きます。ドキュメント ID 列の名前を ID に変更します。
  5. ファイル名を documentset.csv として保存します。

CSV ファイルに 200,000 個以上のドキュメント ID を含めることはできません。

ドキュメント ID 方法を使用することで、管理者はモデルの教育訓練に任意のドキュメントを選択することができます。提供される ID には、ユーザがドキュメントインボックスに送信する可能性のあるすべてのドキュメントタイプを含めることが強く推奨されます。TMF ボットは、インボックスに送られたすべてのドキュメントを分類しようとしますが、特定のドキュメントタイプを学習していない場合、そのドキュメントは誤って分類される可能性があります。

documentset.csv を作成したら、教育訓練レコードに教育訓練モデル階層としてアップロードします。

教育訓練モデルの教育訓練

適切なドキュメントセット方法を決定したら、モデルの教育訓練アクションを実行します。プロンプトが表示されたら、適切なドキュメントセット方法を選択して、開始をクリックします。教育訓練モデルレコードは教育訓練済み状態に移動します。

非同期的ジョブが教育訓練の一部として 2 つの活動を追跡します:

  1. ドキュメントの抽出: このプロセス中に、システムは指定されたドキュメントセットからデータを収集します。出力データは CSV ファイル (document_extract_results.csv) で、管理者は入力データとして使用できるドキュメントと、教育訓練モデル階層に添付されないドキュメントを確認することができます。Vault は、抽出が完了したらアクションを開始した管理者にシステムメッセージを送信します。
  2. モデルの教育訓練: このプロセス中に、システムは抽出データの 80% を使用して機械学習のニュートラルネットワークモデルを構築し、残る 20% を使用してそのモデルをテストします。出力データは、教育訓練モデル階層教育モデルパフォーマンス指標オブジェクトと添付 CSV 両方のパフォーマンス指標の数字です。Vault は、教育訓練が完了したらアクションを開始した管理者にシステムメッセージを送信します。

これらのジョブにかかる時間は入力データに使用されるドキュメント数によって異なります: 3,000 ドキュメントを教育訓練する Vault の場合は約 1 時間、200,000 ドキュメントを教育訓練する Vault の場合は約 24 時間かかります。

モデルの教育訓練が完了すると、教育訓練モデルレコードは教育訓練済み状態に移動します。

プレリリースまたは Sandbox 環境での本番データを使用した教育訓練モデルの教育訓練

お使いのプレリリースまたは Sandbox Vault では、評価を目的として、本番ドキュメントを使用して教育訓練モデルを教育訓練することができます。その結果作成される教育訓練モデルを Production 環境に移行させることはできません。

ドキュメントの選択方法はいずれの方法も利用可能です。ドキュメント ID の CSV を添付する方法を使用する場合は、必ず本番 Vault のドキュメント ID を使用してください。

本番データを使用して教育訓練を行う場合は、本番データからのモデルを教育訓練するアクションを実行します。このアクションは、プレリリース Vault および Sandbox Vault でのみ表示されます。

教育訓練モデルの評価後、本番 Vault の TMF ボット機能の使用を開始するには、お使いの本番 Vault で教育訓練を再度行う必要があります。ドキュメント ID の添付されている CSV を使用すると、お使いの本番環境で同様の教育訓練モデルを作成することができます。

教育訓練モデルの評価

教育訓練モデルが実行可能であることを確保するために 3 つの主要な指標があります: 抽出範囲、自動分類範囲、自動分類エラー率。これらは、教育訓練モデルレコードの教育訓練概要結果レコードに表示されます。これらの主要指標およびその改善方法をご覧ください。

教育訓練モデルの展開

教育訓練モデルが評価できたら、教育訓練モデルレコードのモデルの展開を選択し、プロンプトを確認して結果に同意し、開始をクリックします。教育訓練モデルレコードは展開済み状態に移動します。

非同期的ジョブが、Vault でこの教育訓練モデルの展開を追跡します。これらのジョブにかかる時間はさまざまで、30 分~2 時間かかる場合があります。Vault は、展開が完了したらアクションを実行した管理者にシステムメッセージを送信します。

展開ジョブが完了したら、教育訓練モデルレコードは展開済み状態に移動し、ドキュメントインボックスに追加されたドキュメントには直ちに自動分類が開始されます。

一度に教育訓練モデルタイプごとに展開できる教育訓練モデルは 1 つだけです。

展開済み教育訓練モデルの置き換え

新しいモデルを展開するだけで、展開済み教育訓練モデルを新しい教育訓練モデルに置き換えることができます。現在の有効なモデルが新しいモデルに置き換わり、自動分類は中断されません。これはモデルの置き換えに推奨される方法です。

その他の教育訓練モデルのアクションおよび詳細

教育訓練モデルタイプごとに持てる教育訓練モデルは 5 つのみです。6 つ目を教育訓練しようとすると、Vault は新たに教育訓練を行う前にモデルを 1 つアーカイブするように助言します。そのためには、教育訓練モデルレコードでモデルのアーカイブアクションを選択します。教育訓練モデルレコードはアーカイブ済み状態に移動します。アーカイブ済みモデルは復元できません。

展開済み状態の教育訓練モデルモデルの取り下げアクションを使用すると、展開済みモデルを削除したり、自動分類を無効化したりすることができます。そうすると、教育訓練モデルレコードは教育訓練済み状態に戻ります。

TMF ボットによるドキュメント品質管理

ドキュメント分類訓練済モデルは品質管理目的でも使用できます。TMF Bot はワークフローの一部としてドキュメントに関する予測を行うことができます。既存の分類が TMF ボットの提案に一致しない場合、ドキュメント情報パネルがユーザに表示されその提案を見ることになります。ユーザは必要に応じてドキュメントを再分類できます。

ドキュメント品質管理はそれ単体または自動分類と一緒に使用できます。これにより Vaults がドキュメントインボックスを使用して TMF ボットの利点を得ないように設定できます。

これを有効にするには、まず自動または手動の訓練方法をもって訓練済モデルを展開します。次に、任意のドキュメントワークフロー内の AI ドキュメント QC システムアクション追加します。これを既存のワークフローに追加するか、このアクションのみを実行するワークフローを新規設計できます。アクションが実行されると、予測が生成され、ユーザは提案を利用できるようになります。

予想オブジェクトについて

教育訓練モデルが展開され、ドキュメントのデータ予想に使用されると、予想オブジェクトは個々の予想の試みを追跡します。管理者がこのオブジェクトで直接作業する必要性が生じる可能性は低いですが、オブジェクトフィールドを理解するためには有用であると思われます。

  • 予想 ID: その予想の固有識別子で、Vault によって自動的に割り当てられます
  • 関連レコード固有 ID: 評価されるファイルの識別子で、Vault によって自動的に割り当てられます
  • 関連レコード: 評価されるドキュメントのメタデータで、形式は JSON。ここでは必要に応じて Vault ドキュメントバージョン ID、メジャーバージョン、およびマイナーバージョンを確認することができます。
  • 予想: TMF ボットからのこの思考の予想データで、形式は JSON。このフィールドは、予想が失敗したかどうかとその理由、予想に使用された教育訓練モデル、モデルからの上位 1 位、2 位、3 位の予想とそれらの予想確実性スコアを把握するために使用することができます。firstPrediction スコアが展開されている教育訓練モデル予想確実性基準値を上回る場合、ドキュメントはその予想で自動入力されます。これは自動入力された JSON パラメータと一緒に表示することもできます。
  • フィードバック: 予想後のアクティビティ。このフィールドには、trueValue JSON パラメータで予想されるデータの現在の値と、値が trueValueMatch JSON パラメータの予想フィールドの対応する最初の予想と一致するかどうかを表示します。
  • 追加詳細: Vault が予想を生成する場所を一覧表示します。これには、複数のソースが含まれる場合があります:たとえば、一括自動分類によって予想が生成され、QC チェックのためにドキュメントが送信される場合、追加の詳細フィールドには、BULK と QC_CHECK の値が記載されます。

予想指標オブジェクトについて

教育訓練モデルが展開され、ドキュメントのデータ予想に使用されると、予想指標オブジェクトは時間の経過に伴うモデルのパフォーマンスを追跡します。予想指標ジョブは、全体的な数値とドキュメント分類固有のパフォーマンスを追跡するレコードを生成します。このオブジェクトは、教育訓練モデルページレイアウトから表示でき、次のフィールドが含まれています:

  • モデルパフォーマンス ID: Vault によって割り当てられた一意の ID
  • 作成日: 予想指標の計算日
  • 指標タイプ: 表示される指標のタイプ
  • 指標サブタイプ: 表示される指標のサブタイプ
  • ドキュメント数: 訓練済モデルのテストで使用されたドキュメントの数
  • 自動分類成功率: 選択した訓練済モデルの信頼度基準値を超える正しい予想を持つドキュメントの数を、ドキュメントの総数で割った値
  • 正しい予想: 予想が正確であった回数
  • 基準値を超える正しい予想: 予想が正確であり、かつ選択されたトレーニング済みモデルの確実性基準値以上であった回数
  • 基準値を超える予想: 予想が選択されたトレーニング済みモデルの確実性基準値以上であった回数
  1. プレリリースの Vaults は、本番 Vault のドキュメントを使用してモデルの自動教育訓練を行います。