人工知能と機械学習: 臨床試験データの自動化におけるイノベーション
人工知能と機械学習を使用して Study Data Tabulation Model (SDTM) データセットを自動化できるため、規制当局への申請用の高品質な CDISC 準拠のデータ パッケージの作成に必要な時間とリソースが削減されます。
人工知能(AI)とは?
AIとは、人間の知能をシミュレーションして、人間のように考え、人間の行動を模倣するようにプログラムされたアプリケーションです。この用語は、学習や問題解決など、人間の思考に関連する特徴を示すあらゆる機械に応用されることもあります。
機械学習(ML)とは?
機械学習は人工知能(AI)の応用であり、プログラムされることなくシステムが自動的に学習し、経験から改善する能力を提供するアプリケーションです。機械学習は、データにアクセスし、それを使うことで自ら学習できるコンピューター・プログラムです。
臨床試験データの自動化のプロセスを通じて、以下の項目を達成することができます:
- より高品質なデータ作成
- より低コスト
- 時間短縮
そしてこのプロセスを通じて、以下に繋げることができます:
- 研究開発における高い投資対効果(ROI)
- 利益率の増加
- より良い患者ケア
人工知能と機械学習を使用して SDTM データセットを自動化できるため、規制当局への申請用の高品質な CDISC 準拠のデータ パッケージの作成に必要な時間とリソースが削減されます。この AI モデルは、統計プログラマーがデータセットの解析に手動でプログラムした結果を検証するために、AI が比較用の検証データセットを生成したことが最初に行われました。
現在、この AI モデルは追加のトレーニング データセットを使用して継続的に改良されています。 SDC は、臨床試験データの収集、管理、分析、レポート作成における主要なプロセスを自動化する AI および ML モデルを開発しています。
AI および ML モデルは、次の 3 段階のプロセスを通じて SDTM データセットを自動化するために開発されました。
- SDTM 変数を予測します。
機械学習 (ML) モデルは 12 のトレーニング データセットを使用してトレーニングされ、観察されたデータ結果に基づいて対応する SDTM ドメインと SDTM 変数を予測しました。このモデルは、臨床データベース及び EDC (Electronic Data Capture) の変数名が SDTM 変数名とどの程度一致するかを測定するために使用されました。類似性による名前マッチングは、ML と組み合わせた場合とMLが有効でない場合(例えばイエス/ノーなどのバイナリ データ) など、ML が効果的でない場合には単独で使用されました。
ML と類似性を組み合わせて、観測されたデータ結果に関連する SDTM ドメインと SDTM 変数の両方のベースライン予測を生成しました。
- フィールドの検証および導出:
SDTM のドメインと変数が予測されると、モデルは関連する参考資料(CDISC SDTM Implementation Guide および CDISC SDTM Controlled Terminology)をチェックして検証し、現在の提出手順に基づいて提出します。もう 1 つのモデルは、観察された値が、適切な書式設定を含めるために、SDTM 変数の CDISC コードリストの値を参照して、
参照資料で期待されるものと一致することを検証します。
- SDTM データセットと CRF の作成:
最後のステップでは、モデルは SDTM データセットと、各フィールドのドメインと変数名を示す SDTM 注釈付き症例報告書(CRF)を自動的に生成します。これを行うために、プログラムは臨床データベースの CRF をスキャンして EDC 変数名を見つけ、それらを前のステップで予測、検証、導出した SDTM 変数名と照合し、適切な SDTM 変数名を対応する変数に隣接して注釈付けします。