医用画像のテストデータにおける画像データベースとゴールド・スタンダード

はじめに
テストデータにおける画像データベースとゴールド・スタンダード
おわりに
- Related posts:

はじめに

ソフトウェア（AI）医療機器、AI医療機器を作成するにおいて、そのもととなった医用画像は精度等に大きな影響を及ぼし非常に重要なものとなる。本記事では、経済産業省が発行する、「医用画像診断支援システム開発ガイドライン2019」を参考に、AIを作成する際にどのような画像の取扱いが必要であるかを記載する。

テストデータにおける画像データベースとゴールド・スタンダード

「医用画像診断支援システム開発ガイドライン2019」における、Appendix3.テストデータにおける画像データベースとゴールド・スタンダードを参考に記載を進める。

画像データベースとは？

画像データベースとは、画像そのもの（DICOM画像など）と、それに付帯する情報（所見情報などHISからとったもの）を合わせたものである。

データ取得元

単一の施設では収集できる症例数が限られるため、複数施設からの情報収集または、公共の画像データベースをもとに開発を進めることが好ましい。また、モダリティメーカの違い等、撮像機器の違いについても考慮しながらデータを収集することが好ましいと考える。

対象疾患の罹患率を調査する

対象となる疾患の罹患（りかん）率はAI精度の検証などにおいて非常に重要な指標となる。高い罹患率でない症例については、画像データベースを構築するために膨大な母集団の数を確保する必要がある。（1,000人に1人しかかからない疾患を1,000人分データを集めようと思うと、100万のデータが必要となる）

ゴールド・スタンダードの決定

ゴールド・スタンダード（GS）は、臨床研究において、「その症例が間違いなく、研究（AI）の対象となる疾患である」ないしは、「間違いなく疾患ではない」ことを証明するための証拠のことである。このGSが明確でないと、研究そのものの真偽が問われる。

AIにおいては、教師あり学習が採用されることが多い。教師あり学習を行う際のテストデータは正解を明確にすることが重要である。（AIにおいては、転移学習のため一般画像を利用して事前学習を行ったり、水増しのため画像加工をを行うことも多いため、ケースバイケースでの対応が必要）。画像のGSの決定には、以下方法などを利用することが好ましい。

手術又は生検で得られた組織・細胞の病理所見
病理所見と臨床判断（経過観察）の組合せ
臨床判断のみ
上位の診断システムの結果
専門医によるコンセンサス
ファントム実験やシミュレーション信号等既知のデータを用いる

このGSの作成を含む、評価系全体をもとに、医療機器認定の認証・承認がなされるため、取り扱いについては十分に注意する必要がある。

例えば、レントゲンの所見を判別するAIを作成する場合には、”４.　上位の診断システムの結果として、CTを利用すること”や、”５．専門医によるコンセンサスとして、3名以上の放射線医師の合議のもとで決定すること”をGSのデータとするといった対応が求められる。
　※最終的には、PMDAなどとすり合わせが必要である