世界最大の医療サービスプロバイダーである英国民保健サービス(NHS)は他に類を見ない量の医療データを有している。科学者や研究者はこうしたデータを活用することで、病気の治療/予防方法の発見でNHSを支援できるようになるはずだ。
しかし実際のところ、これまでNHSの患者データは必ずしも研究者らが望むようなかたちでアクセスできるようにはなっていなかった。
ところが新型コロナウイルス感染症(COVID-19)による喫緊の脅威を前にして、この病気での致死率が特定の人々に偏っている理由や、患者の服用している薬が重篤な症状を引き起こすかどうかといった疑問に対する答えを見つけ出す上で、NHSの膨大なデータに研究者らができる限り迅速にアクセスできるようにする必要が生じてきた。
COVID-19との戦いという状況のなか、オープンソースの新たなアナリティクスプラットフォームである「OpenSAFELY」により、NHSが有する膨大な数の人々の医療記録を研究者らが利用できるようになった。研究者らはOpenSAFELYを通じて、何百万人分もの電子医療記録(EHR)の分析を実施できる。こうした記録には、2400万人分の匿名化されたプライマリーケア(一次診療)のデータがすべて含まれており、近いうちにさらに多くのデータが追加される予定だ。分析ソフトウェアはセキュリティの検証や、科学的な検証、再利用が可能となっている。これらのツールはPythonやSQL、「Docker」を利用しており、「Stata」や「R」による統計分析も可能だ。また、こういったコードや分析はすべてGitHubを通じて管理される。
OpenSAFELYは、NHSイングランドがデータ統制者の役割を担うなか、オックスフォード大学やロンドン大学衛生熱帯医学大学院、TPPをはじめとする医療記録会社の協力の下、わずか5週間で開発された。OpenSAFELYのようなアナリティクスプラットフォームを作り上げるというアイデアはCOVID-19のパンデミックが発生する前からあったとはいえ、この病気の脅威と、NHSの有するデータの価値に対する理解によって、同プロジェクトに弾みがついた。それと同時に、NHSのヘルスサービスのテクノロジー/デジタル部門であるNHSXからのCOPI通知により、COVID-19のパンデミック中における患者データにまつわる情報統制が簡素化された。
オックスフォード大学のEvidence-Based Medicine(EBM)DataLabのディレクターであるBen Goldacre氏は「かつてない規模のデータにアクセスする必要があったものの、そのためには従来よりもはるかにセキュアなモデルを考え出さなければならなかった」と述べた。
セキュリティやプライバシーにまつわる問題は過去において、NHSのデータをリサーチに用いる道を模索するプロジェクトに影を投げかけていた。つまり医療データは極めて慎重な取り扱いが要求されるため、「個人を特定できない」よう、すなわち「匿名化」して、リバースエンジニアリングによる個人情報の特定を不可能にする必要があった。これがOpenSAFELYにとって重要な問題だった。
このため、OpenSAFELYは一連の階層化されたテーブルを用い、それぞれの階層で個人の情報を削減していくことで、研究者が実世界のイベントレベルに合致した患者の生データに対するデータベースクエリーを発行できないようにした。