- HOME
- 数理モデルを用いたインフルエンザ感染過程分析『米国科学アカデミー紀要 (PNAS)』論文紹介
2022年1月19日 18:00
新型コロナウィルスが2020年から猛威をふるっていますが、インフルエンザも毎年世界中で流行が起こる大きな問題です。本記事では学校がインフルエンザの流行にどの程度寄与するのか定量的に分析した研究について、NTTデータ数理システムの林さんに紹介してもらいます。
本研究はその成果を論文として学術誌『米国科学アカデミー紀要 (PNAS)』へ投稿し採択されたものです。林さんは、作成したチュートリアル資料「ベイズ統計学の概論的紹介」を見た主著者の遠藤さんに機械学習(特に情報量規準関係)に明るいとご認識いただき、インターネット上での交流があったことをきっかけに本研究に参加しました。
NTTデータ数理システム シミュレーション&マイニング部に所属。在職中にベイズ機械学習の統計的学習理論を専攻して博士(理学)を取得。 統計解析や機械学習を用いた受託分析に従事しており、お客様の課題に即したデータ分析やモデル開発に取り組む。
研究の背景を教えてください
学校という場では様々な家庭の子供が集うことで感染が発生して、それが家庭などに持ち帰られて広まっていくため、感染症拡大の過程における学校での挙動を解明することは重要と考えられます。しかし、医療機関内の感染に比べると学校内のデータはあまり収集されておらず、あっても1~2校といった小規模なものであり、クラスサイズや学年ごとのクラス数などそれぞれの学校特有の特徴と感染の関係は明らかにされていませんでした。
松本市の学校において以前大規模な調査が行われており、2014-2015年における29の小学校でのインフルエンザの感染データを得ています。1万人スケールの児童の感染データで、発症次第その人が感染したインフルエンザの型や発症期間、感染症対策実施の有無を問うたデータと、流行収束後に全児童に対して感染の有無も合わせて問うたデータから構成されます。前者は出席停止手続きに合わせて収集したこともあり、95%近い高い回収率を達成しており、後者も85%の回収率でした。また、データ中、少なくとも児童の感染については全例で医師による診断(うち95%以上では検査によるインフルエンザウィルス陽性確認)が行われており、規模と信頼性共に高いデータセットが得られています。
そこで、学校内におけるインフルエンザの感染過程について、学校の特徴や感染症対策の有無などの児童の特徴と感染の関係を分析することにしました。
どのような方法で分析したのですか?
感染過程全体を学校内・家庭内・その他のコミュニティに分けました。先行研究では以前の研究で、もう一つの重要な感染経路である家庭内感染についてインフルエンザを対象に定量分析していました。家庭内は先行研究のモデルを用い、その他のコミュニティについては松本市と学校の感染ピークがほぼ同時という仮定の下で、児童の感染データ全体をロジスティック曲線に適合させました。
学校内感染ではある時点においてある生徒が別の生徒からインフルエンザを感染させられるリスクを再生過程モデルで表現し、その中にクラス内外や学年内外での感染させやすさのパラメータを導入し、クラスサイズや学年ごとのクラス数、児童の属性、更にマスクやワクチンなどの感染対策の寄与項を設けました。
このように作成した数理モデルを用いてベイズ推論を行い、事後分布からのサンプルそれぞれに対して再生産数を計算して再生産数の分布を得ました。再生産数の分布の代表値としては中央値を用いました。また、より適切なサブモデルがないかを判定するべくラプラス近似を用いて計算した周辺尤度によるモデル選択を実施しました。
活用した技術について
数理モデリング(再生方程式と生存分析)
再生方程式と生存分析を参考に、これらを組み合わせたような数理モデルを構築。
再生方程式は現時点より前に起きた事象が現時点における事象の発生に及ぼす影響をモデル化したものであり、疫病の広がりだけでなく、人口の再生産や機械の故障に対する解析にも用いられる。
生存分析はある時点からある事象が発生するまでの期間を予想・分析するものであり、疾病の発症だけでなく、サービス利用の継続/離反や機械の故障までの期間に対する分析にも用いられる。
ベイズ推論(MCMCによる事後分布計算)
統計的推論の方法の一つであり、パラメータにも確率分布を設定しておき(事前分布)、データが与えられた下でのパラメータの確率分布(事後分布)を求めるという分布推定が特徴的である。事後分布を閉形式で書ける形で求められることはマレであり、通常は様々な方法で近似的に求める。マルコフ連鎖モンテカルロ法(MCMC)により事後分布そのものではなくそれに従うサンプルを多数発生させ、そのサンプルを推論結果として活用した。
ラプラス近似
積分の近似計算技術の一つであり、ここでは周辺尤度というベイズ推論においてモデルを知識発見の意味で評価する際に用いられる量を計算する際に適用した。周辺尤度は直接計算することが難しい積分で定義されているが、ある「簡単な」クラスのモデルに対してはラプラス近似で計算することができる。有名な例としてはベイズ情報量規準(BIC)の導出が挙げられる。
分析した結果、どのようなことが分かりましたか。
クラスサイズとしては20-40人の範囲でほとんど再生産数は変わらず、クラスサイズが感染リスクに与える影響は見られませんでした。一方、学年ごとのクラス数が増えると同クラス内への感染がやや減少する代わりに同学年別クラス間の感染リスクが増加する結果が得られました。これはクラスサイズに対して単調に人口密度が増大しないことや、学校という場における児童の行動様式としてクラスサイズに依らず一定の少人数で固まって行動する傾向がある可能性が理由として考えられます。
感染症対策としてはワクチン接種やマスク着用は有意に効果を発揮していた一方、手洗いの実施は逆に感染リスクを高めてしまっていました。これはデータとして手洗いと感染が共起したものが多かったことが直接的な原因ですが、このようなデータが得られた理由として考えられるのは、学校における手洗い運動の結果かえって手洗い場付近で児童が密になり、そこで感染が発生した可能性が挙げられます。
感染過程の割合としては全体で学校内感染が半数程度、家庭内が4割程度、それ以外がその他という形で得られ、確かに学校内感染がインフルエンザの流行において大きなウェイトを占めていました。時系列変化としては冬休み期間中は学校で児童が会することがないために家庭内感染が主要となっていました。
学校内で得られた再生産数の中央値そのものは1未満であり、これは学校だけであればインフルエンザは学校内ですぐに収束していくことを意味します。実際には家庭やその他コミュニティにおいても児童が社会とインタラクションを持つため、それらを合わせて感染が拡大する現象が発生しています。
研究結果は他の感染症にも同様に言えるのでしょうか?
少なくともインフルエンザについてその重要な感染過程である学校内感染については上記のことが言えましたが、感染症ごとに感染経路も異なり、場所や人間の属性が変われば行動も変わるため、一般の感染症について人口密度が再生産数に関与しないなどの本研究結果を一般化して断ずることはできません。また、本研究は観察研究であるため、実際に感染症対策として分散登校などの介入を行った訳ではなく、そのため介入ありのデータに対して必ずしも同様の結果が得られるとは限りません。仮に同様の感染過程が生じる場合は、クラスサイズの大小は感染リスクに寄与しないため、分散登校の実施などよりワクチン接種やマスク着用の普及を行う方が対策として効果的であると考えられます。
本研究についての論文はこちら
Within and between classroom transmission patterns of seasonal influenza among primary school students in Matsumoto city, Japan
[著者] Akira Endo, Mitsuo Uchida, Naoki Hayashi, Yang Liu, Katherine E. Atkins, Adam J. Kucharski, and Sebastian Funk
[掲載誌・学会名] Proceedings of the National Academy of Sciences of the United States of America (PNAS)
[URL] https://www.pnas.org/content/118/46/e2112605118
シミュレーションマイニング部所属。統計解析や機械学習を用いた受託分析に従事し、お客様の課題に即したデータ分析やモデル開発に取り組む。
在職中にベイズ機械学習の統計的学習理論を専攻して博士(理学)を取得。
プロフィール詳細、研究業績などは下記の個人ページをご参照ください。
http://nhayashi.main.jp/index.html