
こんにちは、現在私たちは都内の二輪事故の要因分析を行い、警視庁交通部の方に結果を報告してまいりました。本記事では研究室が行っている活動を対外的に示す試みとして、発表した内容と途中経過をご報告します。※この記事は修士四名による協働作成記事です。
プロジェクトの概要
この取り組みは市川研究室に所属する修士一年生が専門外の交通事故に対してデータサイエンスを行うという活動の成果物の一部です。このプロジェクトの目的は、「どういった条件・状況が揃うと二輪事故が起こりやすいのか?」、「二輪事故発生に寄与するものとは何か」を明らかにすることです。用いるデータは統計警視庁から公開されている『交通事故統計情報のオープンデータ』(注1)の他に、必要に応じてインターネットから収集しています。今回実践した手法は大きく分けて二つのアプローチに分類できます。
- 統計手法に基づくアプローチ
- 基礎的な記述統計
- 事故類型の分類モデル
- 死亡事故に紐づく要因の因果推論
- 地理情報システムに基づくアプローチ
- 施設と事故発生点の距離の関係性探索
(注1) 警察庁公開統計資料 2019~2021年の東京都のデータを使用
統計分析について
記述統計について
さまざまな分析を行うにあたり、まずは分析対象となるデータの概観からデータの特徴、傾向などを把握することが統計分析においては重要であるとされています。そこで今回は、Pythonを用いてデータの各系列における傾向や特徴を把握することを最初に行いました。これは統計分野において記述統計と言われる部分になります。これから統計に関する分析を行いたい、という方はぜひ覚えておくことをお勧めします。以下は今回の記述統計の結果の一部になります。今回は各系列の可視化を行なっていますが、記述統計を行うとデータのさまざまな情報を得ることができます。記述統計を行なって何が得られるのか、ご自身でもぜひ調べてみてください。(M1 中嶋)

事故類型の分類モデル
ここでは二輪車の交通事故要因を掴むことを目的としています。そこで、多項ロジスティック回帰分析により二輪事故の事故類型(人身事故、車両相互事故、車両単独事故)の要因を探ろうと考えました。多項ロジスティック回帰分析は、多重ロジスティック回帰という概念を引き継いでおり、これは目的変数が有り/無しといった二値で表される場合に、どちらになりやすいのかを説明変数から予測するといったものになります。多項ロジスティック回帰分析は、目的変数が3項(3カテゴリー)以上の場合に用いることができます。詳しく知りたい方は、ロジスティック回帰、重回帰についても併せて調べてみてください。
今回の分析では、天気や季節、事故発生地点の信号機の有無といった外部環境と当事者の年齢などの当事者特性を説明変数としてモデルを構築しましたが、元データに偏りがあったこととデータ数が十分とは言い難いことから、あまり精度の良いモデルとはなりませんでした。しかし、こういった分析というのはただ結果が得られなかった、結果だけ出たから満足、というものではなく、その分析をどう考察するのかが醍醐味だと思いますので、今後の分析へ今回の結果から得られたことを得られたことを繋げていきたいと思います。(M1 中嶋)

因果推論について
前述した予測回帰モデルを用いた要因探索の他に、統計の力を用いて因果を探索する手法をここでは実践しています。統計的因果探索の中でも、LinGAMの派生であるDirect-LiNGAMモデルを用いて分析しています。このモデルは医療分野で活用されることが多く、直接的因果推論法と呼ばれているもので詳しい解説はここでは省略しますが、因果の順序を明らかにすることできます。例えば、「A:お小遣い」と「B:子どもの使用した金額」の関係は、Aが増えればBが増えるとは言えますが、Bが増えればAが増えるとは言い切れません。こういった因果の順序を用いることで、問題の根幹には何があるかを考察しています。(M1 亀井&山崎)

起きた事故から死亡事故に繋がったかどうかを判別し、30項目ほどの要因の順序を可視化すると図3のようになります。何がどうなっているのかわからないので条件を絞って、因果の係数を確認すると次のことがわかります。関与した人間の年齢や時期、歩車分離・道路幅員などの条件、スピード制限などの条件が死亡事故になるかどうかに強く関係しているようです。計算するまでもなく明らかなことではありますが、考えてわかることがデータに基づくことに意味があります。(M1 亀井&山崎)

地理情報システムに基づくアプローチ
この分析では、地理情報を用いて二輪事故の特徴について把握することを目的としました。まず、地理情報を用いた分析と聞いて頭に思い浮かびにくいかと思われますので、一つ例を示したいと思います。バスと事故発生地点との関連性について把握するために、バスの走行ルート上における二輪事故の発生件数を可視化しました。バスルートと被っている事故の件数は全16501件中11283件であり、色が赤い方が件数が多くなっていて、最大で一つのルート上で年間602件の二輪事故が発生していることになります。(M1 小平&山崎)
※バスルートは国土数値院にて公表されているオープンデータを用いています。

次に事故発生地点の密度が高い場所を地域的に表現するため事故集約地点として集約します。集計時にグループとして扱う方が楽であることや、回数の多い地点として定義できる利点があります。その集約した点とバス停・駅・パーキングメータとの距離関係について可視化しました。下の散布図の縦軸は集約地点に含まれる事故件数であり、横軸は最寄駅との距離になります。分析の結果としては、傾向がありそうだけども二輪事故の要因とは言い切れないといったものとなりました。これについては反省として、手法をもう少し検討したり他分野の先行事例を活用したいと思います(M1 小平&山崎)

今後の展望と予定
今後はより詳細情報を警視庁の開示請求で得られるデータから抽出して分析したり、snsの情報などの他のアプローチを増やしながらできることを検討します。現在は修士四名の他に、遊びに来ている1・2年生も参加して進めています。このプロジェクトが、学生視点で外部と繋がりを持ちながら実践的な手を動かす場といった、研究室プロジェクトのプロトタイプになることを目指しています。こういったことに興味を持ってくださった方は、ぜひ市川研究室にどうぞ。(M1年 山崎)