2022/04/29

統計データで誤認を誘う

今回は、普段のブログとは趣向を変えて、データを取り扱う者として身につけておきたいマインドについて書いていきます。本記事では、統計データを直感的に解釈することで生じた誤解を基にソリューションを考案してしまわないように、データを読む時の注意点について、論文を引用させていただきながら簡単に紹介していきます。

論文情報

例題:データから言えること・言えないこと

世帯構造の経年変化に関するデータ

この30年あまりで『夫婦のみの世帯』が2倍以上に増加した。

このデータを示されたとき、あなたは、まず何を考えますか?「子どもを持つ世帯が減った」や「親と同居しない世帯が増えた」でしょうか?

論文によると、このようなデータが公表されていたとき、「子どもを持たない選択をする若い夫婦が倍増しているかのような記述」「世帯・家族に対する価値観の変化に対して早急に何らかの対策が必要と危機感を煽るような記事」が報道されていたようです。

見出しや冒頭の当記事についての説明から、例題で用いた問いの意図が読めている方はお気付きかもしれませんが、上記の報道は誤った解釈のもと(あるいは意図的に読者に情報を誤認させて)主張を述べています。

では、このデータからは何が言えるのかといった疑問を持つ方もいらっしゃるかもしれませんが、そのデータにおいて「この30年あまりで『夫婦のみの世帯』が2倍以上に増加した。」という事実があったことしか言うことができません。

データ解釈にはデータを知る必要がある

データはある条件下で得られた結果の集合です。データを解釈するためには、その条件や観測対象の構造を把握していなければなりません。

これは体感の話になりますが、データ与えられたときやデータに基づいた主張を受けたとき、集計されたデータの対象や収集方法を確認して、データの構成要素を把握できる人はある程度いるものの、そこから観測対象を構造化して構成要素の関係性を理解しながらデータを読むことが人は、あまり多くないように見えます。先ほどの例題データに関する報道の誤った解釈に気がつき、指摘するためには、与えられた情報の元データを丁寧に理解していなければなりません。

詳しい内容は省略しますが、この誤解について論文で述べらていた内容を要約したものが以下になります。

夫婦のみの世帯の内訳との経年変化
  • 「65歳以上の者のいる夫婦のみ世帯」が1986年から2019年で3倍増加(4.7%→16.0%)
  • 「65歳以上の者のいる夫婦のみ世帯以外の夫婦のみ世帯」は、1998年を境に徐々に減少
  • 「世帯主が50歳未満の夫婦のみ世帯」に限ると、1998年の 4.3%から2019年の3.2%へと減少

以上のことから、「この30年あまりで『夫婦のみの世帯』が2倍以上に増加した。」という結果が現れたのは、子どもを持たずに夫婦のみで暮らす世帯が増えたというよりも、子どもを育てた後、独立した子どもとは同居せず、夫婦のみで暮らしている65歳以上の高年齢層が増えたことの影響が大きいと考えられる。

子どもをつくらない若年夫婦の増加の真偽を確認するためには

世帯主が 50 歳未満の夫婦のみ世帯 は以下の4タイプに分かれる。

  • すでに子どもが独立した有子世帯
  • これから子を持つ予定の有子予定世帯
  • 持たない予定の無子予定世帯
  • 持たないことが確定した無子確定世帯

上記の4タイプを合計した「世帯主50歳未満の夫婦のみ世帯」全体の比率は増えていないとしても、「有子・有子予定世帯」と「無子予定・無子確定世帯」の比率が変わった可能性はあるため、「無子予定・無子確定世帯」が増えていないと断言することは不可能である。しかし、子どもをつくらない若年夫婦が増えたという事実も、既に示したデータからは読み取ることはできない。

子どもをつくらない若年夫婦の増加の真偽を確認するためには、若年夫婦が子どもについてどう考えているのか、子を持つ予定の有無を含めたデータが必要なのである。

このことから、「跡継ぎプレッシャーが弱まった昨今の風潮や、自己中心的理由から若い子なし夫婦が倍増しているかのような報道をするのは、ミスリーディングと言わざるを得ない。」ということが論文著者の見解となっております。

論文では、この後、「単独世帯」の増加についても、統計を丁寧に確認しながら見解を述べて、そこから主題である研究内容についての記述へと入っていきますが、統計データから生じる誤解については、「先入観を捨て、何が起きているのか、データそのものと向き合わねばならない」と締めくくられております。

最後に

本記事では、データを読む時の注意点について、論文を用いながら紹介していきました。

今回の内容を取り扱ったのは、これまで大学生活を送ってきた中で、データを用いて課題解決を考える側の人間が、データやそれを利用した分析結果を理解せずに、先入観に囚われた一見それっぽいような解釈をデータから得られた正しい答えかのように語る姿に違和感を覚えたからです。

もちろん、現場では「正しさ」よりも「納得しやすさ」が重要な局面も多いでしょうし、課題解決のために、データで誤認を誘ってでも、まず、何らかの一石を投じて、組織・集団を動かして流れを作るといったことも必要なことであると思います。データを理解したうえで、それをやっているのであれば、ベターな選択でしょう。しかし、そうでないのであれば、データ分析者がデータに騙され、効果的な課題解決までの筋道を先方に提示できないこともあるかもしれません。データで嘘をつくとしても、意図的か無自覚かでは大きく違うでしょう。

何はともあれ、当たり前のことではありますが、データを利用するときには、そのデータについて、結果だけでなく、結果が現れるまでの過程やデータの構成要素の特性を把握して、仮説を確認できることが習慣化できる・形骸化させないことを意識できると良いと思います。

この記事が少しでも、データそのものに向き合うきっかけになりましたら幸いです。ぜひ、今回、引用した論文もご覧になってみてください。

著者プロフィール

中村 和希

2021年度 システム理工学専攻 修士2年
2020年度 システム理工学部 環境システム学科 卒業
1998年11月生まれ山梨県笛吹市出身。卒論では都市の持続可能性の定量的指標の開発をしていました。
主な取り組みは、地理空間情報解析、シミュレーション、最適化問題、画像認識、自然言語処理。
 

関連記事はこちら