pslaboが試したことの記録

はてなダイヤリーからはてなブログに引っ越してきました

この日記は現在実行中の減量記録を含む個人的なメモとして始めましたが、最近はコンピュータやガジェット、ハック、セキュリティネタのほうがメインになっております。

はてなダイヤリー時代はカテゴリ分けが適当だったのですが、これはそのうち直します。


誕生日と曜日の関係について、すこしだけ真面目に可視化してみる

日本人の誕生日多い順ランキング、という集計をされている方がいるようですねー。

『日本人の誕生日多い順ランキング』が興味深い!あなたは何位? - NAVER まとめ

ですが、単に一定期間の出生数で日付を順位付けしても、話のネタにはなるけれど、データ分析としては全く面白みがないなー、というのが率直な感想です。一定期間の出生数を誕生日ごとに単に集計したのでは、単に多い少ないというだけで話が終わってしまいます。

しかし実際にはさまざまな理由や事情によって出産日の人為的な調整が行なわれているだろうから、そういうものが見えるような集計が行えると面白いです。

なのでちょいと真面目にデータを可視化してみることにします。

可視化の目的

可視化の目的は以下の3点とします。

  • 曜日や祝日との関連性が見えるかどうか
  • 特定の時期で増減があるか
  • 生まれた時間帯に何かの傾向があるか

月齢によって出生日が変わるかどうかは今回は一旦パスしますが、集計したデータに何らかの傾向が見られるようなら月齢は別途再確認するかも。

データの出典

日時ごとの出生数のデータは、政府が発表する資料のうち「人口動態調査 人口動態統計 確定数 保管統計表(報告書非掲載表) 出生 年次 2012年」の「出生数,出生年月日時・出生の場所別」を使うことにします。
統計表一覧 政府統計の総合窓口 GL08020103

集計データを単年度分に絞るのは、年によって同じ月日でも曜日が変動するので、その影響を捨てるためです。また2012年を選ぶのは、もっとも最近の閏年だからです。


また、2012年の祝日は下記のデータを参考にしました。
番外編/100年分の祝日リスト(山の日対応版): 総務で使えるエクセル残業計算


曜日や祝日、時期との関連を見る

まずは、縦が日付、横が月の表を作成して日ごとの出生数をいれてみました。出来上がった表はご覧のとおりです。

f:id:pslabo:20160828195855p:plain

この表は以下に該当する箇所に着色しています。

  • 出生数が平均値より 1σ 上回る日は緑の塗りつぶし。
  • 出生数が平均値より 1σ 下回る日は赤の塗りつぶし。
  • 出生数が平均値を下回る日は文字を赤色。
  • 土日祝日は罫線を赤色

平均値から +1σ, -1σ というのは偏差値でいうと 60 と 40 に該当しますので、1σ を下回るのは偏差値40未満です。1σ を上回るのは偏差値60を超えています。もうちょっと細かい話でいうと、偏差値40未満となる割合は通常は全体の16%です(正規分布に基づく場合)。同様に、偏差値60オーバーの割合も全体の16%です。従って、出生数が偏差値40未満( 平均値 - 1σ )となっている日の数値には何らかの人為的な関与が生じていると考えてよいわけです。

そのような観点でこれを見ると、わかりやすいくらいに以下の特徴が出ています。

  • 土日祝日は出生数が少ない。ほとんどのケースで平均値よりも1σより少ない。
  • 秋から冬には出生数が増える傾向があるが、出生数が増えている秋冬ですら土日祝日の出生数は少ない。
  • 年度末〜4/1も出生数が少ない。
  • 閏日(2/29)も出生数が少ないが、極端に少ないわけじゃない。

土日祝日に出生数が少ないのは、これはやはり出産のタイミングをコントロールしているケースが多いのだろうと推測できます。

2/29 や年度末を避けるのは、どちらかというと親側の希望ですよねー。2/29 は誕生日が4年に1回しかこない、とか、年度末だと最大1年分の遅れがついてしまうので、それを避けたい、とか。ただし極端に少ないわけじゃないですね。明らかに少ないのは3/31と4/1の2日間だけ。


ちなみに元データは出生場所が「病院、助産院、自宅、その他」のそれぞれの集計データがありますから、ここら辺の人為的な出産時期調整の実施状況に興味があるかたは、自分で集計してみるとよいでしょう。(私は今の所はそこまでの興味はないのでパス)

時間帯との関連性を可視化してみる

つぎに時間帯ごとの出生数を入れた表です。1年分載せると分量が多すぎるので、2012年1月分だけ。

f:id:pslabo:20160828191407p:plain

着色のルールは以下のとおり。

  • 日付は土・日・祝日に着色しています。
  • 1日ごとの総数は、数値の大小を緑色の棒グラフにしつつ、平均より少ない数値を赤塗り。
  • 時間帯ごとのヒートマップは、青 -> 白 -> 赤 の順で数の多さを示しています。
  • 時間帯ごとのヒートマップでセルに赤罫線が描画されている箇所は、その日が祝日であることを示しています。

なんか、もー、分かりやすいくらいにピークの集中する時間帯が出ていますね。基本的に9時〜19時という時間帯の出生数が多く、ピークは13時〜15時の2時間です。

夜間の出産は明らかに少ない。

このことが意味するものは何か?

お産の時期は月齢に関連がある、みたいな話がありますけど、可視化した範囲ではそれが明らかになるほどの有為な数値の違いは出ていないような気がします。

ここらへんをもうすこし掘り下げるとしたら、以下のような切り口で調べてみるとよいのでしょう。

  • 病院以外での出産に絞って可視化してみる
  • 月齢のデータを表に加える
  • 過去50年分くらいのデータを同様に集計して推移を可視化してみる

ただし、土日祝日を避けつつ、しかも日中の出産が多いというのは、産科に関わる医師や看護師、助産師の負担を考えると、実に正しい方向性なのだとも感じます。