アズマオオズアリの頭部とキーボードを模したアイコンとjonnityという文字

地方に住むことの情報量

雑記

2025/9/28


私は、地方に住んでいることは情報量が多いなと感じることができる。一般に「東京の情報量」というと、「東京に住んでいると (気軽に) 摂取できるコンテンツの量」くらいの意味なことが多い。そういう意味なら当然、地方には情報量が少ない。 いま考えたいのは、「他者に自身の居住地を伝えた際に、どれほどの情報が伝わるか」ということ。

というのも、最近、大喜利会に参加していて、Xの投稿をちゃんと見れば私が日本のどのエリアに住んでいるか分かるようになっている。 そうなったとき、居住地が明かされることが持つ情報量について考えたくなったので、考えをまとめてみる。

(ネット上の知らない人 (悪人を含む) に対する匿名性について考えたいだけで、そんなに気にしてないです。)

「東京に住んでいる」ことは驚きが少ない

まずは、「日本人がランダムに一人出てくるガチャガチャ」みたいなものを考えてほしい。 でっかいガチャガチャの全景を想像した人は不正解。あなたも入りなさい。天皇陛下とかに回してもらいましょう。恐縮です。

このガチャガチャから東京に住んでいる人が出てきても、「またかよ」と思う。 一方で、鳥取の人が出てきたら、「鳥取って砂しかないんじゃないの!?」と驚くことになるだろう。 こんな感じで、「東京に住んでいる人は多いので、東京に住んでいると聞いてもなにも思わない」という感覚を共有しておきたい。

そして、この感覚を定量的に扱うために、これらの事象が持つ「情報量」というものを数学的に定義したい。これはクロード・シャノンというすごい人がもうやってくれている。 確率変数XXが取る値xxについて、情報量 (自己情報量) IIは以下のように定義される。

I(x)=log2P(X=x)I(x) = - \log_2 P(X = x)

プロットするとこんなグラフになり、確率が低いほど値が大きくなっていることがわかる。

先ほどの東京と鳥取の例で具体的な値を計算してみる。 令和7年1月1日付の「住民基本台帳に基づく人口、人口動態及び世帯数」 (総務省、ここにある) によると、日本の総人口が1億2,433万690人、東京都の人口が1,400万2,534人、鳥取県の人口が53万4,003人となっている。 なので、「東京都在住である」ことの情報量は以下のように3.15ほどに、

log214,002,534124,330,6903.15- \log_2 \frac{14,002,534}{124,330,690} \approx 3.15

「鳥取県在住である」ことの情報量は、以下のように7.86ほどになって、

log2534,003124,330,6907.86- \log_2 \frac{534,003}{124,330,690} \approx 7.86

「東京都在住である」ことの情報量 < 「鳥取県在住である」ことの情報量になっている。

大小関係だけでなく、3.15だとか7.86だとかの数字が大きいのか小さいのかというのも考えてみたい。 ただ、絶対的に言えるようなものではないので、日本人の居住地というものが持つ平均の情報量を考える (これをエントロピー HH という)。

H=ΣxI(x)P(X=x)H = \Sigma_x I(x)P(X=x)

ここまででも考えていた日本人の居住地で計算すると、4.98ほどになる。 この値を基準に考えても、「東京に住んでいる」ことは大した情報ではなく、逆に、「鳥取に住んでいる」ことはある程度の情報だと言えそう。

個人を特定するには?

次は、単に「ガチャから出てきたのが誰か」ということに着目してみる (=ガチャの中身を多数の「東京人」ではなく、ユニークな「山田太郎」とかにする) 。

こうなると、最近の個人を尊重する流れにも乗れるし、それぞれに同様に驚きがあることになる。 つまり、特定の「山田太郎」であることの情報量は、

log21124,330,69026.89- \log_2 \frac{1}{124,330,690} \approx 26.89

となる。

この数字の解釈として「それぞれ独立で日本人を2等分できる質問を27回答えさせれば個人を識別できる」と言える。 この「それぞれ独立で日本人を2等分できる質問」による特定を目指すとき、東京都在住という情報は3質問相当の情報にしかならないのに対し、鳥取県在住という情報は8質問相当の情報になる (居住地と他の質問とは独立という前提で)。鳥取県民だということがわかっていれば70%程度の労力で特定できる。

インターネット上で活動するとき、性別なんかは、(声とかも含む) 外見的特徴から判断できることも多いが、そもそも性別はだいたい2等分になっているので、同じ尺度で見ると1質問相当になる。 それに対して、居住地の情報を明かすことは、東京で会っても3倍ほど、人口最小 (=情報最大) の鳥取県だと約8倍の情報を持っているということは、意識しておいてもいいことのような気がする。

地方ごと単位だと?

上述の通り、東京に住んでいることを明かすことと、鳥取に住んでいることを明かすことの価値には差があった。

最後に、やや実用的なこととして、東京くらい匿名性を担保するにはどれくらいぼかせばいいのかということも考えたい。

「日本の地域」のWikipediaにある七地方区分に従って地方単位でまとめるとこんな感じ:

地方人口自己情報量 (II)
北海道地方5,044,8254.62
東北地方8,255,9093.91
関東地方43,551,7121.51
中部地方20,788,3072.58
近畿地方21,989,1532.50
中国・四国地方10,635,3943.55
九州地方14,065,3903.14

これを見ると、北海道と東北はそれぞれ地方で言ったとしても、東京よりも情報が多い (=人口が少ない)。 合わせてみるといい感じ (自己情報量で3.22) になったので、「東北以北です」と言うといいかも。

逆に、当然ながら関東は過剰に匿名性がある。埼玉/千葉/神奈川に絞っても、自己情報量で2.44ほどになる。全然知らないけどこの辺のひとらは「東京のほう」とか言うんかな。そんな言い回しで (東京ではないのね) と思われたとしても十分東京より匿名性がある。一方で残りの北関東は、茨城/栃木/群馬だけだと自己情報量で4.22になって、東京よりも情報が多くなる。三県あわせてこれだということは、秘境だなんだと言われるノリも致し方なしかも。

中部、近畿ももう少し絞っても大丈夫そう。中部は、↑の定義での地方はまたぐけど名古屋周辺の愛知/岐阜/三重で自己情報量3.48となり、大体東京水準に、近畿は大阪/兵庫/京都でも2.90と東京よりも匿名性をもたせることができる。

まとめ

アカウントから、関西の大喜利会に参加していることがわかっても、「東京に住んでいる」ことくらいしか情報がないなら安心。 奈良って断言しちゃうと東京の倍以上の情報があるからね。

おまけ

各都道府県の人口と自己情報量の一覧

都道府県人口自己情報量 (II)
北海道5,044,8254.62
青森県1,185,7676.71
岩手県1,153,9006.75
宮城県2,224,9805.80
秋田県907,5937.10
山形県1,012,3556.94
福島県1,771,3146.13
茨城県2,848,5975.45
栃木県1,904,1736.03
群馬県1,907,9766.03
埼玉県7,374,2944.08
千葉県6,311,5794.30
東京都14,002,5343.15
神奈川県9,202,5593.76
新潟県2,110,7545.88
富山県1,008,5366.95
石川県1,098,1216.82
福井県746,6907.38
山梨県801,0567.28
長野県2,012,3995.95
岐阜県1,951,2925.99
静岡県3,575,7045.12
愛知県7,483,7554.05
三重県1,741,2666.16
滋賀県1,405,2466.47
京都府2,472,0135.65
大阪府8,771,9613.83
兵庫県5,393,6074.53
奈良県1,303,8676.58
和歌山県901,1937.11
鳥取県534,0037.86
島根県642,5907.60
岡山県1,835,4786.08
広島県2,728,7715.51
山口県1,292,9566.59
徳島県700,4097.47
香川県939,9657.05
愛媛県1,296,3596.58
高知県664,8637.55
福岡県5,086,9574.61
佐賀県794,2527.29
長崎県1,274,3716.61
熊本県1,716,3606.18
大分県1,102,1026.82
宮崎県1,048,3476.89
鹿児島県1,558,9206.32
沖縄県1,484,0816.39

ライセンス

サムネイル画像はWikipediaのClaudeShannon_MFO3807.jpgをトリミングして使用しています。元画像はクリエイティブ・コモンズ 表示-継承 2.0 ドイツライセンスのもとに利用を許諾されており、改変版も同ライセンスで公開されます。