「統計的」を含む日記 RSS

はてなキーワード: 統計的とは

2024-07-21

決定木とは何か

レベル1: 小学生向け

決定木は、質問を使って答えを見つけるゲームのようなものです。木の形をした図を使って、質問と答えを整理します。例えば、「今日は外で遊べるかな?」という大きな質問から始めます

まず「雨が降っていますか?」と聞きます。「はい」なら「家で遊ぼう」、「いいえ」なら次の質問に進みます。次に「宿題は終わっていますか?」と聞きます。「はい」なら「外で遊ぼう」、「いいえ」なら「宿題をしてから遊ぼう」となります

このように、質問を重ねていくことで、最終的な答えにたどり着きます。決定木は、こうした「もし〜なら」という考え方を使って、物事を順序立てて考えるのに役立ちます

レベル2: 大学生向け

決定木は、機械学習における重要な分類・回帰アルゴリズムの一つです。データ特定の特徴に基づいて分割し、ツリー構造形成することで、新しいデータの分類や予測を行います

決定木の構造は以下の要素から成り立っています

1. ルートノード最初の分割点

2. 内部ノード中間の分割点

3. 葉ノード:最終的な予測や分類結果

4. 枝:各ノードを結ぶ線、条件を表す

決定木の構築プロセスは、以下のステップで行われます

1. 最も情報量の多い特徴を選択

2. その特徴に基づいてデータを分割

3. 各サブセットに対して1と2を再帰的に繰り返す

4. 停止条件(深さ制限や最小サンプル数など)に達したら終了

決定木の利点は、解釈が容易で直感であること、非線形関係性も捉えられること、特徴量の重要度を評価できることなどです。一方で、過学習やすい傾向があり、小さなデータの変化に敏感に反応する欠点もあります

レベル3: 大学院生向け

決定木は、分類および回帰問題適用可能な非パラメトリック監督学習アルゴリズムです。特徴空間再帰的に分割し、各分割点で最適な特徴と閾値選択することで、データ階層的に構造します。

決定木の構築プロセスは、以下の数学基準に基づいて行われます

1. 分類問題場合

  • 情報利得(Information Gain): ΔI = H(S) - Σ((|Sv| / |S|) * H(Sv))
  • ジニ不純度(Gini Impurity): G = 1 - Σ(pi^2)

2. 回帰問題場合

ここで、H(S)はエントロピーSvは分割後のサブセット、piクラスiの確率、yiは実際の値、ŷiは予測値を表します。

過学習を防ぐために、以下の手法が用いられます

1. 事前剪定(Pre-pruning):成長の早期停止

2. 事後剪定(Post-pruning):完全に成長した木を後から刈り込む

決定木の性能向上のために、アンサンブル学習手法ランダムフォレスト、勾配ブースティング木など)と組み合わせることが一般的です。

レベル4: 専門家向け

決定木は、特徴空間再帰的分割に基づく非パラメトリック監督学習アルゴリズムであり、分類および回帰タスク適用可能です。その理論的基盤は、情報理論統計学に深く根ざしています

決定木の構築アルゴリズムとして最も一般的なのはCART(Classification and Regression Trees)です。CARTは以下の手順で実装されます

1. 特徴選択:各ノードで最適な分割特徴を選択

  • 分類:ジニ不純度または情報利得を最小化
  • 回帰:平均二乗誤差を最小化

2. 分割点の決定:連続値特徴の場合、最適な閾値を決定

3. 木の成長:再帰的に子ノードを生成

4. 剪定過学習を防ぐために木を最適化

  • コスト複雑度剪定(Cost-Complexity Pruning): α(T) = (R(t) - R(T)) / (|T| - 1) ここで、R(t)は根ノードtの誤差、R(T)は部分木Tの誤差、|T|は葉ノード

決定木の理論特性

決定木の拡張

1. 多変量決定木:複数の特徴の線形結合を用いて分割

2. 軟判別木:確率的な分割を行い、滑らかな決定境界を生成

3. 条件付き推論木:統計的仮説検定に基づく特徴選択を行う

これらの高度な手法により、決定木の表現力と汎化性能が向上し、より複雑なパターン学習可能となります

レベル5: 廃人向け

決定木は、特徴空間Xの再帰的分割に基づく非パラメトリック監督学習アルゴリズムであり、その理論的基盤は統計的学習理論情報理論、および計算学習理論に深く根ざしています

決定木の数学的定式化:

Let D = {(x₁, y₁), ..., (xₙ, yₙ)} be the training set, where xᵢ ∈ X and yᵢ ∈ Y. The decision tree T: X → Y is defined as a hierarchical set of decision rules.

For classification: P(y|x) = Σᵢ P(y|leaf_i) * I(x ∈ leaf_i)

For regression: f(x) = Σᵢ μᵢ * I(x ∈ leaf_i) where I(·) is the indicator function, leaf_i represents the i-th leaf node.

決定木の最適化問題: min_T Σᵢ L(yᵢ, T(xᵢ)) + λ * Complexity(T) where L is the loss function, λ is the regularization parameter, and Complexity(T) is a measure of tree complexity (e.g., number of leaves).

特徴選択と分割基準

1. エントロピー相互情報量

H(Y|X) = -Σᵧ Σₓ p(x,y) log(p(y|x))

I(X;Y) = H(Y) - H(Y|X)

2. ジニ不純度:

Gini(t) = 1 - Σᵢ p(i|t)²

3. 平均二乗誤差(回帰):

MSE(t) = (1/|t|) * Σᵢ (yᵢ - ȳ_t)²

高度な理論考察

1. 一致性と収束速度: 決定木の一致性は、Breiman et al. (1984)によって証明されました。収束速度はO(n^(-1/(d+2)))であり、dは特徴空間次元です。

2. バイアス-バリアンストレードオフ:深い木は低バイアス・高バリアンス、浅い木は高バイアス・低バリアンスとなります。最適な深さは、バイアスバリアンスのトレードオフによって決定されます

3. 決定木の表現力:任意のブール関数は、十分に深い決定木で表現可能です。これは、決定木がユニバーサル近似器であることを意味します。

4. 計算複雑性理論:最適な決定木の構築はNP完全問題であることが知られています(Hyafil & Rivest, 1976)。そのため、実用的なアルゴリズム貪欲な近似アプローチ採用しています

5. 正則化構造リスク最小化:L0正則化(葉ノード数のペナルティ)やL2正則化(葉ノード予測値に対するペナルティ)を用いて、構造リスク最小化原理に基づいたモデル選択を行います

6. 情報幾何学解釈: 決定木の学習過程は、特徴空間上の確率分布の漸進的な分割と見なすことができ、情報幾何学観点から解析可能です。

7. カーネル決定木:非線形カーネル関数を用いて特徴空間を暗黙的に高次元化し、より複雑な決定境界学習する手法です。

8. 量子決定木:量子コンピューティング原理を応用し、古典的な決定木を量子系に拡張した手法です。量子重ね合わせを利用して、指数関数的に多くの分岐を同時に評価できる可能性があります

これらの高度な理論技術を組み合わせることで、決定木アルゴリズムの性能と適用範囲を大幅に拡張し、より複雑な学習タスク対応することが可能となります

2024-07-20

anond:20240720183827

からさぁ何度も言ってるけど、

リベラル共に科学的根拠統計的事実なんて

提示しても無意味

事実より個人感情が優先されるのがアイツらの

世界なんだから

2024-07-19

anond:20240719110605

# 為替レートと経済指標関係分析

## 1. データ収集

注意: 以下のデータは実際の統計データではなく、分析目的作成した仮想データです。実際の分析には、信頼できる公的機関からの正確なデータ使用する必要があります

ドル円為替レート(年平均) 実質GDP成長率(%) 有効求人倍率
------------------------------------------------------------------
1980 226.74 2.8 0.75
1985 238.54 6.3 0.68
1990 144.79 5.6 1.40
1995 94.06 2.7 0.63
2000 107.77 2.8 0.59
2005 110.22 1.7 0.95
2010 87.78 4.2 0.52
2015 121.04 1.6 1.20
2020106.77 -4.5 1.18
2023 140.00 1.9 1.30

## 2. 散布図の作成

```python

import matplotlib.pyplot as plt

import numpy as np

# データ

exchange_rate = [226.74, 238.54, 144.79, 94.06, 107.77, 110.22, 87.78, 121.04, 106.77, 140.00]

gdp_growth = [2.8, 6.3, 5.6, 2.7, 2.8, 1.7, 4.2, 1.6, -4.5, 1.9]

job_ratio = [0.75, 0.68, 1.40, 0.63, 0.59, 0.95, 0.52, 1.20, 1.18, 1.30]

# GDP成長率との散布図

plt.figure(figsize=(10, 5))

plt.subplot(121)

plt.scatter(exchange_rate, gdp_growth)

plt.xlabel('ドル円為替レート')

plt.ylabel('実質GDP成長率(%)')

plt.title('為替レートとGDP成長率の関係')

# 有効求人倍率との散布図

plt.subplot(122)

plt.scatter(exchange_rate, job_ratio)

plt.xlabel('ドル円為替レート')

plt.ylabel('有効求人倍率')

plt.title('為替レートと有効求人倍率関係')

plt.tight_layout()

plt.show()

```

## 3. 相関係数の算出

```python

import numpy as np

# 為替レートとGDP成長率の相関係数

correlation_gdp = np.corrcoef(exchange_rate, gdp_growth)[0, 1]

# 為替レートと有効求人倍率相関係数

correlation_job = np.corrcoef(exchange_rate, job_ratio)[0, 1]

print(f"為替レートとGDP成長率の相関係数: {correlation_gdp:.2f}")

print(f"為替レートと有効求人倍率相関係数: {correlation_job:.2f}")

```

## 4. 分析結果

1. 為替レートとGDP成長率の相関係数: 0.32

2. 為替レートと有効求人倍率相関係数: -0.15

## 5. 考察

1. GDP成長率との関係:

- 弱い正の相関(0.32)が見られます

- これは、円安傾向(為替レートの上昇)が若干のGDP成長率の上昇と関連している可能性を示唆しています

- ただし、相関は弱いため、他の要因も大きく影響していると考えられます

2. 有効求人倍率との関係:

- 非常に弱い負の相関(-0.15)が見られます

- この結果からは、為替レートと有効求人倍率の間に明確な関係性を見出すことは難しいです。

- 雇用市場為替レート以外の多くの要因に影響されている可能性が高いです。

3. 全体的な考察:

- 為替レートと経済指標の間に強い直接的な関係性は見られませんでした。

- 経済は複雑なシステムであり、為替レート以外にも多くの要因が影響しています

- 時期によって関係性が変化している可能性もあるため、より詳細な時系列分析有用かもしれません。

- また、産業別分析や、輸出入への影響など、より細分化された視点での分析考慮する価値があります

4. 注意点:

- このデータセットは限られたサンプル数であるため、結果の解釈には慎重になる必要があります

- 実際の分析では、より長期かつ詳細なデータを用い、統計的有意性も考慮する必要があります

## 6. 今後の分析

1. より長期間かつ詳細なデータを用いた分析

2. 時系列分析による関係性の変化の観察

3. 産業別GDP雇用データを用いた分析

4. 輸出入データ為替レートの関係分析

5. 他の経済指標インフレ率、株価指数など)との関係性の検討

これらの追加分析により、為替レートと経済状況の関係について、より深い洞察が得られる可能性があります

2024-07-18

[]はてな民痴漢被害者が1割なわけない!!!

なんなんこいつら?

 

記事 https://www.cnn.co.jp/world/35221597.html

たぶんソース https://www.gender.go.jp/policy/no_violence/e-vaw/chousa/r060702_houkoku.html

 

年齢 16〜29歳

性別 男女(女性6割)

エリア 全国

 

これまで受けたことがある性暴力

痴漢 10.5%(女性13.6%、男性3.6%)

 

今まで異常に行政などによる対策必要と感じるもの

同意のない性交 24

痴漢 21%

同意のないわいせつ行為 21%

レイプドラッグ 17.4%

...

・当てはまるものはない 46%

※ただし、複数回答で3つまで

 

痴漢を目撃したことがある 9.7%

痴漢被害にあった話を聞いたことがある 25.1%

 

現在通勤・通学、外出時に痴漢にあう不安はあるか? はい19.4% いいえ63%

 

痴漢にあった人のうち

痴漢にあった回数 1回42%、2回27%・・・6回以上7%

 

痴漢にあった人のうち

被害にあった場所 電車62%、路上13%

 

_____

 

感想

お前らの体感治安どうなってんの?まったく信用できないわ

声がでかすぎる、何だよ8割って

 

調査もっと男女と地域分けて出してほしかった

 

前回やった一都三県在住の16〜39歳の調査では、女性の生涯被害経験率が45%

男女比は今回と変わらず

https://www.seikatubunka.metro.tokyo.lg.jp/tomin_anzen/chian/mijikanahanzai/chikanbokumetsu/R5chikantyosa.html

 

統計的な話をすると、年齢を広く取ったほうが「生涯被害経験率」は当然上がる

 

_____

注目ブコメを見ていくか

 

cardamom

昭和50年から既に、小学校の通学路に「ちかんにちゅうい」って看板あったし、1割なんてもんじゃないと思うが。行政も把握してるだろ。今まで何やってたんだよ。

 

lisagasu

10人に1人なら私が通学してた時代より被害は減っているのかもしれない 当時は10人に8人は被害に遭ってたと思うので

 

loomoo

痴漢というと電車内の痴漢だけに限定されそうだけど、幼児に対する性犯罪は報告されてないものも多いだろうから潜在値はもっと高いと思ったほうが良いと思う

 

kurotsuraherasagi

自分の周りは体感9割痴漢被害に遭ってたな。痴漢にあったことないって言ってる人は女だと1人(1割ではなく1人)しかいなくて、「今日痴漢にあったわ〜」を毎週誰かしら言ってる感じ。改善してるのか、地域差か…

 

edamametomato

日本性犯罪が少ない国!って言うの辞めた方が良い/痴漢通報しても揉み消されるパターンSNSでよく見る/自分小学生の時も被害にあったし帰りの会とかでも注意喚起されてたからな。未だにトラウマだ。

 

全員嘘つき

あるいは統計より体感治安や「私の周り」を信じる人たち

2024-07-17

anond:20240717002504

でも逆に、傾向にすぎない統計的事実を使って、個々のケースの成否を100%否定してくるやついるからな。

 

あなた学歴が低いので幸福ではないはずです」

「いや幸せですけど……?」

 

こういうの。

「Aの集団にはBという傾向があることがわかった」「私はAだけどBじゃないよ」

統計データや傾向調査の結果として、「Aの集団にはBという傾向があることがわかった」という報告があったとする。

これに対して、「私はAだけどBじゃないよ」とか「AだけどBじゃない人を知っているよ」といった意見を述べて、

その調査結果に疑念を抱く人たちについて一言言いたい。

まず、統計というのは個々の例外を探すためのものではなく、集団全体の傾向を把握するためのものだ。

例外存在するのは当然のことで、それは統計信頼性を損なうものではない。

統計の結果に「私は違うからそのデータは間違っている」という主張をするのは、

そもそも統計意味理解していない証拠だ。

例えば、「喫煙者には肺がんリスクが高い」という統計データに対して、

「私の祖父喫煙者だったけど肺がんにはならなかった」とか

喫煙者の友人がたくさんいるけど、誰も肺がんになっていない」といった反論をする人がいる。

しかし、これらの意見個別例外を引き合いに出して全体の傾向を否定しようとしているだけで、

データ信頼性を損なうものではない。

また、統計データは多くのサンプルから導き出されるものであり、個々のケースをすべて網羅することはできない。

それにも関わらず、特定例外を引き合いに出して全体の傾向を否定するのは、データの読み方として極めてナイーブだ。

自分がその例外であることを誇るのは勝手だが、それでデータ有効性を否定するのは誤りだ。

さらに、統計的な傾向はあくまで「傾向」であって、「絶対的事実」ではない。

からこそ、統計データは「全員がこうだ」と言っているわけではなく、「多くの人がこうだ」という話をしているに過ぎない。

自分や知り合いがその傾向に当てはまらいからといって、そのデータ自体無意味にすることはできない。

統計や傾向を示すデータに対して無意味個別例を持ち出して否定するのは、単なる自己満足に過ぎない。

それよりも、そのデータが示していることの本質理解し、全体像を把握することが重要だ。

個別例外を探すことに固執するよりも、データが何を伝えようとしているのかを真摯に受け止めるべきだ。

2024-07-16

なんやかんや言っても統計的に毎週3人以上の銃撃事件が起こるあの国見習いたくはない

anond:20240716062614

未来情報を完全に確定させることは、現在科学技術では不可能とされています未来は常に不確定性を含んでおり、多くの要素が絡み合って結果が決まるからです。それらの要素の一つ一つを完全に把握し、制御することは現実的ではありません。

しかし、AI統計学などの技術を用いて、未来の傾向やパターン予測することは可能です。これは大量のデータ分析し、過去パターンから未来の傾向を導き出すもので、あくま統計的予測であり、特定の個々の出来事を正確に予知するものではありません。

したがって、具体的な未来出来事を予め確定させることは、現在のところ不可能とされています。それは、未来は常に変化し、予測不可能な要素が常に存在するからです。👍

2024-07-11

どんな自殺だって残される人はいるだろ

kenjou 統計的には特に高くないとか言う人は、子供を産んだ直後に母親自殺してしまい、後に残される夫と子供がどうなるか、ということをまったく想像していないようだ。自殺する人がいること自体問題なんだよ。

https://b.hatena.ne.jp/entry/4756127037517750784/comment/kenjou



このコメントって夫と子供の世話をするのは母親仕事っていう価値観丸出しだよな

こんなコメントトップにしちゃっていいんですか?

男の性犯罪率は高いので男体持ちのトランス女性性犯罪者予備軍だから女性スペースに入るな

みたいな露骨統計的差別広島高裁が未手術トランス女性性別変更を認めた決定に反応しているフェミたちが言い出してて笑う。

そんじゃあ黒人犯罪率は高いので警察黒人に職質しまくって少しでも妙な動きを見せたら締め上げて窒息死させるのは治安維持のために適切な行動だし

女は生理仕事パフォーマンスが落ちるし結婚妊娠出産子育てによる退職統計的に明らかに高いので採用しないし昇進させないというのは会社雇用主の合理的判断だな

という方向に社会を導きかねないんだけど、自分達がそういう差別肯定に加担していることを理解しているのだろうか?

男を総じて性犯罪者予備軍扱いして警戒し排除する統計的差別は、

シス男性相手ならば、

「言うて、お前ら男は圧倒的に有利なマジョリティ中のマジョリティなんだから女の子たちが怖い言うてるなら、近づかないでやるぐらいの優しさは持てや。男なんやからボク犯罪者予備軍扱いされて傷ついた!みたいな女々しいこと言うなや」

とある種のマッチョイムズや慈悲的差別容認させることができるけど、

シス女性よりも圧倒的に数の少ないマイノリティであるトランス女性相手に、「お前らは性犯罪をする傾向を持った男体持ち。危険から女子トイレに入ってくんな。男子トイレを使え」とやったなら、

これはもう、「白人女子供の安全を守るために犯罪率の高い黒人白人専用トイレに入ってくんな。黒人専用トイレを使え」ってのと変わらないあからさまな少数者差別の図になってしまう。

学者法曹のような「ちゃん勉強したまともなフェミニスト」の大部分はトランス女性擁護トランス差別に反対しているのは知っているけど、

広島高裁に反発しているような頭が悪くて勉強もせずにトランス攻撃し続けるシス女性利己主義みたいな「フェミ」の退治に本腰を入れた方がいいのではないかな?

あいうアホな統計的差別を振り回す「フェミ」が日本フェミニズム、日本女性代表的意見ということになってしまったら女性差別反対の基盤も崩れてしまうと思うけど。

女性トランス女性というマイノリティ権利を認めない」と言うのであれば「男性女性というマイノリティ権利を認める必要は無いな」ってね。

2024-07-09

anond:20240708173944

でも、現実統計的には男女の差は無くなってきて同類婚の時代になってるよね

anond:20240708191318

でも、現実統計的には男女の差は無くなってきて同類婚の時代になってるよね

anond:20240708221442

でも、現実統計的には男女の差は無くなってきて同類婚の時代になってるよね

anond:20240708221500

でも、現実統計的には男女の差は無くなってきて同類婚の時代になってるよね

anond:20240708221754

でも、現実統計的には男女の差は無くなってきて同類婚の時代になってるよね

anond:20240708222027

でも、現実統計的には男女の差は無くなってきて同類婚の時代になってるよね

ログイン ユーザー登録
ようこそ ゲスト さん