2021-12-24

Boston dataset is deprecated.

データ分析練習説明用によく使われる、「1970年代の」ボストン不動産価格データセットは、"ethical problem" があって、いろんな機械学習ライブラリから排除されるのね。

“B”

Just in case you’ve gotten this far without somehow paying attention, the column in question is called “B”:

B: Black proportion of population. (1970 US Census)

This is already offensive to 2019 eyes (and hopefully 1975 eyes). But let’s try to give the authors the benefit of some doubt that I’m missing something historical, or otherwise relevant, that would warrant the inclusion of this field in the “common specification” of hedonic house pricing.

racist data destruction?. a Boston housing dataset controversy | by M Carlisle | Medium

https://medium.com/@docintangible/racist-data-destruction-113e3eff54a8

Deprecated since version 1.0: This function is deprecated in 1.0 and will be removed in 1.2. See the warning message below for further details regarding the alternative datasets.

sklearn.datasets.load_boston — scikit-learn 1.0.1 documentation

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html

データに含まれる "B" という「地域住民のうちの黒人割合」を示す列がいかんらしいね。まぁ、日本で「〇〇市の不動産価格データセット」があったとして、そこに「地域住民のうちの部落出身者の割合」が同じく "B列" であったら燃えるだろうしなぁ。でも、実際に目的変数である不動産価格に負の影響を及ぼしてるんだけどねぇ。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん