https://wired.jp/2019/11/22/the-apple-card-didnt-see-genderand-thats-the-problem で記されている古い問題ではあるが、今にもつながる問題を提起している。たしか、記憶してる限りだと、Apple Cardの極度額がある夫婦で夫と妻とで極端な差があったので問題になったはずです。同じ家計の夫婦であれば、リスクはほぼ同じになるはずが、そうなっていなかったというので問題になったはずです。
そして、これが性別を与信モデルに含んでいれば、ある種単純だったんですが、この事業では性別を見ていなかったのです。したがって、逆に、性別で差別をしていないという立証が困難になりました。
性別に限りませんが、ある変数が別の変数に関連しているのはよくある話です。例えば、今回の話でならば、女性の身長の平均が男性のそれより低いというのは、事実であり、身長というフィールドがあったならば性別を書いているのと同じことです。
そして、OECD AI五原則と言うルールがあります。
1. AIは持続可能な成長や開発、幸福促進に利益をもたらすべき。 (以下省略)
また、個人情報についてOECDには以下の八原則があります。
1. 個人データの収集目的を明確にし、データ利用は収集目的に合致するべきである。 (以下省略)
この二つを鑑みると、モデルを作るにあたっては収集目的に見合ったデータを集めモデルを作るべきとなります。 つまり、与信であれば、貸し倒れ等のリスクを見るのに、見合った項目によりモデルを作るべきということになります。
従って、これらの原則を援用すれば、適当にデータセットを作って、後はStep-wiseを含め機械に変数選択をやらせてなんとなく、精度高めのモデルできましたはOECDの各種原則に従ってるかと考えればかなり微妙となります。
実際、産総研の高木さんなんかは、OECDの原則に照らせば、こういう安易なモデルはもってのほかと考えているのは、Twitterでの発言を考えればわかる感じです。