将来の価格は何で決まる？

前回の記事でまとめたように、不動産価格はさまざま要因で決定されていることが分かりました。

私の興味のひとつとして、不動産の将来的な価格の推移です。

今回収集したデータの中で、将来の価格に影響を与える要因は何でしょうか？最も分かりやすい要因として、例えば築年数が考えられます。

不動産価格の予測モデルらか不動産の将来価値を予測することはできるでしょうか？

とにかくはじめます🍛

予測モデルを作る

今回は予測モデルの構築はメインでは無いのでサクッと作成します。

モデルとして LightGBM を採用しました。 LightGBM は以前利用した XGBoost 同様に、勾配ブースティングを利用した人気のあるモデルの一つです。

また最適化には optuna の LightGBMTuner を試してみました。 LightGBMTuner を使用すると、ハイパーパラメータの探索だけでなく、その探索空間の指定さえも自動化してくれるoptunaの新機能です。

つまり私は何も考えずに、データを放り込むだけで予測モデルが構築できるはずで、今回の用途には良さそうです。

なお学習の方法は通常のLightGBMとほぼ同じですが、最適化されたパラメータが格納される best_params などが指定可能です。¹²

import optuna.integration.lightgbm as lgb

lgb_params = {
  'objective': 'regression',
  'metric': 'rmse'
}
best_params = {}
tuning_history = []
model = lgb.train(lgb_params,
                  lgb_train,
                  num_boost_round=10000,
                  valid_sets=lgb_valid,
                  early_stopping_rounds=100,
                  verbose_eval=500,
                  best_params=best_params,
                  time_budget=60 * 60,
                  tuning_history=tuning_history)

ちなみに交差項を加えたり、モデルを変えたり多少試行錯誤しましたが、大きな改善は見られませんでした。

残差プロット

予測結果の残差プロットは以下のようになりました。横軸の0近辺に分布しているほど正しい予測と言えるのですが、結果を見る限りあまり精度の高いモデルとは言えないかもしれませんね。相対的な差を求めると、平均で約17%の差異が発生しているレベルなので、そのまま予測値を信頼するのは微妙です。特に価格が大きいほどバラつきが大きいようですが、これは価格が高いほど、データ数が少ないことも関係しています。

ただ今回使用している損失関数のrmseは、上記グラフの残差(予測値と実測値の差)や、前述の相対的な差を直接最小化しているわけでは無いです。結局のところ何を達成したいかによって予測モデルに求める指標は大きく変わるわけですが、今回はこれで十分なのでモデル精度の向上はまた別の機会にしましょう。

ちなみに築年数に対する残差プロットも示しておきます。こっちの方がバラつきが少ないことが分かりますね。

予測の上で重要な要因

構築したモデルにおいて物件価格の予測に大きく寄与している要因は feature_importance により取得可能です。

fn = model.feature_name()
fi = model.feature_importance()
fi = fi / max(fi) # %換算
idx = np.argsort(-fi)
np.dstack((fn, fi))[0, idx[:5]]

N	要因	比率[%]
1	建築年月	13.1
2	築年数	12.1
3	最寄駅までの徒歩時間	10.1
4	15分圏内のコンビニ数	9.2
5	面積	8.7

どうやら建築された時期と築年数という時間に関連のある項目が大きく価格に影響を与えているようです。当然ながら建築年月は購入後に変更できないので、どんな物件を買うかはもちろん大事ですが、いつ買うか/売るかは重要な検討ポイントになりそうです。

他の重要度指標

予測に寄与する要因を見つける方法は、feature_importance だけではありません。

例えば eli5 という機械学習のデバッグ用ライブラリを使用して、gain による重要度を見てみましょう。

# reg は best_params で LGBMRegressor を再フィッティングしたモデル
# -> eli5 では estimator はサポートしていないため
eli5.explain_weights(reg, top=5, importance_type='gain')

N	要因	比率[%]
1	築年数	30.0
2	面積	24.6
3	15分圏内のコンビニ数	7.2
4	建築年月	5.9
5	10分圏内のコンビニ数	4.8

築年須と面積がトップ2に変わりました。

またPermutation Importanceも同じくeli5で簡単に求められます。³

# x_test_wo_na は欠損値を補完したテストデータ
# -> 欠損値があるとエラーとなるため
perm = PermutationImportance(reg).fit(x_test_wo_na, y_test)
eli5.show_weights(perm, feature_names=x_test_wo_na.columns.values)