shobylogy

叩けシンプルの杖

不動産テックのためのデータセットはどこにあるのか

近年、不動産テックといった文脈で「不動産ビッグデータ」や「不動産AI」といった話をよく聞きます。 とは言え、そんな分析に使えるデータセットはどこにあるのでしょうか。

結論としては「都合の良いデータセットはない」という話になってしまうのですが、調べた結果をまとめます。

物件データの種類について

主に不動産の物件データに関しては、主に「C向け/B向け」と「掲載/成約」という2軸で以下の4種類に分類することができます。

  • C向け掲載データ
  • C向け成約データ
  • B向け掲載データ
  • B向け成約データ

C向け/B向け

まず、「C向け/B向け」という軸について。 こちらは、借り手向けであるか、不動産業者間取引のデータであるか、という違いです。

C向けのデータは、一般的な不動産の借り手に対する情報提示のために用いられ、 B向けのデータは、不動産会社のために物件情報をやり取りするために用いられます。

C向けのデータは不動産ポータルサイト等で閲覧可能な状態に置かれていることが多いですが、ポータルサイトの情報は「広告」であることに注意が必要です。

仲介会社がポータルサイトに広告掲載料を払い、広告枠を購入している、という仕組み上、掲載されている物件にはバイアスやノイズが付き物です。

具体的には、ユーザーの獲得に結びつきやすい優良物件のみが掲載されやすいですし*1、同一物件が異なる仲介業者により多数登録されるため、物件情報には重複やミスが多くなります。*2

B向けのデータは、元付会社が仲介会社に対する情報発信に用いられる上、単一の元付業者のみが情報を入力するためC向けに比べ正確ですが、宅地建物取引業者でなければ閲覧が不可能であり、データの入手が困難です。

掲載/成約

次に、「掲載/成約」という軸について。

不動産情報は、掲載された価格と、成約された価格に差がある可能性があるため、掲載データよりも成約データの方が正確です。

掲載価格はあくまでその時点でのスナップショットであり、成約までには価格調整が行われる可能性があります。

不動産市場の需給に合わせた価格調整や、しばらく借り手が現れなかった場合の値下げなどです。

データを抱えるサービス

以下に実際に「C向け/B向け」と「掲載/成約」という2軸による4種類のデータを抱えるサービスをリストアップします。

C向け掲載データ

C向け成約データ

B向け掲載データ

B向け成約データ

どうやってデータを収集するのか

さて、データの種類とそれを抱えるサービスが分かったところで、どうやってそれらのデータを収集するのかについてです。 基本的にはスクレイピングするか、業務提携を結んでデータを提供してもらうしかありません。

情報解析を目的とする場合には記録媒体への記録が著作権法上認められているため、 機械学習のためのスクレイピング自体に違法性はありませんが、 相手のサービスに負荷をかけてしまうと偽計業務妨害等に問われる可能性があります*3

storialaw.jp

数十万件の詳細な物件データを負荷をかけずにお行儀よく取得するためには、1件あたり5秒としても、数十日かかる計算になります。 厳しい...

また、最も情報の信頼性が高いレインズに関しては、明確にスクレイピングが禁止されており、データを取得しようとするとアカウントが停止される可能性が高くなります。

www.member.kinkireins.or.jp

この辺りの事情を考えると、すでにデータを所持している各種ポータルサイトの運営会社からデータの提供を受けるしかありませんが、 ビジネスの根幹になっているデータを他社に販売するのは難しいと考えられるため、何かしらのメリットを提示して業務提携を結ぶという選択肢しかなさそうです。 厳しい...

怒られないかヒヤヒヤしながら行儀悪くスクレイピングする、という選択肢に至ってしまう企業も多いようです。

miyazawataichi.hatenablog.com

オープンデータへの期待

ここまで書いたように、不動産データは各社がそれぞれ抱えているものの、利用可能な状態にはなっていません。

そのため、この状況を改善すべく、国土交通省が主導で不動産総合データベースという計画を立てており、一部地域で試運用を行なっているようです。

www.mlit.go.jp

こちらの本運用に期待しましょう。

まとめ

不動産テックのためのデータセットはC向け、B向けの各種サービスが保有していますが、そちらは利用できる形で公開されていません。

利用するためにはスクレイピングをするか、業務提携を結んでデータの提供を受けるという方法しかなさそうです。

国土交通省が主導して作成されている不動産総合データベースに期待しましょう。

*1:これが行き過ぎるとおとり物件問題に結びつきます

*2:室外洗濯機置き場などの物件のデメリットなどをあえて掲載データに含めないような会社も存在するようです。

*3:岡崎市立中央図書館事件