世帯規模を予測するための機械学習アプローチ

データサイエンスおよび機械学習担当ディレクター、Selim Mimaroglu

プリンシパル・データ・サイエンティスト、Anqi Shen

世帯規模は、エネルギー料金支払い支援、水道料金支払い支援、グリッド計画、水の需要と計画、エネルギー効率化プログラム(近隣との比較による世帯エネルギー使用レポートを含む)、および廃棄物管理計画など、さまざまな適格性や計画に関するタスクに使用される重要な情報の1つです。建物部門は世界全体のエネルギー消費量の30%以上を占め、「世帯規模」とも呼ばれる住宅居住者の人数は、総エネルギー使用量に大きな影響を与えます(Rueda、2021年)。

近年、機械学習とスマート・サーモスタットによる在室検出についての関心が高まっています。ほとんどのスマート・サーモスタットは、センサーの範囲内で在室状態を正確に検出できます。家庭内の在室状況を予測できる、優れたモデリングに関する研究やその研究のソフトウェア実装が存在します。在室検出は、特にHVACでエネルギー効率を実現するための重要な部分として使用されています。在室状態でない場合、HVACの暖房および冷房の設定値は、省エネを促進するように調整されます。在室検出は、その方法に関係なく、在室か不在かという2つの結果のいずれかが示されます。この情報は、一部のシナリオでは非常に役立つ場合がありますが、前述したような、特に計画および支払い支援への適格性に関する一部のユースケースやタスクを実行するには不十分です。

この研究では、1つの世帯の人数を非常に正確に予測できる機械学習モデルを紹介します。詳細に進む前に、米国のほとんどの地域では、詳細な世帯規模のデータを入手できないことを指摘することが重要です。米国の国勢調査では、国勢統計区ごとの平均世帯規模のみが提供されます。この情報は役立つ場合もありますが、詳細な個人または世帯別の質問には回答できません。これらの回答は、低所得世帯向けエネルギー支援プログラム(LIHEAP)や低所得世帯向け水道支援プログラム(LIHWAP)などの連邦政府による支援プログラム、およびメリーランド州のエネルギー支援プログラム(MEAP)などの州運営プログラムで必要となります。世帯規模はエネルギー使用量に影響します。給湯器、洗濯機、乾燥機、食器洗い機などの一部の大型機器は、世帯規模との相互関係があります。世帯規模は、水の使用量や生産される廃棄物の量にも影響します。そのため、世帯規模を詳細に把握することは、(スマート)グリッド計画、水の需要と計画、および廃棄物管理において非常に役に立ちます。

世帯規模モデルを示す地図
図1: 世帯規模モデルの使用例。凡例: 黒=1人、オレンジ=2人、シアン=3人、赤=4人、青=5人、緑=6人

当社のディープラーニング・モデルは、上の図1に示すように、個人レベルで世帯規模を予測することができます。米国の国勢調査では、統計区と呼ばれる数百世帯の大規模地域における平均世帯規模情報(図2)が得られます。米国の国勢調査では、世帯規模の分布も得られます(図3は、メリーランド州の一部の地域に関するこの情報を示しています)。エネルギー料金支払い支援、水道料金支払い支援、グリッド計画タスクのほとんどの場合、世帯規模での詳細な情報(当社のモデルで提供されているものと同様)が必要です。

米国の国勢調査で得られたメリーランド州の一部地域に関する分布の棒グラフ
図2: 米国の国勢調査で得られたメリーランド州の一部地域に関する分布

機械学習の方法

文献を探しましたが、類似する機械学習モデリングに関する研究を見つけることはできませんでした。当社の目的は、高度な測定インフラストラクチャ(AMI)または請求データに含まれる電気に関するデータから世帯規模を予測することです。当社は、研究者によって発表された最先端のディープラーニング・アーキテクチャを慎重にレビューした後、当社のディープラーニング・アーキテクチャを刷新しました。効率的なトレーニングとスコアリングのために、パラメータの数とモデルの深さを合理的なレベルに維持するよう試みしました。最終的なアーキテクチャには、約30の層があり、約60万個のパラメータで構成されています。

当社のモデルは、週単位の粒度で世帯のアクティブな居住者数を予測することができます。月や年など粒度が大きい場合は、週単位の出力を対象の粒度に集計します。

比較

メリーランド州のかなり大きな地域について、当社のディープラーニング・モデル、ロジスティック回帰、および米国の国勢統計区の結果を直接比較しました。一般的な分類モデルであるロジスティック回帰は、ディープラーニング・モデルと同じトレーニング・データセットでトレーニングし、同じ開発セットで評価しました。適合率、再現率、およびF1値を次の表1に示します。F1スコアは、モデルの適合率と再現率を組み合せる方法であり、モデルの適合率と再現率の調和平均として定義されます。正式な定義はWikipediaにありますが、直感的に言えば、再現率はモデルがすべての該当するケースを見つける能力であり、適合率は正しいクラス(ここでは世帯規模)を正しく特定するモデルの品質です。それぞれの指標は、値が大きいほど適切であり、最大値は1.0です。6つのクラスのうち5つで当社のモデルが最も優れており、3人のクラスの場合、当社のモデルにおけるF1の結果は、最も優れた結果と同等です。

メリーランド州のかなり大きな地域で比較した表
表1: メリーランド州のかなり大きな地域での比較最良の結果は緑色で強調表示され、最悪の結果は赤色で強調表示されています。

図3(下)は、AMIデータに基づく、実際の3つの異なる世帯におけるエネルギー使用量を示しています。経験の浅い読者は、エネルギー使用量のデータを見て、これらの世帯に住む人の数を正しく推測するのは簡単だと考えるかもしれません。図4を見ると、そうではないことがわかります。これらの世帯は、簡単につまり線形に分離することはできません。ここに示す3つの例は、当社のモデルが、特に直感的に判断できないケースにおいて、世帯規模を正しく特定できるほど高度かつ強力であることを示しています。

3つの世帯のAMIエネルギー・データの折れ線グラフ(プライバシー保護のために修正済み)
図3: 3つの世帯のAMIエネルギー・データ(プライバシー保護のために修正済み)。世帯モデルによって、すべて正確に予測されました。

図4は、どの世帯がLIHEAPプログラムに登録されているかを予測する登録データの直接比較を示したものです。各地域で、当社のモデルがより多くの登録顧客を予測していることがわかります。図からわかるように、当社のモデルを使用した場合の成果は、米国国勢調査によるアプローチとの比較で149%、177%、219%に達しています。

米国の3つの異なる地域における登録の検証を示す棒グラフ
図4: 米国の3つの異なる地域における登録の検証。当社のモデル(所得、世帯規模、年齢)は、米国の国勢調査によるアプローチよりもかなり優れています。

低所得の顧客は公共料金の支払いが困難です。当社のディープラーニング・モデル(所得、世帯規模など)は、公益事業者が低所得の顧客をより多く見つけ、手を差し伸べ、財務支援プログラムや効率化プログラムに登録するのに役立ちます。