データサイエンスおよび機械学習担当ディレクター、Selim Mimaroglu
シニア・データ・サイエンティスト、Zheng Yang
エネルギー負荷にはいくつかの定義がありますが、世帯のエネルギー支出と総所得の比率として定義するものが最も広く受け入れられています。エネルギー支出には公共料金への支出が含まれ、交通費と水道料金は含まれません。エネルギー効率に関するインサイトとプログラムは、簡単に実施できるヒントとインサイトを提供して、すべての所得水準においてエネルギー負荷を合理的なレベルに維持することを目的としています。低所得世帯では1人当たりのエネルギー使用量が少ないですが、場合によっては世帯所得の大部分をエネルギー料金に費やしていることがよく知られています。Oracle Energy and WaterのUXチームは、低所得である可能性がある顧客について調査を実施しました。その結果、回答者の86%がエネルギー料金を払えるかどうかを心配しており、驚くべきことに64%が昨年中に供給停止通知を受けたことが判明しました。一部の調査(Davis、2021年)では、低所得世帯の40%がエネルギー料金を支払うことが難しいと推定しています。
エネルギー負荷は、多くの理由で追跡すべき重要な指標であり、エネルギー負荷が高いと、エネルギー不安につながり、悪影響をもたらす可能性があります。2015年の住宅エネルギー消費調査データによると、全米世帯の31%が何らかのエネルギー不安を経験しており、他の支出を減らさなければならず、エネルギー料金を支払うためだけに生活必需品を犠牲にしていることが示されています。経済的、経済的、社会的な悪影響は、低所得世帯が食料、医療、住居のための支払いと高額な公共料金との間でトレードオフを行う際にしばしば発生します。さらに悪いことに、公共料金の支払に失敗すると、供給停止や立ち退きの可能性が生じやすくなります。
最近では、新型コロナウイルスのパンデミック、気候関連の災害、ロシアのウクライナ侵攻によって引き起こされた世界のエネルギー市場の持続的な混乱など、さまざまな要因により、ますます多くの人々にとってエネルギー負荷が上昇しています。
Oracle Energy and Waterのデータサイエンス・チームは、個人や世帯レベルでエネルギー負荷とガス料金を予測するために、人工知能(AI)(特にディープラーニング)を活用しています。以下で説明する理由から、エネルギー負荷を正確に予測することは非常に重要ですが、残念ながら、これらの計算に必要なデータが欠落しているか不完全な状態にあります。当社は、非常に正確な予測を行うためのクラス最高のモデリング・アプローチを開発しました。ここでは、モデルの詳細と、トレーニングおよび検証の詳細を説明します。さらに当社のモデルを最高水準のモデルと比べ、さまざまなメリットを紹介します。
残念ながら、次の2つの主な理由から、個人または世帯レベルでエネルギー負荷の指標を正確に計算するのは困難です。
最近の出版物(Lin他、2020年など)では、公益事業者との協力で行われた調査と、欠落した不完全なデータ・セットの悪影響について説明しています。米国では、暖房に最も一般的に使用されるエネルギー源はガスと電気であり、すべての世帯で電気を使用しています。米国国勢調査局によると、すべての米国の家庭の48%が暖房に天然ガスを使用し、37%が電気の暖房を使用しており、燃料油、プロパンなど他のエネルギー源を使用している割合はわずか15%です(Magill、2014年)。
エネルギー負荷の予測に取り組む当社の目標は、最先端のAIモデルを提供して、ガス使用量の正確な予測に関して最大限のインパクトを与えることです。ガスと電気の使用量を組み合わせると、米国内の暖房利用者の85%を対象にすることができます。以下では、電力使用量からのガス使用量の予測と、その他のすぐに利用できる機能について説明します。この取り組みは、斬新で画期的であるだけでなく、エネルギー負荷の指標を正確に計算するためにも必要です。当社の最先端モデルは、エネルギー効率とエネルギー貧困に関心のある研究者や実践者の両方に新しい扉を開きます。
米国の一部の世帯では、高度な測定インフラストラクチャ(AMI)を使用して測定と監視が行われています。スマート・メーター、通信ネットワークおよびデータ管理システムで構成されたこの統合システムは、15分間隔または1時間間隔など細かい粒度で合計使用量に関するデータを提供できます。AMIは一般的になってきており、米国の家庭の約65%がスマート・メーター(Walton、2021年)を保有していますが、従来のメーターからAMIに移行していない顧客が数百万人います。そのため、当社はAMIまたは請求(非AMI)による電力使用量データを入力として取得できるディープラーニング・モデルを開発しました。これにより、当社のモデルはすべての電力利用顧客に適用できます。
一部の電力利用顧客は電気を暖房のエネルギー源として使用しますが、調理などの他の目的でガスを使用することがあります。当社のトレーニング・データセットには、数千万のデータポイントが含まれ、ガス暖房がある場合とない場合の両方のデータポイントがあります。当社の検証では、「実在の未確認」世帯についてのみモデルの結果を比較します。これらの世帯はトレーニングに使用しなかった世帯です。当社の検証は、実際のスコアリング・シナリオと非常によく一致していることに注意してください。
ガス料金の予測については、当社は次の2段階のアプローチに従います。
ガス価格エンジンは精度の向上につながりますが、常に利用できるとは限りません。そのため、EIAから入手できるガス価格を使用して、モデルの結果を示しています。
次のセクションでは、当社のモデルの使用例を示し、実在の未確認世帯(前述のモデル・トレーニングに含まれない世帯)についての結果を紹介します。
当社の知る限り、電気に関するデータから個人のガス使用量を予測できる機械学習モデルは存在しないため、当社の貢献には新規性があります。残念ながら、当社の結果の比較に使用できるような、経験則となる個人のガス使用量やガス料金の代理値を見つけることはできませんでした。しかし、数百世帯または数千世帯からなる国勢統計区レベルでは、平均ガス消費量の値が提供されます。これらの値は米国の国勢調査によって得られたもので、個人のデータではなく最近のデータでもありませんが、多くの場合、エネルギー負荷を計算するために使用されます。米国の国勢統計区には数百世帯が含まれているため、国勢統計区レベルと当社の結果を比較しました。以下の計算では複数の世帯について当社のモデルを実行しています。
最初に1つの世帯を対象として、ガス暖房を使用している、実在の未確認世帯におけるモデルの実行結果を紹介します。
図1は、ガス予測ディープラーニング・モデルの使用例を示しており、ガス使用量の予測値(赤)は実際の値(青)と非常によく一致しています。暖房を使用する日については、ガス使用量が大幅に増加していることがわかります(この世帯はガス暖房を使用しているため、これは予想と一致します)。1年の残りの期間はガス使用量がかなり減少しますが、ゼロにはなりません。これは、この世帯で調理などの目的にもガスが使用されていることを示しています。図2も似たような傾向を示します。この世帯も「実在の未確認」世帯です。この世帯では、ガスを暖房に使用していないため、冬季のガス使用量はそれほど多くありません。
図3は、米国国勢統計区の数値を使用して世帯ガス料金を予測する場合の大きな問題を示しています。これらの数値は平均値であり、使用するには不十分であり、対角線から遠く離れた点は大きな誤差を示しています。この問題を解決するために、当社は、ガス使用量を予測するAIモデルを使用し、予測したガス使用量をEIAのガス価格に基づいてガス料金に変換しました。ガス価格エンジンを使用すると、より正確でより良い結果が得られますが、そのような価格エンジンは常に利用できるわけではありません。図4では、非常によい一致が見られます。EIA値を使用して計算したガス料金は、特に前の図と比較して、実際の値にはるかに近くなっています。このモデルの誤差は、任意の点の対角線までの距離で測定され、非常に妥当なものです。
Oracle Cloud Infrastructure(OCI)およびOCI Data Science(OCI DS)を使用して、モデルのトレーニング、検証およびスコアリングを行います。OCIは、CPUとGPUを使用した柔軟で信頼性の高いコンピューティングを提供します。OCI Data Scienceは、生産性とコラボレーションを促進し、モデルの監査と再現を実現して、本番環境へのモデルの導入を容易にします。
ディープラーニング・アーキテクチャについては、新しいアーキテクチャに加え、ResNet、RNNおよびCNNの組合せを含む、文献で最も一般的に使用されているアーキテクチャを評価しました。非常に深いアーキテクチャを使用する必要はありませんでした。モデル・パラメータの数を妥当なレベルである約60,000個に保つことで、トレーニングとスコアリングにかかる時間を削減できました。GPUを使用すると、AMI入力モデルではトレーニング全体に約5時間かかり、請求入力でのトレーニングの場合、この数値は2時間未満に減少します。
当社のディープラーニング・アーキテクチャでは、RNN、CNN、ドロップアウト、プーリングの有用な概念を組み合わせて実装しています。当社は、実験的な研究を通じて、検証データに対して誤りが少ない最適なディープラーニング・アーキテクチャを選択しました。
エネルギー負荷の指標は大規模に調査されており、特に支払い支援関連プログラムで多くの注目を集めています。一部の専門家は、エネルギー負荷の指標を適格性のある顧客を特定するための最も重要な指標として扱いますが、他の多くの専門家は、詳細な分析とインサイトの獲得に役立つ二次的な補助指標としてエネルギー負荷を扱うことを好みます。
| LIHEAP適格性戦略 | 再現率 |
|---|---|
| エネルギー負荷、実際の所得 | 0.62 |
| エネルギー負荷、米国国勢調査による所得 | 0.17 |
表1: 低所得世帯向けエネルギー支援プログラム(LIHEAP)への適格性とエネルギー負荷の指標の関連性
図5と表1は、エネルギー負荷だけで低所得世帯向けエネルギー支援プログラム(LIHEAP)への適格性があるかを判断できないことを示しています。LIHEAPは、連邦政府が資金を提供し、州が管理するプログラムであり、所得、世帯人数、年齢(一部の州)を含む適格性基準を採用しています。エネルギー負荷を主要指標として使用すると、実際の収入を使用した場合、適格性のある顧客のうち62%しか対象者として判断できず、また、多くの場合、実際の収入を把握することができません。米国国勢調査の所得データを代わりに使用すると、表1に示すように再現率は17%に低下します。図5では、低所得世帯にはエネルギー負荷が低い世帯(青色)と高い世帯(赤色)があることがわかります。エネルギー負荷は非常に有用な指標ですが、LIHEAPや同様のプログラムへの適格性基準として代用することはできません。