Uma abordagem de machine learning para prever o tamanho da residência

Selim Mimaroglu, Diretor de Ciência de Dados e Machine Learning

Anqi Shen, Cientista de Dados Principal

O tamanho da família é uma informação importante usada para várias tarefas de elegibilidade e planejamento: acessibilidade de energia, acessibilidade de água, planejamento de rede, demanda e planejamento de água, programas de eficiência energética, incluindo relatórios de energia residencial com comparações entre vizinhos e planejamento de gerenciamento de resíduos. O setor de construção civil é responsável por mais de 30% do consumo total de energia no mundo, e o número de pessoas em edifícios residenciais, também conhecido como “tamanho da família”, afeta muito o consumo total de energia (Rueda 2021).

Nos últimos anos, tem havido muito interesse na detecção de ocupação por meio de machine learning e termostatos inteligentes. A maioria dos termostatos inteligentes consegue detectar a ocupação com precisão dentro do alcance de seus sensores. Há alguns bons trabalhos de modelagem e implementações de software desses trabalhos que também podem prever a ocupação de uma casa. A detecção de ocupação é usada como parte integrante da eficiência energética, especialmente com ar-condicionado e calefação (HVAC): quando não há ocupação, os pontos de ajuste de aquecimento e resfriamento do sistema de HVAC são ajustados para promover economia de energia. A detecção de ocupação, independentemente de como é realizada, tem um resultado binário: ocupado vs. não ocupado. Embora essas informações possam ser muito úteis em alguns cenários, elas não são suficientes para conduzir alguns dos casos de uso e tarefas descritos acima, especialmente para planejamento e elegibilidade de acessibilidade.

Neste trabalho, compartilhamos nosso modelo de machine learning que pode prever com muita precisão o número de pessoas que vivem em uma casa. Antes de entrar em detalhes, é importante ressaltar que dados de granularidade fina sobre o tamanho das famílias não estão disponíveis na maioria das regiões dos Estados Unidos. O Censo dos EUA fornece apenas o tamanho médio das famílias por setor censitário. Embora essas informações possam ser úteis em alguns casos, elas não podem responder a perguntas detalhadas ou individuais, cujas respostas são necessárias para a elegibilidade a programas federais comoPrograma de Assistência à Eficiência Energética para Residências de Baixa Renda (LIHEAP) e Programa de Assistência à Água para Residências de Baixa Renda (LIHWAP), além da maioria dos estaduais, como o Programa de Assistência Energética de Maryland (MEAP). O tamanho da família afeta o consumo de energia; alguns dos grandes eletrodomésticos estão correlacionados ao tamanho da família, como aquecedor de água, lavadora, secadora e lava-louças. O tamanho da família também afeta o uso de água e os resíduos produzidos. Portanto, conhecer o tamanho da família em um nível granular pode ser muito útil para o planejamento da rede (inteligente), o planejamento e a demanda de água e a gestão de resíduos.

Um mapa representando o modelo de tamanho da família
Figura 1: Modelo de tamanho de domicílio na prática. Legendas: preto=1, laranja-2, ciano=3, vermelho=4, azul=5, verde=6

Nossos modelos de deep learning são capazes de prever o tamanho das famílias em nível pessoal, como visto na Figura 1 acima. O Censo dos EUA fornece informações sobre o tamanho médio das famílias (Figura 2) para grandes regiões de centenas de lares, conhecidas como áreas. O Censo dos EUA também informa a distribuição do tamanho das famílias (veja a Figura 3, que descreve essas informações sobre algumas áreas em Maryland). Para a maioria das tarefas de acessibilidade de energia e de água e planejamento de rede, é necessária uma granularidade mais fina no tamanho das famílias, semelhante à fornecida pelo nosso modelo.

Um gráfico de barras da distribuição do Censo dos EUA em algumas áreas de Maryland
Figura 2: Distribuição do Censo dos EUA em algumas áreas de Maryland

Metodoloia de machine learning

Pesquisamos a literatura, mas não encontramos nenhum trabalho de modelagem de machine learning comparável. Nosso objetivo é prever o tamanho da família a partir de dados de energia elétrica, que podem fazer parte da Infraestrutura de Medição Avançada (AMI) ou de dados de faturamento. Inovamos nossa arquitetura de deep learning após revisar cuidadosamente arquiteturas de última geração publicadas por pesquisadores. Tentamos manter o número de parâmetros e a profundidade do modelo em níveis razoáveis ​​para treinamento e pontuação eficientes. Nossa arquitetura final tem aproximadamente 30 camadas e é composta por cerca de 600 mil parâmetros.

Nossos modelos são capazes de prever o número de ocupantes ativos na casa com granularidade semanal. Para granularidades maiores, como meses ou um ano, agregamos saídas semanais na granularidade de destino.

Comparações

Realizamos comparações diretas entre nosso modelo de deep learning, regressão logística e setor censitário dos EUA em uma área consideravelmente grande em Maryland. A regressão logística, que é um modelo de classificação popular, é treinada no mesmo conjunto de dados e avaliada no mesmo conjunto de desenvolvimento que o modelo de deep learning. Listamos os valores de precisão, recall e F1 na Tabela 1 abaixo. A pontuação F1 é uma forma de combinar é definida como a média harmônica da precisão e do recall do modelo. Você pode encontrar as definições formais na Wikipedia, mas intuitivamente, o recall é a capacidade de um modelo de encontrar todos os casos relevantes, enquanto a precisão é a qualidade de um modelo de identificar corretamente a classe certa (no nosso caso, o tamanho da família). Para cada métrica, um valor mais alto é melhor, e o máximo pode ser 1,0. Em cinco das seis categorias, nosso modelo é o vencedor e, na categoria de três pessoas, os resultados de F1 do nosso modelo são comparáveis ​​aos do vencedor.

Uma tabela comparando uma área consideravelmente grande em Maryland
Tabela 1: Comparação em uma área consideravelmente grande em Maryland. Os melhores resultados estão destacados em verde, e os piores, em vermelho.

A Figura 3 (abaixo) mostra o consumo de energia de três residências reais diferentes por meio de dados da AMI. Um leitor iniciante pode pensar que, ao analisar os dados de uso de energia, seria fácil estimar corretamente o número de pessoas que vivem nessas casas. Você pode ver na Figura 4 que esse não é o caso: essas famílias não são facilmente ou linearmente separáveis. Os três exemplos mostrados aqui demonstram que nosso modelo é sofisticado e poderoso o suficiente para identificar corretamente o tamanho da família, particularmente — e mais importante — em casos não intuitivos.

Um gráfico de linhas de dados de energia da AMI em três domicílios, modificado para preservação da privacidade
Figura 3: Dados de energia da AMI em três residências, modificados para preservação da privacidade. Todos foram previstos corretamente pelo modelo de família.

A Figura 4 mostra uma comparação direta dos dados de matrícula, prevendo quais domicílios estão matriculados no programa LIHEAP. Podemos ver que em cada região, nossos modelos preveem mais clientes inscritos. Como pode ser visto, o benefício de usar nossos modelos é enorme, atingindo 149%, 177% e 219% quando comparado com a abordagem do Censo americano.

Um gráfico de barras mostrando a verificação de matrícula em três regiões diferentes nos EUA
Figura 4: Verificação de matrícula em três regiões diferentes nos EUA. Nossos modelos (renda, tamanho da família, idade) apresentam desempenho consideravelmente melhor do que a abordagem do Censo dos EUA.

Clientes de baixa renda têm dificuldades para pagar suas contas de serviços públicos. Nossos modelos de deep learning — renda, tamanho da família e outros — estão ajudando as empresas de serviços públicos a encontrar, alcançar e inscrever muito mais clientes de baixa renda em programas de assistência financeira e eficiência.