#Rotina de análise de descritores socioeconomicos por municípios
#Dados obtidos do atlas do desenvolvimento humano no Brasil
# Elaboração: Atlas do Desenvolvimento Humano no Brasil. Pnud Brasil, Ipea e FJP, 2020.
# Fontes: dados do IBGE e de registros administrativos, conforme especificados nos metadados disponíveis disponíveis em: http://atlasbrasil.org.br/acervo/biblioteca.


#Baixando, instalando e carregando pacotes-----------------
packages<-c('ggplot2','readxl','dplyr','reshape2','extrafont','corrplot')

package.check <- lapply(packages, FUN = function(x) {
  if (!require(x, character.only = TRUE)) {
    install.packages(x, dependencies = TRUE)
    library(x, character.only = TRUE)
  }
})

rm(list=ls()) ## Removendo as variáveis

#Abrindo planilha de variáveis sociodemográficas-----------------
df_bruto<-read_xlsx('input_data/variaveis_sociov2.xlsx')

summary(df_bruto)

#Transformando variáveis para uma escala de 0 a 100 (percentuais)
df<-df_bruto%>%mutate(municipio=substring(municipio,1,nchar(municipio)-5),
                popurbana=popurbana*100/poptotalcenso,
                pop18mais=pop18mais*100/poptotalcenso,
                pop65mais=pop65mais*100/poptotalcenso,
                mulheres=mulheres*100/poptotalcenso,
                negros=negros*100/poptotalibge,
                idhm=idhm*100,
                idhmr=idhmr*100,
                idhme=idhme*100,
                idhml=idhml*100)

#Removendo variáveis desnecessárias
df<-df%>%select(-poptotalibge,-homens,-brancos,-poprural,-poptotalcenso)


#Sumário estatístico básico

summary(df$idhm)


#Gráficos Exploratórios----------
#Modificando o tema (layout) de todos os gráficos
theme_set(theme_bw()+theme(text=element_text(size=12,  family="Times New Roman")))

#Primeiro histograma
ggplot(df,aes(x=idhm))+geom_histogram(fill='grey')

#Adicionando média, moda e mediana
ggplot(df,aes(x=idhm))+geom_histogram(fill='grey')+
  geom_vline(xintercept = mean(df$idhm), linetype=2)+
  geom_vline(xintercept = median(df$idhm), linetype=3)


ggplot(df_bruto,aes(x=poptotalcenso))+geom_histogram()+
  geom_vline(xintercept = mean(df_bruto$poptotalcenso), linetype=2)+
  geom_vline(xintercept = median(df_bruto$poptotalcenso), linetype=3)+
  xlim(c(0,100000))
  

#Gráficos para análise exploratória--------------
#Alterando a estrutura da tabela. 1 coluna com variável, outra com valores.
df.m<-melt(df)

#Fazendo um histograma para cada variável
ggplot(df.m,aes(x=value))+geom_histogram()+
  facet_wrap(~variable)

#Correlação entre as variáveis--------------
M<-cor(df[2:17],method='spearman')
corrplot(M,type='upper',method = 'pie')