O objetivo deste projeto é realizar a análise e limpeza de dados de telecomunicações. Me utilizo de tecnica de limpeza de dados para tratar os dados faltantes, outliers e dados duplicados tudo isso fazendo uso de funções que foram criadas para tal.
- Converter dados para o tipo correto
- Tratar dados faltantes
- Tratar outliers
Esta pasta contém 3 arquvios com funções que podem ser usadas para limpar os dados.
Os arquivos e funções são:
-
conversao_dados.py
convert_to_stringconvert_to_intconvert_to_datetimeconvert_to_factor
-
trat_outliers.py
remove_outliersreplace_outliers_with_fencesgetOveview
-
valores_ausentes.py
func_calc_percentual_valores_ausentes: Calcula o percentual de valores ausentes em um DataFramefunc_calc_percentual_valores_ausentes_linha: calcula o percentual de linhas com valores ausentesfunc_calc_percentual_valores_ausentes_coluna: calcula valores ausentes por colunafix_missing_ffill: Imputação de valores ausentes usando forward fill (preenchimento progressivo) - preenche com o próximo valor válidofix_missing_bfill: Imputação de valores ausentes usando backward fill (preenchimento regressivo) - preenche com o último valor válidofix_missing_median: Imputação usando a medianafix_missing_value: Preenche valor NAdrop_duplicates: Remove linhas duplicadasdrop_rows_with_missing_values: Drop de linhas com valores ausentesdrop_columns: Drop de colunas
