diff --git a/README.md b/README.md index bee93b5..0f03ddb 100644 --- a/README.md +++ b/README.md @@ -1 +1,108 @@ -# machine-learning-studies \ No newline at end of file +# Vem cá pra eu te explicar tudo que tá rolando nesse código 😄 😆 😊 😃 ☺️ + +As primeiras 4 linhas são de importações. + +Vamos entender o que essa função abaixo faz: Esta função é responsável pela limpeza e preparação dos dados. Ela se encaixa na parte de limpeza/padronização dos dados. Ela filtra os dados, reformula a tabela e combina duas fontes de dados diferentes em uma única tabela. + + +```python +def prepare_country_stats(oecd_bli, gdp_per_capita): + oecd_bli = oecd_bli[oecd_bli["INEQUALITY"]=="TOT"] + oecd_bli = oecd_bli.pivot(index="Country", columns="Indicator", values="Value") + gdp_per_capita.rename(columns={"2015": "GDP per capita"}, inplace=True) + gdp_per_capita.set_index("Country", inplace=True) + full_country_stats = pd.merge(left=oecd_bli, right=gdp_per_capita, + left_index=True, right_index=True) + full_country_stats.sort_values(by="GDP per capita", inplace=True) + remove_indices = [0, 1, 6, 8, 33, 34, 35] + keep_indices = list(set(range(36)) - set(remove_indices)) + return full_country_stats[["GDP per capita", 'Life satisfaction']].iloc[keep_indices] + +``` + +Agora, esta próxima parte: + +```python +import os +datapath = os.path.join("datasets", "lifesat", "") +``` + +Eu estou apenas definindo o caminho para os datasets que serão utilizados. Basicamente definindo onde os arquivos estão localizados. + +```python +%matplotlib inline +import matplotlib as mpl +mpl.rc('axes', labelsize=14) +mpl.rc('xtick', labelsize=12) +mpl.rc('ytick', labelsize=12) +``` + +Essas linhas de código configuram o ambiente para a visualização de gráficos. O %matplotlib inline é um comando específico do Jupyter Notebook que permite que os gráficos sejam exibidos diretamente no notebook. + +```python +import matplotlib.pyplot as plt +import numpy as np +import pandas as pd +import sklearn.linear_model + + +oecd_bli = pd.read_csv(datapath + "oecd_bli_2015.csv", thousands=',') +gdp_per_capita = pd.read_csv(datapath + "gdp_per_capita.csv",thousands=',',delimiter='\t', + encoding='latin1', na_values="n/a") +``` + +Aqui estou importando as bibliotecas necessárias e lendo os dados dos arquivos CSV. Os parâmetros adicionais na leitura dos arquivos ajudam a tratar os dados corretamente, como o thousands=',' que define o separador de milhares e na_values="n/a" que define o que deve ser considerado como valor ausente. + +```python + +country_stats = prepare_country_stats(oecd_bli, gdp_per_capita) +X = np.c_[country_stats["GDP per capita"]] +y = np.c_[country_stats["Life satisfaction"]] + +``` + +Chamo a função `prepare_country_stats` para preparar os dados e, em seguida, cria as variáveis `X` e `y`, que serão usadas no modelo de regressão linear. X contém os dados de PIB per capita e y contém os dados de satisfação com a vida. + + +```python +country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction') +plt.show() +``` + +Criando um gráfico de dispersão para visualizar a relação entre o PIB per capita e a satisfação com a vida. + +```python +model = sklearn.linear_model.LinearRegression() +``` +Definindo modelo de regressão linear, que será usado para entender a relação entre as variáveis e fazer previsões. (vou explicar melhor isso no final, fica d boas) + +```python +model.fit(X, y) + +X_new = [[22587]] # Cyprus' GDP per capita +print(model.predict(X_new)) # outputs [[ 5.96242338]] + +``` + +FINALMENTE!Treino meu modelito com os dados (model.fit(X, y)) e faz uma previsão (model.predict(X_new)) para o PIB per capita de Chipre.( Poderia ser outro mas o querido do Livro que eu to lendo fez com esse testei com outros tbm) + +O PIB per capita pode ser interpretado como a “grana que a pessoa tem”, ou seja, é uma medida da riqueza econômica de um país dividida pelo número de habitantes. + + +## Um pouco bem pouco quase nada sobre regressão linear 🚎 + + +Em um modelo de regressão linear, a variável dependente é aquela que você tenta prever ou explicar, e a variável independente é aquela que você usa para fazer a previsão. No contexto do que estamos fazendo ficaria algo assim: + +A variável dependente é a ‘Life satisfaction’ (satisfação com a vida), pois é o que o modelo tentará prever. +A variável independente é o ‘GDP per capita’ (PIB per capita), pois é o preditor que você está usando para explicar as variações na satisfação com a vida. + +A ideia é que, ao analisar os dados, podemos usar o PIB per capita para prever a satisfação com a vida das pessoas em diferentes países. O modelo de regressão linear tentará encontrar a melhor linha reta (ou seja, a relação linear) que se ajusta aos dados de PIB per capita e satisfação com a vida, permitindo fazer previsões sobre a satisfação com a vida com base em novos valores de PIB per capita. + + + +### conclusao + +A linha no gráfico é chamada de linha de regressão. Ela é usada para mostrar a tendência geral dos dados. Neste caso, a linha de regressão mostra que, em geral, à medida que o PIB per capita aumenta, a satisfação com a vida também aumenta. + +tchauuu ateh o prox capitulo 🚕 diff --git a/aprendizado-online.png b/aprendizado-online.png new file mode 100644 index 0000000..aaf1429 Binary files /dev/null and b/aprendizado-online.png differ diff --git a/life-satis.ipynb b/life-satis.ipynb new file mode 100644 index 0000000..4592c1a --- /dev/null +++ b/life-satis.ipynb @@ -0,0 +1,158 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 1, + "id": "36269cd4-d4d7-4893-87a0-de89e81f9d58", + "metadata": {}, + "outputs": [], + "source": [ + "# Python ≥3.5 is required\n", + "import sys\n", + "assert sys.version_info >= (3, 5)" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "id": "d440b64c-e639-4632-830f-d451bf335b91", + "metadata": {}, + "outputs": [], + "source": [ + "# Scikit-Learn ≥0.20 is required\n", + "import sklearn\n", + "assert sklearn.__version__ >= \"0.20\"" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "51471b9f-2d2a-468c-95a0-addf6ce53676", + "metadata": {}, + "outputs": [], + "source": [ + "def prepare_country_stats(oecd_bli, gdp_per_capita): \n", + " oecd_bli = oecd_bli[oecd_bli[\"INEQUALITY\"]==\"TOT\"]\n", + " oecd_bli = oecd_bli.pivot(index=\"Country\", columns=\"Indicator\", values=\"Value\")\n", + " gdp_per_capita.rename(columns={\"2015\": \"GDP per capita\"}, inplace=True)\n", + " gdp_per_capita.set_index(\"Country\", inplace=True)\n", + " full_country_stats = pd.merge(left=oecd_bli, right=gdp_per_capita,\n", + " left_index=True, right_index=True)\n", + " full_country_stats.sort_values(by=\"GDP per capita\", inplace=True)\n", + " remove_indices = [0, 1, 6, 8, 33, 34, 35]\n", + " keep_indices = list(set(range(36)) - set(remove_indices))\n", + " return full_country_stats[[\"GDP per capita\", 'Life satisfaction']].iloc[keep_indices]" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "id": "290d168a-3079-4de0-8335-9ffbe71a0355", + "metadata": {}, + "outputs": [], + "source": [ + "import os\n", + "datapath = os.path.join(\"datasets\", \"lifesat\", \"\")" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "id": "130e9302-144d-45c1-96d4-49b94967e073", + "metadata": {}, + "outputs": [], + "source": [ + "# To plot pretty figures directly within Jupyter\n", + "%matplotlib inline\n", + "import matplotlib as mpl\n", + "mpl.rc('axes', labelsize=14)\n", + "mpl.rc('xtick', labelsize=12)\n", + "mpl.rc('ytick', labelsize=12)" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "id": "e43964ec-2840-43e1-83a1-1159c5fd949e", + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[[5.96242338]]\n" + ] + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "import numpy as np\n", + "import pandas as pd\n", + "import sklearn.linear_model\n", + "\n", + "# Load the data\n", + "oecd_bli = pd.read_csv(datapath + \"oecd_bli_2015.csv\", thousands=',')\n", + "gdp_per_capita = pd.read_csv(datapath + \"gdp_per_capita.csv\",thousands=',',delimiter='\\t',\n", + " encoding='latin1', na_values=\"n/a\")\n", + "\n", + "# Prepare the data\n", + "country_stats = prepare_country_stats(oecd_bli, gdp_per_capita)\n", + "X = np.c_[country_stats[\"GDP per capita\"]]\n", + "y = np.c_[country_stats[\"Life satisfaction\"]]\n", + "\n", + "# Visualize the data\n", + "country_stats.plot(kind='scatter', x=\"GDP per capita\", y='Life satisfaction')\n", + "plt.show()\n", + "\n", + "# Select a linear model\n", + "model = sklearn.linear_model.LinearRegression()\n", + "\n", + "# Train the model\n", + "model.fit(X, y)\n", + "\n", + "# Make a prediction for Cyprus\n", + "X_new = [[22587]] # Cyprus' GDP per capita\n", + "print(model.predict(X_new)) # outputs [[ 5.96242338]]" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "5419dd5b-3959-4bfb-a56f-cf31352a7056", + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.2" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +}