Skip to content

dutraluiz/Python-Scripts-in-Orange

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 

Repository files navigation

Scripts python no Orange Data Mining

1. Apresentação

O repositório reúne alguns scripts em python para o Orange Data Mining, previamente utilizados no pré-processamento de dados aerogeofísicos e derivados em estudos preditivos em Geociências.

2. Orange Data Mining

O Orange Data Mining 1 é um software de código aberto baseado no python que não requer conhecimento de programação ou domínio de estatística e matemática. O software é gratuitamente distribuido em: orangedatamining.com.

3. Utilização dos scripts

3.1 Fluxograma

Os scripts são executados no widget Python Script. O banco de dados deve ser carregado em um dos widget: File, CSV File Import, Datasets ou SQL Table e conectado ao widget Python Script.

3.2 Widget Python Script

A entrada dos códigos no widgets pode ser feito colando ou importando. Para colar um código previamente copiado é necessário clicar no + e apertar CTRL + V no Windows ou Command + V no Mac. Já para importação, deve-se clicar em More > Import script from File e selecionar o script baixado em seu computador.

4. Scripts python

4.1 Remoção de valores extremos

Os dados radiométricos (i.e., K, eU e Th) comumentemente apresentam valores extremos, sejam muito alto em relação à média e moda ou negativos. A substituição (ou remoção) desses valores podem levar a melhorias significativas no desempenho do algoritmo 2,3. Assim, o script Cut-offs calcula os limites inferior (LI) e superior (LS) e substitui os valores abaixo e acima, respectivamente, conforme sugere Naghetini e Silveira (2021) 3.

LI LS Referência
μ/10 P99,5(X) Naghetini e Silveira (2021)

Onde μ é média e P99,5(X)é o percentil 99,5 de um dado radioelemento.

Mais informações sobre essa proposta pode ser consultada na monografia e no repositório.

4.2 Superamostragem

A superamostragem consiste na geração de dados sintéticos. A técnica envolve a seleção aleatória de um ponto da classe minoritária e de seu vizinho mais próximo. A diferença entre eles é multiplicada por um número aleatório entre 0 e 1, resultando na geração do dado sintético, em outras palavras, um ponto aleatório é escolhido entre um ponto selecionado e seu vizinho 4.

(Retirado de Das, 2019)

O script gera os dados sintéticos utilizando o algoritmo SVM (support vector machine). Esse método foi utilizado por Prado et al. (2020) 5. A documentação completa pode ser consultada em SVM-SMOTE. A execução desse script requer a instalação do pacote imbalanced-learn no Orange, conforme o tutorial:

Footnotes

  1. Demsar J, Curk T, Erjavec A, Gorup C, Hocevar T, Milutinovic M, Mozina M, Polajnar M, Toplak M, Staric A, Stajdohar M, Umek L, Zagar L, Zbontar J, Zitnik M, Zupan B (2013) Orange: Data Mining Toolbox in Python, Journal of Machine Learning Research 14(Aug): 2349−2353.

  2. Kuhn, M., e Johnson, K., 2013b, Data Pre-processing, in Applied Predictive Modeling, New York, NY, Springer New York, p. 27–59, doi:10.1007/978-1-4614-6849-3_3.

  3. Naghetini, F., e Silveira, G., 2021, Utilização de técnicas de Aprendizado de Máquina Supervisionado para mapeamento geológico: um estudo de caso na região de Diamantina, Minas Gerais, Brasil: Universidade Federal de Minas Gerais, 97 p., doi:10.13140/RG.2.2.11870.97607. 2

  4. Chawla, N. V., Bowyer, K.W., Hall, L.O., e Kegelmeyer, W.P., 2002, SMOTE: Synthetic Minority Over-sampling Technique: Journal of Artificial Intelligence Research, v. 16, p. 321–357, doi:10.1613/jair.953.

  5. Prado, E.M.G., de Souza Filho, C.R., Carranza, E.J.M., e Motta, J.G., 2020, Modeling of Cu-Au prospectivity in the Carajás mineral province (Brazil) through machine learning: Dealing with imbalanced training data: Ore Geology Reviews, v. 124, p. 103611, doi:10.1016/j.oregeorev.2020.103611.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages