Tests: clean metrics (#4152)

Borda · web-flow · commit 4290c9e1e8b1 · 2020-10-15T07:50:08.000+02:00
* namme inputs

* sk rename

* imports
diff --git a/tests/metrics/__init__.py b/tests/metrics/__init__.py
@@ -1,4 +1,2 @@
-import os
-
-from tests.metrics.utils import NUM_BATCHES, NUM_PROCESSES, BATCH_SIZE, MetricTester
 from tests.metrics.test_metric import Dummy
+from tests.metrics.utils import NUM_BATCHES, NUM_PROCESSES, BATCH_SIZE, MetricTester
diff --git a/tests/metrics/classification/inputs.py b/tests/metrics/classification/inputs.py
@@ -1,16 +1,12 @@
-import os
-import pytest
-import numpy as np
+from collections import namedtuple
+
 import torch
 
-from collections import namedtuple
 from tests.metrics.utils import (
     NUM_BATCHES,
-    NUM_PROCESSES,
     BATCH_SIZE,
     NUM_CLASSES,
-    EXTRA_DIM,
-    THRESHOLD
+    EXTRA_DIM
 )
 
 Input = namedtuple('Input', ["preds", "target"])
diff --git a/tests/metrics/classification/test_accuracy.py b/tests/metrics/classification/test_accuracy.py
@@ -4,7 +4,7 @@
 from sklearn.metrics import accuracy_score
 
 from pytorch_lightning.metrics.classification.accuracy import Accuracy
-from tests.metrics.classification.utils import (
+from tests.metrics.classification.inputs import (
     _binary_inputs,
     _binary_prob_inputs,
     _multiclass_inputs,
@@ -19,56 +19,56 @@
 torch.manual_seed(42)
 
 
-def _binary_prob_sk_metric(preds, target):
+def _sk_accuracy_binary_prob(preds, target):
     sk_preds = (preds.view(-1).numpy() >= THRESHOLD).astype(np.uint8)
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _binary_sk_metric(preds, target):
+def _sk_accuracy_binary(preds, target):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _multilabel_prob_sk_metric(preds, target):
+def _sk_accuracy_multilabel_prob(preds, target):
     sk_preds = (preds.view(-1).numpy() >= THRESHOLD).astype(np.uint8)
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _multilabel_sk_metric(preds, target):
+def _sk_accuracy_multilabel(preds, target):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _multiclass_prob_sk_metric(preds, target):
+def _sk_accuracy_multiclass_prob(preds, target):
     sk_preds = torch.argmax(preds, dim=len(preds.shape) - 1).view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _multiclass_sk_metric(preds, target):
+def _sk_accuracy_multiclass(preds, target):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _multidim_multiclass_prob_sk_metric(preds, target):
+def _sk_accuracy_multidim_multiclass_prob(preds, target):
     sk_preds = torch.argmax(preds, dim=len(preds.shape) - 2).view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return accuracy_score(y_true=sk_target, y_pred=sk_preds)
 
 
-def _multidim_multiclass_sk_metric(preds, target):
+def _sk_accuracy_multidim_multiclass(preds, target):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
@@ -86,18 +86,18 @@ def test_accuracy_invalid_shape():
 @pytest.mark.parametrize(
     "preds, target, sk_metric",
     [
-        (_binary_prob_inputs.preds, _binary_prob_inputs.target, _binary_prob_sk_metric),
-        (_binary_inputs.preds, _binary_inputs.target, _binary_sk_metric),
-        (_multilabel_prob_inputs.preds, _multilabel_prob_inputs.target, _multilabel_prob_sk_metric),
-        (_multilabel_inputs.preds, _multilabel_inputs.target, _multilabel_sk_metric),
-        (_multiclass_prob_inputs.preds, _multiclass_prob_inputs.target, _multiclass_prob_sk_metric),
-        (_multiclass_inputs.preds, _multiclass_inputs.target, _multiclass_sk_metric),
+        (_binary_prob_inputs.preds, _binary_prob_inputs.target, _sk_accuracy_binary_prob),
+        (_binary_inputs.preds, _binary_inputs.target, _sk_accuracy_binary),
+        (_multilabel_prob_inputs.preds, _multilabel_prob_inputs.target, _sk_accuracy_multilabel_prob),
+        (_multilabel_inputs.preds, _multilabel_inputs.target, _sk_accuracy_multilabel),
+        (_multiclass_prob_inputs.preds, _multiclass_prob_inputs.target, _sk_accuracy_multiclass_prob),
+        (_multiclass_inputs.preds, _multiclass_inputs.target, _sk_accuracy_multiclass),
         (
-            _multidim_multiclass_prob_inputs.preds,
-            _multidim_multiclass_prob_inputs.target,
-            _multidim_multiclass_prob_sk_metric,
+                _multidim_multiclass_prob_inputs.preds,
+                _multidim_multiclass_prob_inputs.target,
+                _sk_accuracy_multidim_multiclass_prob,
         ),
-        (_multidim_multiclass_inputs.preds, _multidim_multiclass_inputs.target, _multidim_multiclass_sk_metric),
+        (_multidim_multiclass_inputs.preds, _multidim_multiclass_inputs.target, _sk_accuracy_multidim_multiclass),
     ],
 )
 class TestAccuracy(MetricTester):
diff --git a/tests/metrics/classification/test_f_beta.py b/tests/metrics/classification/test_f_beta.py
@@ -6,7 +6,7 @@
 from sklearn.metrics import fbeta_score
 
 from pytorch_lightning.metrics import Fbeta
-from tests.metrics.classification.utils import (
+from tests.metrics.classification.inputs import (
     _binary_inputs,
     _binary_prob_inputs,
     _multiclass_inputs,
@@ -16,61 +16,61 @@
     _multilabel_inputs,
     _multilabel_prob_inputs,
 )
-from tests.metrics.utils import BATCH_SIZE, NUM_BATCHES, NUM_CLASSES, NUM_PROCESSES, THRESHOLD, MetricTester
+from tests.metrics.utils import NUM_CLASSES, THRESHOLD, MetricTester
 
 torch.manual_seed(42)
 
 
-def _binary_prob_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_binary_prob(preds, target, average='micro', beta=1.0):
     sk_preds = (preds.view(-1).numpy() >= THRESHOLD).astype(np.uint8)
     sk_target = target.view(-1).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average='binary', beta=beta)
 
 
-def _binary_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_binary(preds, target, average='micro', beta=1.0):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average='binary', beta=beta)
 
 
-def _multilabel_prob_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_multilabel_prob(preds, target, average='micro', beta=1.0):
     sk_preds = (preds.view(-1, NUM_CLASSES).numpy() >= THRESHOLD).astype(np.uint8)
     sk_target = target.view(-1, NUM_CLASSES).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average=average, beta=beta)
 
 
-def _multilabel_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_multilabel(preds, target, average='micro', beta=1.0):
     sk_preds = preds.view(-1, NUM_CLASSES).numpy()
     sk_target = target.view(-1, NUM_CLASSES).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average=average, beta=beta)
 
 
-def _multiclass_prob_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_multiclass_prob(preds, target, average='micro', beta=1.0):
     sk_preds = torch.argmax(preds, dim=len(preds.shape) - 1).view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average=average, beta=beta)
 
 
-def _multiclass_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_multiclass(preds, target, average='micro', beta=1.0):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average=average, beta=beta)
 
 
-def _multidim_multiclass_prob_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_multidim_multiclass_prob(preds, target, average='micro', beta=1.0):
     sk_preds = torch.argmax(preds, dim=len(preds.shape) - 2).view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return fbeta_score(y_true=sk_target, y_pred=sk_preds, average=average, beta=beta)
 
 
-def _multidim_multiclass_sk_metric(preds, target, average='micro', beta=1.0):
+def _sk_fbeta_multidim_multiclass(preds, target, average='micro', beta=1.0):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
@@ -83,25 +83,25 @@ def _multidim_multiclass_sk_metric(preds, target, average='micro', beta=1.0):
 @pytest.mark.parametrize(
     "preds, target, sk_metric, num_classes, multilabel",
     [
-        (_binary_prob_inputs.preds, _binary_prob_inputs.target, _binary_prob_sk_metric, 1, False),
-        (_binary_inputs.preds, _binary_inputs.target, _binary_sk_metric, 1, False),
-        (_multilabel_prob_inputs.preds, _multilabel_prob_inputs.target, _multilabel_prob_sk_metric, NUM_CLASSES, True),
-        (_multilabel_inputs.preds, _multilabel_inputs.target, _multilabel_sk_metric, NUM_CLASSES, True),
-        (_multiclass_prob_inputs.preds, _multiclass_prob_inputs.target, _multiclass_prob_sk_metric, NUM_CLASSES, False),
-        (_multiclass_inputs.preds, _multiclass_inputs.target, _multiclass_sk_metric, NUM_CLASSES, False),
+        (_binary_prob_inputs.preds, _binary_prob_inputs.target, _sk_fbeta_binary_prob, 1, False),
+        (_binary_inputs.preds, _binary_inputs.target, _sk_fbeta_binary, 1, False),
+        (_multilabel_prob_inputs.preds, _multilabel_prob_inputs.target, _sk_fbeta_multilabel_prob, NUM_CLASSES, True),
+        (_multilabel_inputs.preds, _multilabel_inputs.target, _sk_fbeta_multilabel, NUM_CLASSES, True),
+        (_multiclass_prob_inputs.preds, _multiclass_prob_inputs.target, _sk_fbeta_multiclass_prob, NUM_CLASSES, False),
+        (_multiclass_inputs.preds, _multiclass_inputs.target, _sk_fbeta_multiclass, NUM_CLASSES, False),
         (
-            _multidim_multiclass_prob_inputs.preds,
-            _multidim_multiclass_prob_inputs.target,
-            _multidim_multiclass_prob_sk_metric,
-            NUM_CLASSES,
-            False,
+                _multidim_multiclass_prob_inputs.preds,
+                _multidim_multiclass_prob_inputs.target,
+                _sk_fbeta_multidim_multiclass_prob,
+                NUM_CLASSES,
+                False,
         ),
         (
-            _multidim_multiclass_inputs.preds,
-            _multidim_multiclass_inputs.target,
-            _multidim_multiclass_sk_metric,
-            NUM_CLASSES,
-            False,
+                _multidim_multiclass_inputs.preds,
+                _multidim_multiclass_inputs.target,
+                _sk_fbeta_multidim_multiclass,
+                NUM_CLASSES,
+                False,
         ),
     ],
 )
diff --git a/tests/metrics/classification/test_precision_recall.py b/tests/metrics/classification/test_precision_recall.py
@@ -1,5 +1,3 @@
-import os
-from collections import namedtuple
 from functools import partial
 
 import numpy as np
@@ -8,7 +6,7 @@
 from sklearn.metrics import precision_score, recall_score
 
 from pytorch_lightning.metrics import Precision, Recall
-from tests.metrics.classification.utils import (
+from tests.metrics.classification.inputs import (
     _binary_inputs,
     _binary_prob_inputs,
     _multiclass_inputs,
@@ -18,61 +16,61 @@
     _multilabel_inputs,
     _multilabel_prob_inputs,
 )
-from tests.metrics.utils import BATCH_SIZE, NUM_BATCHES, NUM_CLASSES, NUM_PROCESSES, THRESHOLD, MetricTester
+from tests.metrics.utils import NUM_CLASSES, THRESHOLD, MetricTester
 
 torch.manual_seed(42)
 
 
-def _binary_prob_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_binary_prob(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = (preds.view(-1).numpy() >= THRESHOLD).astype(np.uint8)
     sk_target = target.view(-1).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average='binary')
 
 
-def _binary_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_binary(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average='binary')
 
 
-def _multilabel_prob_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_multilabel_prob(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = (preds.view(-1, NUM_CLASSES).numpy() >= THRESHOLD).astype(np.uint8)
     sk_target = target.view(-1, NUM_CLASSES).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average=average)
 
 
-def _multilabel_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_multilabel(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = preds.view(-1, NUM_CLASSES).numpy()
     sk_target = target.view(-1, NUM_CLASSES).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average=average)
 
 
-def _multiclass_prob_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_multiclass_prob(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = torch.argmax(preds, dim=len(preds.shape) - 1).view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average=average)
 
 
-def _multiclass_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_multiclass(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average=average)
 
 
-def _multidim_multiclass_prob_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_multidim_multiclass_prob(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = torch.argmax(preds, dim=len(preds.shape) - 2).view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
     return sk_fn(y_true=sk_target, y_pred=sk_preds, average=average)
 
 
-def _multidim_multiclass_sk_metric(preds, target, sk_fn=precision_score, average='micro'):
+def _sk_prec_recall_multidim_multiclass(preds, target, sk_fn=precision_score, average='micro'):
     sk_preds = preds.view(-1).numpy()
     sk_target = target.view(-1).numpy()
 
@@ -85,25 +83,25 @@ def _multidim_multiclass_sk_metric(preds, target, sk_fn=precision_score, average
 @pytest.mark.parametrize(
     "preds, target, sk_metric, num_classes, multilabel",
     [
-        (_binary_prob_inputs.preds, _binary_prob_inputs.target, _binary_prob_sk_metric, 1, False),
-        (_binary_inputs.preds, _binary_inputs.target, _binary_sk_metric, 1, False),
-        (_multilabel_prob_inputs.preds, _multilabel_prob_inputs.target, _multilabel_prob_sk_metric, NUM_CLASSES, True),
-        (_multilabel_inputs.preds, _multilabel_inputs.target, _multilabel_sk_metric, NUM_CLASSES, True),
-        (_multiclass_prob_inputs.preds, _multiclass_prob_inputs.target, _multiclass_prob_sk_metric, NUM_CLASSES, False),
-        (_multiclass_inputs.preds, _multiclass_inputs.target, _multiclass_sk_metric, NUM_CLASSES, False),
+        (_binary_prob_inputs.preds, _binary_prob_inputs.target, _sk_prec_recall_binary_prob, 1, False),
+        (_binary_inputs.preds, _binary_inputs.target, _sk_prec_recall_binary, 1, False),
+        (_multilabel_prob_inputs.preds, _multilabel_prob_inputs.target, _sk_prec_recall_multilabel_prob, NUM_CLASSES, True),
+        (_multilabel_inputs.preds, _multilabel_inputs.target, _sk_prec_recall_multilabel, NUM_CLASSES, True),
+        (_multiclass_prob_inputs.preds, _multiclass_prob_inputs.target, _sk_prec_recall_multiclass_prob, NUM_CLASSES, False),
+        (_multiclass_inputs.preds, _multiclass_inputs.target, _sk_prec_recall_multiclass, NUM_CLASSES, False),
         (
-            _multidim_multiclass_prob_inputs.preds,
-            _multidim_multiclass_prob_inputs.target,
-            _multidim_multiclass_prob_sk_metric,
-            NUM_CLASSES,
-            False,
+                _multidim_multiclass_prob_inputs.preds,
+                _multidim_multiclass_prob_inputs.target,
+                _sk_prec_recall_multidim_multiclass_prob,
+                NUM_CLASSES,
+                False,
         ),
         (
-            _multidim_multiclass_inputs.preds,
-            _multidim_multiclass_inputs.target,
-            _multidim_multiclass_sk_metric,
-            NUM_CLASSES,
-            False,
+                _multidim_multiclass_inputs.preds,
+                _multidim_multiclass_inputs.target,
+                _sk_prec_recall_multidim_multiclass,
+                NUM_CLASSES,
+                False,
         ),
     ],
 )
diff --git a/tests/metrics/functional/test_regression.py b/tests/metrics/functional/test_regression.py
@@ -1,8 +1,9 @@
+from functools import partial
+from math import sqrt
+
 import numpy as np
 import pytest
 import torch
-from functools import partial
-from math import sqrt
 from skimage.metrics import (
     peak_signal_noise_ratio as ski_psnr,
     structural_similarity as ski_ssim
diff --git a/tests/metrics/test_ddp.py b/tests/metrics/test_ddp.py
diff --git a/tests/metrics/test_metric.py b/tests/metrics/test_metric.py
diff --git a/tests/metrics/test_metric_lightning.py b/tests/metrics/test_metric_lightning.py