Make root progress available and sane for NC train

adamnsch · breakanalysis · breakanalysis · commit 134496103c7b · 2022-05-19T16:55:47.000+02:00
Co-Authored-By: Jacob Sznajdman &lt;breakanalysis@gmail.com&gt;
diff --git a/ml/ml-algo/src/main/java/org/neo4j/gds/ml/nodeClassification/NodeClassificationPredictConsumer.java b/ml/ml-algo/src/main/java/org/neo4j/gds/ml/nodeClassification/NodeClassificationPredictConsumer.java
@@ -88,7 +88,7 @@ public void accept(Batch batch) {
             currentRow++;
         }
 
-        progressTracker.logProgress(batch.size());
+        progressTracker.logSteps(batch.size());
     }
 
 }
diff --git a/pipeline/src/main/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrain.java b/pipeline/src/main/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrain.java
@@ -146,17 +146,21 @@ public static MemoryEstimation estimate(
         return builder.build();
     }
 
-    public static List<Task> progressTasks(int validationFolds, int numberOfModelSelectionTrials) {
+    public static List<Task> progressTasks(NodePropertyPredictionSplitConfig splitConfig, int numberOfModelSelectionTrials, long nodeCount) {
+        long trainSetSize = splitConfig.trainSetSize(nodeCount);
+        long testSetSize = splitConfig.testSetSize(nodeCount);
+        int validationFolds = splitConfig.validationFolds();
+
         return List.of(
-            Tasks.leaf("Shuffle and split"),
+            Tasks.leaf("Shuffle and split", validationFolds * trainSetSize + testSetSize),
             Tasks.iterativeFixed(
                 "Select best model",
-                () -> List.of(Tasks.leaf("Trial", validationFolds)),
+                () -> List.of(Tasks.leaf("Trial", 5 * validationFolds * trainSetSize)),
                 numberOfModelSelectionTrials
             ),
-            ClassifierTrainer.progressTask("Train best model"),
-            Tasks.leaf("Evaluate on test data"),
-            ClassifierTrainer.progressTask("Retrain best model")
+            ClassifierTrainer.progressTask("Train best model", 5 * trainSetSize),
+            Tasks.leaf("Evaluate on test data", testSetSize),
+            ClassifierTrainer.progressTask("Retrain best model", 5 * nodeCount)
         );
     }
 
@@ -309,8 +313,10 @@ private void selectBestModel(List<TrainingExamplesSplit> nodeSplits, TrainingSta
         int trial = 0;
         while (hyperParameterOptimizer.hasNext()) {
             progressTracker.beginSubTask("Trial");
+            progressTracker.setSteps(nodeSplits.size());
             var modelParams = hyperParameterOptimizer.next();
             progressTracker.logMessage(formatWithLocale("Method: %s, Parameters: %s", modelParams.method(), modelParams.toMap()));
+
             var validationStatsBuilder = new ModelStatsBuilder(nodeSplits.size());
             var trainStatsBuilder = new ModelStatsBuilder(nodeSplits.size());
             var metricsHandler = ModelSpecificMetricsHandler.of(metrics, validationStatsBuilder);
@@ -323,7 +329,8 @@ private void selectBestModel(List<TrainingExamplesSplit> nodeSplits, TrainingSta
 
                 registerMetricScores(validationSet, classifier, validationStatsBuilder::update, ProgressTracker.NULL_TRACKER);
                 registerMetricScores(trainSet, classifier, trainStatsBuilder::update, ProgressTracker.NULL_TRACKER);
-                progressTracker.logProgress();
+
+                progressTracker.logSteps(1);
             }
 
             var candidateStats = ModelCandidateStats.of(
@@ -394,11 +401,8 @@ private void evaluateBestModel(
         );
         progressTracker.endSubTask("Train best model");
 
-        progressTracker.beginSubTask(
-            "Evaluate on test data",
-            outerSplit.testSet().size() + outerSplit.trainSet().size()
-        );
-
+        progressTracker.beginSubTask("Evaluate on test data");
+        progressTracker.setSteps(outerSplit.testSet().size() + outerSplit.trainSet().size());
         registerMetricScores(outerSplit.trainSet(), bestClassifier, trainingStatistics::addOuterTrainScore, progressTracker);
         var outerTrainMetrics = trainingStatistics.winningModelOuterTrainMetrics();
         progressTracker.logMessage(formatWithLocale("Final model metrics on full train set: %s", outerTrainMetrics));
diff --git a/pipeline/src/main/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainPipelineAlgorithmFactory.java b/pipeline/src/main/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainPipelineAlgorithmFactory.java
@@ -89,7 +89,8 @@ public String taskName() {
     public Task progressTask(GraphStore graphStore, NodeClassificationPipelineTrainConfig config) {
         return NodeClassificationTrainPipelineExecutor.progressTask(
             taskName(),
-            PipelineCatalog .getTyped(config.username(), config.pipeline(), NodeClassificationTrainingPipeline.class)
+            PipelineCatalog .getTyped(config.username(), config.pipeline(), NodeClassificationTrainingPipeline.class),
+            graphStore.nodeCount()
         );
     }
 }
diff --git a/pipeline/src/main/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainPipelineExecutor.java b/pipeline/src/main/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainPipelineExecutor.java
@@ -59,18 +59,19 @@ public NodeClassificationTrainPipelineExecutor(
         super(pipeline, config, executionContext, graphStore, graphName, progressTracker);
     }
 
-    public static Task progressTask(String taskName, NodeClassificationTrainingPipeline pipeline) {
+    public static Task progressTask(String taskName, NodeClassificationTrainingPipeline pipeline, long nodeCount) {
         return Tasks.task(
             taskName,
             new ArrayList<>() {{
                 add(Tasks.iterativeFixed(
                     "Execute node property steps",
-                    () -> List.of(Tasks.leaf("Step")),
+                    () -> List.of(Tasks.leaf("Step", 10L * nodeCount)),
                     pipeline.nodePropertySteps().size()
                 ));
                 addAll(NodeClassificationTrain.progressTasks(
-                    pipeline.splitConfig().validationFolds(),
-                    pipeline.numberOfModelSelectionTrials()
+                    pipeline.splitConfig(),
+                    pipeline.numberOfModelSelectionTrials(),
+                    nodeCount
                 ));
 
             }}
diff --git a/pipeline/src/test/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainPipelineExecutorTest.java b/pipeline/src/test/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainPipelineExecutorTest.java
@@ -250,7 +250,7 @@ void shouldLogProgress() {
         TestProcedureRunner.applyOnProcedure(db, TestProc.class, caller -> {
             var log = Neo4jProxy.testLog();
             var progressTracker = new TestProgressTracker(
-                NodeClassificationTrainPipelineExecutor.progressTask("Node Classification Train Pipeline", pipeline),
+                NodeClassificationTrainPipelineExecutor.progressTask("Node Classification Train Pipeline", pipeline, graphStore.nodeCount()),
                 log,
                 1,
                 EmptyTaskRegistryFactory.INSTANCE
diff --git a/pipeline/src/test/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainTest.java b/pipeline/src/test/java/org/neo4j/gds/ml/pipeline/nodePipeline/classification/train/NodeClassificationTrainTest.java
@@ -406,8 +406,9 @@ void shouldLogProgress() {
         var config = createConfig("bananasModel", metrics, 42L);
 
         var progressTask = progressTask(
-            pipeline.splitConfig().validationFolds(),
-            pipeline.numberOfModelSelectionTrials()
+            pipeline.splitConfig(),
+            pipeline.numberOfModelSelectionTrials(),
+            graph.nodeCount()
         );
         var testLog = Neo4jProxy.testLog();
         var progressTracker = new TestProgressTracker(progressTask, testLog, 1, EmptyTaskRegistryFactory.INSTANCE);
@@ -440,7 +441,7 @@ void shouldLogProgressWithRange() {
         var metrics = ClassificationMetricSpecification.parse("F1(class=1)");
         var config = createConfig("bananasModel", metrics, 42L);
 
-        var progressTask = progressTask(pipeline.splitConfig().validationFolds(), MAX_TRIALS);
+        var progressTask = progressTask(pipeline.splitConfig(), MAX_TRIALS, graph.nodeCount());
         var testLog = Neo4jProxy.testLog();
         var progressTracker = new TestProgressTracker(progressTask, testLog, 1, EmptyTaskRegistryFactory.INSTANCE);
 
@@ -494,10 +495,10 @@ void seededNodeClassification(int concurrency) {
             ));
     }
 
-    private static Task progressTask(int validationFolds, int trials) {
+    private static Task progressTask(NodePropertyPredictionSplitConfig splitConfig, int trials, long nodeCount) {
         return Tasks.task(
             "MY DUMMY TASK",
-            NodeClassificationTrain.progressTasks(validationFolds, trials)
+            NodeClassificationTrain.progressTasks(splitConfig, trials, nodeCount)
         );
     }
 
diff --git a/pipeline/src/test/resources/expectedLogs/node-classification-log b/pipeline/src/test/resources/expectedLogs/node-classification-log
@@ -34,10 +34,11 @@ MY DUMMY TASK :: Train best model :: converged after 5 out of 100 epochs. Initia
 MY DUMMY TASK :: Train best model 100%
 MY DUMMY TASK :: Train best model :: Finished
 MY DUMMY TASK :: Evaluate on test data :: Start
-MY DUMMY TASK :: Evaluate on test data 66%
+MY DUMMY TASK :: Evaluate on test data 50%
 MY DUMMY TASK :: Evaluate on test data :: Final model metrics on full train set: {F1_class_1=0.8235}
-MY DUMMY TASK :: Evaluate on test data 100%
+MY DUMMY TASK :: Evaluate on test data 75%
 MY DUMMY TASK :: Evaluate on test data :: Final model metrics on test set: {F1_class_1=0.7499}
+MY DUMMY TASK :: Evaluate on test data 100%
 MY DUMMY TASK :: Evaluate on test data :: Finished
 MY DUMMY TASK :: Retrain best model :: Start
 MY DUMMY TASK :: Retrain best model :: Initial loss 0.6931
diff --git a/pipeline/src/test/resources/expectedLogs/node-classification-with-range-log b/pipeline/src/test/resources/expectedLogs/node-classification-with-range-log
@@ -34,10 +34,11 @@ MY DUMMY TASK :: Train best model :: converged after 5 out of 100 epochs. Initia
 MY DUMMY TASK :: Train best model 100%
 MY DUMMY TASK :: Train best model :: Finished
 MY DUMMY TASK :: Evaluate on test data :: Start
-MY DUMMY TASK :: Evaluate on test data 66%
+MY DUMMY TASK :: Evaluate on test data 50%
 MY DUMMY TASK :: Evaluate on test data :: Final model metrics on full train set: {F1_class_1=0.8235}
-MY DUMMY TASK :: Evaluate on test data 100%
+MY DUMMY TASK :: Evaluate on test data 75%
 MY DUMMY TASK :: Evaluate on test data :: Final model metrics on test set: {F1_class_1=0.7499}
+MY DUMMY TASK :: Evaluate on test data 100%
 MY DUMMY TASK :: Evaluate on test data :: Finished
 MY DUMMY TASK :: Retrain best model :: Start
 MY DUMMY TASK :: Retrain best model :: Initial loss 0.6931

Original file line number	Diff line number	Diff line change
`@@ -88,7 +88,7 @@ public void accept(Batch batch) {`
`88`	`88`	`currentRow++;`
`89`	`89`	`}`
`90`	`90`
`91`		`- progressTracker.logProgress(batch.size());`
	`91`	`+ progressTracker.logSteps(batch.size());`
`92`	`92`	`}`
`93`	`93`
`94`	`94`	`}`
Original file line number	Diff line number	Diff line change
`@@ -89,7 +89,8 @@ public String taskName() {`
`89`	`89`	`public Task progressTask(GraphStore graphStore, NodeClassificationPipelineTrainConfig config) {`
`90`	`90`	`return NodeClassificationTrainPipelineExecutor.progressTask(`
`91`	`91`	`taskName(),`
`92`		`- PipelineCatalog .getTyped(config.username(), config.pipeline(), NodeClassificationTrainingPipeline.class)`
	`92`	`+ PipelineCatalog .getTyped(config.username(), config.pipeline(), NodeClassificationTrainingPipeline.class),`
	`93`	`+ graphStore.nodeCount()`
`93`	`94`	`);`
`94`	`95`	`}`
`95`	`96`	`}`