feat: Implement basic query optimizer with predicate pushdown

clflushopt · clflushopt · commit 56254c2f326f · 2025-02-01T13:48:30.000-05:00
diff --git a/glint/src/main/java/co/clflushopt/glint/query/logical/plan/Scan.java b/glint/src/main/java/co/clflushopt/glint/query/logical/plan/Scan.java
@@ -32,6 +32,10 @@ public List<String> getProjections() {
         return projections;
     }
 
+    public String getPath() {
+        return path;
+    }
+
     @Override
     public Schema getSchema() {
         return schema;
diff --git a/glint/src/main/java/co/clflushopt/glint/query/optimizer/ColumnExtractor.java b/glint/src/main/java/co/clflushopt/glint/query/optimizer/ColumnExtractor.java
@@ -0,0 +1,71 @@
+package co.clflushopt.glint.query.optimizer;
+
+import java.util.HashSet;
+import java.util.List;
+import java.util.Set;
+
+import co.clflushopt.glint.query.logical.expr.AggregateExpr;
+import co.clflushopt.glint.query.logical.expr.AliasExpr;
+import co.clflushopt.glint.query.logical.expr.BinaryExpr;
+import co.clflushopt.glint.query.logical.expr.CastExpr;
+import co.clflushopt.glint.query.logical.expr.ColumnExpr;
+import co.clflushopt.glint.query.logical.expr.ColumnIndex;
+import co.clflushopt.glint.query.logical.expr.LogicalExpr;
+import co.clflushopt.glint.query.logical.plan.LogicalPlan;
+
+/**
+ * The column extractor extracts nbamed columns from a logical plan.
+ *
+ * ColumnExtractor
+ */
+public class ColumnExtractor {
+
+    /**
+     * Extracts all the named columns from the logical plan.
+     *
+     * @param plan
+     * @param expressions
+     * @return
+     */
+    public static Set<String> extractColumns(LogicalPlan plan, List<LogicalExpr> expressions) {
+        Set<String> columns = new HashSet<>();
+        for (LogicalExpr expression : expressions) {
+            columns.addAll(extractColumns(plan, expression));
+        }
+        return columns;
+    }
+
+    /**
+     * Extracts the named columns from the logical plan.
+     *
+     * @param plan the logical plan.
+     * @return the named columns.
+     */
+    public static Set<String> extractColumns(LogicalPlan plan, LogicalExpr expression) {
+        Set<String> columns = new HashSet<>();
+        if (expression instanceof ColumnExpr) {
+            columns.add(((ColumnExpr) expression).getName());
+        }
+        if (expression instanceof ColumnIndex) {
+            // Extract the column name using the index and the logical plan schema.
+            ColumnIndex columnIndex = (ColumnIndex) expression;
+            columns.add(plan.getSchema().getFields().get(columnIndex.getIndex()).name());
+        }
+        if (expression instanceof AggregateExpr) {
+            columns.addAll(extractColumns(plan, ((AggregateExpr) expression).getExpr()));
+        }
+        if (expression instanceof BinaryExpr) {
+            columns.addAll(extractColumns(plan, ((BinaryExpr) expression).getLhs()));
+            columns.addAll(extractColumns(plan, ((BinaryExpr) expression).getRhs()));
+        }
+        if (expression instanceof AliasExpr) {
+            columns.addAll(extractColumns(plan, ((AliasExpr) expression).getExpr()));
+        }
+        if (expression instanceof CastExpr) {
+            columns.addAll(extractColumns(plan, ((CastExpr) expression).getExpr()));
+        }
+
+        return columns;
+    }
+
+}
diff --git a/glint/src/main/java/co/clflushopt/glint/query/optimizer/OptimizerRule.java b/glint/src/main/java/co/clflushopt/glint/query/optimizer/OptimizerRule.java
@@ -0,0 +1,20 @@
+package co.clflushopt.glint.query.optimizer;
+
+import co.clflushopt.glint.query.logical.plan.LogicalPlan;
+
+/**
+ * An optimizer rule is an interface that allows chaining and applying rules to
+ * a query plan.
+ *
+ * OptimizerRule
+ */
+public interface OptimizerRule {
+
+    /**
+     * Apply the rule to the query plan.
+     *
+     * @param plan the query plan to apply the rule to.
+     * @return the optimized query plan.
+     */
+    public LogicalPlan apply(LogicalPlan plan);
+}
diff --git a/glint/src/main/java/co/clflushopt/glint/query/optimizer/PredicatePushdownRule.java b/glint/src/main/java/co/clflushopt/glint/query/optimizer/PredicatePushdownRule.java
@@ -0,0 +1,52 @@
+package co.clflushopt.glint.query.optimizer;
+
+import java.util.HashSet;
+import java.util.stream.Collectors;
+
+import co.clflushopt.glint.query.logical.plan.Aggregate;
+import co.clflushopt.glint.query.logical.plan.LogicalPlan;
+import co.clflushopt.glint.query.logical.plan.Projection;
+import co.clflushopt.glint.query.logical.plan.Scan;
+import co.clflushopt.glint.query.logical.plan.Selection;
+
+public class PredicatePushdownRule implements OptimizerRule {
+
+    @Override
+    public LogicalPlan apply(LogicalPlan plan) {
+        return pushdown(plan, new HashSet<>());
+    }
+
+    private static LogicalPlan pushdown(LogicalPlan plan, HashSet<String> columns) {
+        if (plan instanceof Projection) {
+            var projection = (Projection) plan;
+            columns.addAll(ColumnExtractor.extractColumns(plan, ((Projection) plan).getExpr()));
+            var input = pushdown(projection.getInput(), columns);
+            return new Projection(input, ((Projection) plan).getExpr());
+        }
+        if (plan instanceof Selection) {
+            var selection = (Selection) plan;
+            var newColumns = new HashSet<>(columns);
+            newColumns.addAll(ColumnExtractor.extractColumns(plan, selection.getExpr()));
+            var input = pushdown(selection.getInput(), newColumns);
+            return new Selection(input, selection.getExpr());
+        }
+        if (plan instanceof Aggregate) {
+            var aggregate = (Aggregate) plan;
+            var newColumns = new HashSet<>(columns);
+            newColumns.addAll(ColumnExtractor.extractColumns(plan, aggregate.getGroupExpr()));
+            newColumns.addAll(ColumnExtractor.extractColumns(plan,
+                    aggregate.getAggregateExpr().stream().map(e -> e.getExpr()).toList()));
+            var input = pushdown(aggregate.getInput(), newColumns);
+            return new Aggregate(input, aggregate.getGroupExpr(), aggregate.getAggregateExpr());
+        }
+        if (plan instanceof Scan) {
+            var scanPlan = (Scan) plan;
+            var fieldNames = ((Scan) plan).getDataSource().getSchema().getFields().stream()
+                    .map(f -> f.name()).collect(Collectors.toSet());
+            var pushdownColumns = fieldNames.stream().filter(columns::contains)
+                    .collect(Collectors.toList());
+            return new Scan(scanPlan.getPath(), scanPlan.getDataSource(), pushdownColumns);
+        }
+        return plan;
+    }
+}
diff --git a/glint/src/main/java/co/clflushopt/glint/query/optimizer/QueryOptimizer.java b/glint/src/main/java/co/clflushopt/glint/query/optimizer/QueryOptimizer.java
@@ -0,0 +1,23 @@
+package co.clflushopt.glint.query.optimizer;
+
+import co.clflushopt.glint.query.logical.plan.LogicalPlan;
+
+/**
+ * The query optimizer is responsible for optimizing the query plan at the
+ * logical level.
+ *
+ * QueryOptimizer
+ */
+public class QueryOptimizer {
+
+    /**
+     * Optimizes the logical plan by applying all rules in the optimizer.
+     *
+     * @param plan
+     * @return
+     */
+    public static LogicalPlan optimize(LogicalPlan plan) {
+        return plan;
+    }
+
+}
diff --git a/glint/src/test/java/co/clflushopt/glint/query/optimizer/QueryOptimizerTest.java b/glint/src/test/java/co/clflushopt/glint/query/optimizer/QueryOptimizerTest.java
@@ -0,0 +1,107 @@
+package co.clflushopt.glint.query.optimizer;
+
+import static org.junit.Assert.assertEquals;
+
+import java.io.FileNotFoundException;
+import java.util.Arrays;
+import java.util.Collections;
+import java.util.List;
+import java.util.Optional;
+
+import org.junit.Test;
+
+import co.clflushopt.glint.dataframe.DataFrame;
+import co.clflushopt.glint.dataframe.DataFrameImpl;
+import co.clflushopt.glint.datasource.CsvDataSource;
+import co.clflushopt.glint.query.logical.expr.AggregateExpr;
+import co.clflushopt.glint.query.logical.expr.BooleanExpr;
+import co.clflushopt.glint.query.logical.expr.ColumnExpr;
+import co.clflushopt.glint.query.logical.expr.LiteralString;
+import co.clflushopt.glint.query.logical.expr.LogicalExpr;
+import co.clflushopt.glint.query.logical.plan.LogicalPlan;
+import co.clflushopt.glint.query.logical.plan.Scan;
+import co.clflushopt.glint.types.ArrowTypes;
+import co.clflushopt.glint.types.Field;
+import co.clflushopt.glint.types.Schema;
+
+public class QueryOptimizerTest {
+
+    @Test
+    public void testProjectionPushDown() throws FileNotFoundException {
+        DataFrame df = csv().project(Arrays.asList(col("id"), col("first_name"), col("last_name")));
+
+        PredicatePushdownRule rule = new PredicatePushdownRule();
+        LogicalPlan optimizedPlan = rule.apply(df.getLogicalPlan());
+
+        String expected = "Projection: #id, #first_name, #last_name\n"
+                + "\tScan:employee [projection=(last_name, id, first_name)]\n";
+
+        assertEquals(expected, LogicalPlan.format(optimizedPlan));
+    }
+
+    @Test
+    public void testProjectionPushDownWithSelection() throws FileNotFoundException {
+        DataFrame df = csv().filter(eq(col("state"), lit("CO")))
+                .project(Arrays.asList(col("id"), col("first_name"), col("last_name")));
+
+        PredicatePushdownRule rule = new PredicatePushdownRule();
+        LogicalPlan optimizedPlan = rule.apply(df.getLogicalPlan());
+
+        String expected = "Projection: #id, #first_name, #last_name\n" + "\tFilter: #state = 'CO'\n"
+                + "\t\tScan:employee [projection=(last_name, id, state, first_name)]\n";
+
+        assertEquals(expected, LogicalPlan.format(optimizedPlan));
+    }
+
+    @Test
+    public void testProjectionPushDownWithAggregateQuery() throws FileNotFoundException {
+        DataFrame df = csv().aggregate(Collections.singletonList(col("state")),
+                List.of(min(col("salary")), max(col("salary")), count(col("salary"))));
+
+        PredicatePushdownRule rule = new PredicatePushdownRule();
+        LogicalPlan optimizedPlan = rule.apply(df.getLogicalPlan());
+
+        String expected = "Aggregate: groupExpr=[#state], aggregateExpr=[MIN(#salary), MAX(#salary), COUNT(#salary)]\n"
+                + "\tScan:employee [projection=(state, salary)]\n";
+
+        assertEquals(expected, LogicalPlan.format(optimizedPlan));
+    }
+
+    private DataFrame csv() throws FileNotFoundException {
+        String employeeCsv = "../testdata/employee.csv";
+        Schema schema = new Schema(Arrays.asList(new Field("id", ArrowTypes.Int64Type),
+                new Field("first_name", ArrowTypes.StringType),
+                new Field("last_name", ArrowTypes.StringType),
+                new Field("state", ArrowTypes.StringType),
+                new Field("job_title", ArrowTypes.StringType),
+                new Field("salary", ArrowTypes.Int64Type)));
+        return new DataFrameImpl(new Scan("employee",
+                new CsvDataSource(employeeCsv, Optional.of(schema), true, 1024),
+                Collections.emptyList()));
+    }
+
+    // Helper methods for creating expressions
+    private LogicalExpr col(String name) {
+        return new ColumnExpr(name);
+    }
+
+    private LogicalExpr lit(String value) {
+        return new LiteralString(value);
+    }
+
+    private LogicalExpr eq(LogicalExpr left, LogicalExpr right) {
+        return BooleanExpr.Eq(left, right);
+    }
+
+    private AggregateExpr min(LogicalExpr expr) {
+        return new AggregateExpr.Min(expr);
+    }
+
+    private AggregateExpr max(LogicalExpr expr) {
+        return new AggregateExpr.Max(expr);
+    }
+
+    private AggregateExpr count(LogicalExpr expr) {
+        return new AggregateExpr.Count(expr);
+    }
+}