big update to get Java stability test going. compares misclassifications now not whitespace edit distance. Better token analysis info tracking too. Some refactoring concerning comments. It was spitting out too many newlines.

parrt · parrt · commit e224ba790a4c · 2016-04-08T13:16:00.000-07:00
diff --git a/java/src/org/antlr/codebuff/CollectFeatures.java b/java/src/org/antlr/codebuff/CollectFeatures.java
@@ -96,6 +96,7 @@ public class CollectFeatures {
 	public static final int INDEX_INFO_CHARPOS      = 17;
 
 	public static final int NUM_FEATURES            = 18;
+	public static final int ANALYSIS_START_TOKEN_INDEX = 1; // we use current and previous token in context so can't start at index 0
 
 	public static FeatureMetaData[] FEATURES_INJECT_WS = { // inject ws or nl
 		new FeatureMetaData(FeatureType.TOKEN, new String[] {"", "LT(-1)"}, 1),
@@ -186,7 +187,7 @@ public CollectFeatures(InputDocument doc, int tabSize, Map<String, List<Pair<Int
 
 	public void computeFeatureVectors() {
 		List<Token> realTokens = getRealTokens(tokens);
-		for (int i = 2; i<realTokens.size(); i++) { // can't process first 2 tokens
+		for (int i = ANALYSIS_START_TOKEN_INDEX; i<realTokens.size(); i++) { // can't process first token
 			int tokenIndexInStream = realTokens.get(i).getTokenIndex();
 			computeFeatureVectorForToken(tokenIndexInStream);
 		}
@@ -243,8 +244,6 @@ else if ( ws>0 ) {
 	public int getAlignmentCategory(TerminalNode node, Token curToken, int columnDelta) {
 		int aligned = CAT_NO_ALIGNMENT;
 
-		ParserRuleContext parent = (ParserRuleContext)node.getParent();
-
 		// at a newline, are we aligned with a prior sibling (in a list) etc...
 		ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(node, curToken);
 		Pair<ParserRuleContext, Integer> pair =
@@ -276,14 +275,46 @@ else if ( columnDelta!=0 ) {
 
 	public static int getPrecedingNL(CommonTokenStream tokens, int i) {
 		int precedingNL = 0;
-		List<Token> wsTokensBeforeCurrentToken = tokens.getHiddenTokensToLeft(i);
-		if ( wsTokensBeforeCurrentToken==null ) return 0;
-		for (Token t : wsTokensBeforeCurrentToken) {
-			precedingNL += Tool.count(t.getText(), '\n');
+		List<Token> previousWS = getPreviousWS(tokens, i);
+		if ( previousWS!=null ) {
+			for (Token ws : previousWS) {
+				precedingNL += Tool.count(ws.getText(), '\n');
+			}
 		}
 		return precedingNL;
 	}
 
+	// if we have non-ws tokens like comments, we only count ws after last comment
+	public static List<Token> getPreviousWS(CommonTokenStream tokens, int i) {
+		List<Token> hiddenTokensToLeft = tokens.getHiddenTokensToLeft(i);
+		if ( hiddenTokensToLeft==null ) return null;
+		if ( hasCommentToken(hiddenTokensToLeft) ) {
+			for (int j = hiddenTokensToLeft.size()-1; j>=0; j--) {
+				Token hidden = hiddenTokensToLeft.get(j);
+				String hiddenText = hidden.getText();
+				if ( !hiddenText.matches("\\s+") ) {
+					return hiddenTokensToLeft.subList(j+1, hiddenTokensToLeft.size());
+				}
+			}
+			return null;
+		}
+		else {
+			return hiddenTokensToLeft;
+		}
+	}
+
+	public static boolean hasCommentToken(List<Token> hiddenTokensToLeft) {
+		boolean hasComment = false;
+		for (Token hidden : hiddenTokensToLeft) {
+			String hiddenText = hidden.getText();
+			if ( !hiddenText.matches("\\s+") ) {
+				hasComment = true;
+				break;
+			}
+		}
+		return hasComment;
+	}
+
 	/** Walk upwards from node while p.start == token; return null if there is
 	 *  no ancestor starting at token.
 	 */
diff --git a/java/src/org/antlr/codebuff/FeatureMetaDataTweaker.java b/java/src/org/antlr/codebuff/FeatureMetaDataTweaker.java
@@ -184,7 +184,7 @@ public static void main(String[] args) throws Exception {
 			corpusDir = "../samples/stringtemplate4/org/stringtemplate/v4/compiler/";
 			testFileDir = "../samples/stringtemplate4/org/stringtemplate/v4/compiler/";
 		}
-		Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize);
+		Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize, true);
 
 		List<String> allFiles = Tool.getFilenames(new File(testFileDir), ".*\\.java");
 		ArrayList<InputDocument> documents = (ArrayList<InputDocument>) Tool.load(allFiles, JavaLexer.class, tabSize);
diff --git a/java/src/org/antlr/codebuff/Formatter.java b/java/src/org/antlr/codebuff/Formatter.java
@@ -1,6 +1,5 @@
 package org.antlr.codebuff;
 
-import com.google.common.base.CharMatcher;
 import org.antlr.v4.runtime.CommonToken;
 import org.antlr.v4.runtime.CommonTokenStream;
 import org.antlr.v4.runtime.ParserRuleContext;
@@ -103,7 +102,7 @@ public String format() {
 
 
 		realTokens = getRealTokens(tokens);
-		for (int i = 2; i<realTokens.size(); i++) { // can't process first 2 tokens
+		for (int i = CollectFeatures.ANALYSIS_START_TOKEN_INDEX; i<realTokens.size(); i++) { // can't process first 2 tokens
 			int tokenIndexInStream = realTokens.get(i).getTokenIndex();
 			processToken(i, tokenIndexInStream);
 		}
@@ -130,13 +129,12 @@ public void processToken(int indexIntoRealTokens, int tokenIndexInStream) {
 		}
 		else if ( (injectNL_WS&0xFF)==CAT_INJECT_WS ) {
 			ws = CollectFeatures.unwscat(injectNL_WS);
+			if ( ws==0 && cannotJoin(realTokens.get(indexIntoRealTokens-1), curToken) ) { // failsafe!
+				ws = 1;
+			}
 		}
 
-		if ( ws==0 && cannotJoin(realTokens.get(indexIntoRealTokens-1), curToken) ) { // failsafe!
-			ws = 1;
-		}
-
-		int align = CAT_NO_ALIGNMENT;
+		int alignOrIndent = CAT_NO_ALIGNMENT;
 
 		if ( newlines>0 ) {
 			output.append(Tool.newlines(newlines));
@@ -156,17 +154,17 @@ else if ( (injectNL_WS&0xFF)==CAT_INJECT_WS ) {
 			// if we decide to inject a newline, we better recompute this value before classifying alignment
 			features[INDEX_MATCHING_TOKEN_DIFF_LINE] = getMatchingSymbolOnDiffLine(doc, node, line);
 
-			align = alignClassifier.classify(k, features, corpus.align, MAX_CONTEXT_DIFF_THRESHOLD);
+			alignOrIndent = alignClassifier.classify(k, features, corpus.align, MAX_CONTEXT_DIFF_THRESHOLD);
 
-			if ( align==CAT_INDENT ) {
+			if ( alignOrIndent==CAT_INDENT ) {
 				if ( firstTokenOnPrevLine!=null ) { // if not on first line, we cannot indent
 					int indentedCol = firstTokenOnPrevLine.getCharPositionInLine()+INDENT_LEVEL;
 					charPosInLine = indentedCol;
 					output.append(Tool.spaces(indentedCol));
 				}
 			}
-			else if ( (align&0xFF)==CAT_ALIGN_WITH_ANCESTOR_CHILD ) {
-				int[] deltaChild = CollectFeatures.unaligncat(align);
+			else if ( (alignOrIndent&0xFF)==CAT_ALIGN_WITH_ANCESTOR_CHILD ) {
+				int[] deltaChild = CollectFeatures.unaligncat(alignOrIndent);
 				int deltaFromAncestor = deltaChild[0];
 				int childIndex = deltaChild[1];
 				ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(node, curToken);
@@ -181,16 +179,16 @@ else if ( child instanceof TerminalNode ){
 				}
 				else {
 					// uh oh.
-					System.err.println("Whoops. Tried access invalid child");
+					System.err.println("Whoops. Tried to access invalid child");
 				}
 				if ( start!=null ) {
 					int indentCol = start.getCharPositionInLine();
 					charPosInLine = indentCol;
 					output.append(Tool.spaces(indentCol));
 				}
 			}
-			else if ( (align&0xFF)==CAT_INDENT_FROM_ANCESTOR_FIRST_TOKEN ) {
-				int deltaFromAncestor = CollectFeatures.unindentcat(align);
+			else if ( (alignOrIndent&0xFF)==CAT_INDENT_FROM_ANCESTOR_FIRST_TOKEN ) {
+				int deltaFromAncestor = CollectFeatures.unindentcat(alignOrIndent);
 				ParserRuleContext earliestLeftAncestor = earliestAncestorStartingWithToken(node, curToken);
 				ParserRuleContext ancestor = CollectFeatures.getAncestor(earliestLeftAncestor, deltaFromAncestor);
 				Token start = ancestor.getStart();
@@ -206,7 +204,7 @@ else if ( (align&0xFF)==CAT_INDENT_FROM_ANCESTOR_FIRST_TOKEN ) {
 		}
 
 		TokenPositionAnalysis tokenPositionAnalysis =
-			getTokenAnalysis(features, indexIntoRealTokens, tokenIndexInStream, newlines, align, ws);
+			getTokenAnalysis(features, indexIntoRealTokens, tokenIndexInStream, injectNL_WS, alignOrIndent);
 		analysis.setSize(tokenIndexInStream+1);
 		analysis.set(tokenIndexInStream, tokenPositionAnalysis);
 
@@ -235,14 +233,7 @@ public void emitCommentsToTheLeft(int tokenIndexInStream) {
 		List<Token> hiddenTokensToLeft = tokens.getHiddenTokensToLeft(tokenIndexInStream);
 		if ( hiddenTokensToLeft!=null ) {
 			// if at least one is not whitespace, assume it's a comment and print all hidden stuff including whitespace
-			boolean hasComment = false;
-			for (Token hidden : hiddenTokensToLeft) {
-				String hiddenText = hidden.getText();
-				if ( !hiddenText.matches("\\s+") ) {
-					hasComment = true;
-					break;
-				}
-			}
+			boolean hasComment = CollectFeatures.hasCommentToken(hiddenTokensToLeft);
 			if ( hasComment ) {
 				// avoid whitespace at end of sequence as we'll inject that
 				int last = -1;
@@ -259,7 +250,7 @@ public void emitCommentsToTheLeft(int tokenIndexInStream) {
 					String hiddenText = hidden.getText();
 					output.append(hiddenText);
 					if ( hiddenText.matches("\\n+") ) {
-						line += CharMatcher.is('\n').countIn(hiddenText);
+						line += Tool.count(hiddenText, '\n');
 						charPosInLine = 0;
 					}
 					else {
@@ -272,28 +263,20 @@ public void emitCommentsToTheLeft(int tokenIndexInStream) {
 	}
 
 	public TokenPositionAnalysis getTokenAnalysis(int[] features, int indexIntoRealTokens, int tokenIndexInStream,
-	                                              int injectNewline,
-	                                              int align,
-	                                              int ws)
+	                                              int injectNL_WS, int alignOrIndent)
 	{
 		CommonToken curToken = (CommonToken)tokens.get(tokenIndexInStream);
 		// compare prediction of newline against original, alert about any diffs
 		CommonToken prevToken = originalTokens.get(curToken.getTokenIndex()-1);
 		CommonToken originalCurToken = originalTokens.get(curToken.getTokenIndex());
 
-		boolean failsafeTriggered = false;
-		if ( ws==0 && cannotJoin(realTokens.get(indexIntoRealTokens-1), curToken) ) { // failsafe!
-			ws = 1;
-			failsafeTriggered = true;
-		}
-
 		boolean prevIsWS = prevToken.getChannel()==Token.HIDDEN_CHANNEL; // assume this means whitespace
 		int actualNL = Tool.count(prevToken.getText(), '\n');
 		String newlinePredictionString = String.format("### line %d: predicted %d \\n actual ?",
-		                                               originalCurToken.getLine(), injectNewline, prevIsWS ? actualNL : "none");
+		                                               originalCurToken.getLine(), injectNL_WS, prevIsWS ? actualNL : "none");
 		String alignPredictionString = String.format("### line %d: predicted %d actual %s",
 		                                             originalCurToken.getLine(),
-		                                             align,
+		                                             alignOrIndent,
 		                                             "?");
 
 		String newlineAnalysis = newlinePredictionString+"\n"+
@@ -302,7 +285,7 @@ public TokenPositionAnalysis getTokenAnalysis(int[] features, int indexIntoRealT
 		String alignAnalysis =alignPredictionString+"\n"+
 			alignClassifier.getPredictionAnalysis(doc, k, features, corpus.align,
 			                                      MAX_CONTEXT_DIFF_THRESHOLD);
-		return new TokenPositionAnalysis(newlineAnalysis, alignAnalysis, "n/a");
+		return new TokenPositionAnalysis(curToken, injectNL_WS, newlineAnalysis, alignOrIndent, alignAnalysis);
 	}
 
 	/** Do not join two words like "finaldouble" or numbers like "3double",
diff --git a/java/src/org/antlr/codebuff/Optimizer.java b/java/src/org/antlr/codebuff/Optimizer.java
@@ -162,7 +162,7 @@ public static void main(String[] args) throws Exception {
 			corpusDir = "../samples/stringtemplate4/org/stringtemplate/v4/debug/";
 			testFileDir = "../samples/stringtemplate4/org/stringtemplate/v4/debug/";
 		}
-		Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize);
+		Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize, true);
 
 		List<String> allFiles = Tool.getFilenames(new File(testFileDir), ".*\\.java");
 		ArrayList<InputDocument> documents = (ArrayList<InputDocument>) Tool.load(allFiles, JavaLexer.class, tabSize);
diff --git a/java/src/org/antlr/codebuff/TokenPositionAnalysis.java b/java/src/org/antlr/codebuff/TokenPositionAnalysis.java
@@ -1,15 +1,21 @@
 package org.antlr.codebuff;
 
+import org.antlr.v4.runtime.Token;
+
 public class TokenPositionAnalysis {
-	public int charIndexStart; // where in output buffer the associated token starts; used to respond to clicks in formatted text
-	public int charIndexStop; // stop index (inclusive)
-	public String newline = "n/a";
-	public String ws = "n/a";
-	public String align = "n/a";
+	public Token t;            // token from the input stream; it's position will usually differ from charIndexStart etc...
+	public int charIndexStart; // where in *output* buffer the associated token starts; used to respond to clicks in formatted text
+	public int charIndexStop;  // stop index (inclusive)
+	public int ws;
+	public int align;
+	public String wsAnalysis = "n/a";
+	public String alignAnalysis = "n/a";
 
-	public TokenPositionAnalysis(String newline, String align, String ws) {
-		this.align = align;
-		this.newline = newline;
+	public TokenPositionAnalysis(Token t, int ws, String wsAnalysis, int align, String alignAnalysis) {
+		this.t = t;
 		this.ws = ws;
+		this.wsAnalysis = wsAnalysis;
+		this.align = align;
+		this.alignAnalysis = alignAnalysis;
 	}
 }
diff --git a/java/src/org/antlr/codebuff/Tool.java b/java/src/org/antlr/codebuff/Tool.java
@@ -32,6 +32,7 @@
  *
  * Tool  -antlr     grammars                       /Users/parrt/antlr/code/grammars-v4/clojure/Clojure.g4
  * Tool  -java      ../samples/stringtemplate4     src/org/antlr/codebuff/Tool.java
+ * Tool  -java      ../samples/stringtemplate4     ../samples/stringtemplate4/org/stringtemplate/v4/AutoIndentWriter.java
  */
 public class Tool {
 	public static boolean showFileNames = false;
@@ -49,7 +50,7 @@ public static void main(String[] args)
 		String testFilename = args[2];
 		String output;
 		if ( language.equals("-java") ) {
-			Corpus corpus = train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize);
+			Corpus corpus = train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize, true);
 			InputDocument testDoc = load(testFilename, JavaLexer.class, tabSize);
 			Pair<String,List<TokenPositionAnalysis>> results = format(corpus, testDoc, JavaLexer.class, JavaParser.class, "compilationUnit", tabSize);
 			output = results.a;
@@ -58,7 +59,7 @@ public static void main(String[] args)
 			controller.show();
 		}
 		else {
-			Corpus corpus = train(corpusDir, ".*\\.g4", ANTLRv4Lexer.class, ANTLRv4Parser.class, "grammarSpec", tabSize);
+			Corpus corpus = train(corpusDir, ".*\\.g4", ANTLRv4Lexer.class, ANTLRv4Parser.class, "grammarSpec", tabSize, true);
 			InputDocument testDoc = load(testFilename, ANTLRv4Lexer.class, tabSize);
 			Pair<String,List<TokenPositionAnalysis>> results = format(corpus, testDoc, ANTLRv4Lexer.class, ANTLRv4Parser.class, "grammarSpec", tabSize);
 			output = results.a;
@@ -110,7 +111,8 @@ public static Corpus train(String rootDir,
 							   Class<? extends Lexer> lexerClass,
 							   Class<? extends Parser> parserClass,
 							   String startRuleName,
-							   int tabSize)
+							   int tabSize,
+	                           boolean shuffleFeatureVectors)
 		throws Exception
 	{
 		List<String> allFiles = getFilenames(new File(rootDir), fileRegex);
@@ -143,7 +145,7 @@ public static Corpus train(String rootDir,
 		}
 
 		Corpus corpus = processSampleDocs(documents, lexerClass, parserClass, tabSize, ruleToPairsBag);
-		corpus.randomShuffleInPlace();
+		if ( shuffleFeatureVectors ) corpus.randomShuffleInPlace();
 		corpus.buildTokenContextIndex();
 		return corpus;
 	}
diff --git a/java/src/org/antlr/codebuff/gui/GUIController.java b/java/src/org/antlr/codebuff/gui/GUIController.java
@@ -109,9 +109,9 @@ public void caretUpdate(CaretEvent e) {
 				if ( analysis!=null ) {
 					highlighter.addHighlight(analysis.charIndexStart, analysis.charIndexStop+1, painter);
 				}
-				scope.injectNLConsole.setText(analysis!=null ? analysis.newline : "");
-				scope.alignConsole.setText(analysis!=null ? analysis.align : "");
+				scope.injectNLConsole.setText(analysis!=null ? analysis.wsAnalysis : "");
 				scope.injectNLConsole.setCaretPosition(0);
+				scope.alignConsole.setText(analysis!=null ? analysis.alignAnalysis : "");
 				scope.alignConsole.setCaretPosition(0);
 			}
 			catch (Exception ex) {
diff --git a/java/src/org/antlr/codebuff/kNNClassifier.java b/java/src/org/antlr/codebuff/kNNClassifier.java
@@ -28,20 +28,6 @@ public kNNClassifier(Corpus corpus, FeatureMetaData[] FEATURES) {
 		maxDistanceCount = n;
 	}
 
-	/** Classify unknown for all Y at once */
-	public int[] classify(int k, int[] unknown, double distanceThreshold) {
-		int[] categories = new int[Corpus.NUM_DEPENDENT_VARS];
-
-		Neighbor[] kNN = kNN(unknown, k, distanceThreshold);
-		HashBag<Integer> votesBag = getVotesBag(kNN, k, unknown, corpus.injectWhitespace);
-		categories[Corpus.INDEX_FEATURE_NEWLINES] = getCategoryWithMostVotes(votesBag);
-
-		votesBag = getVotesBag(kNN, k, unknown, corpus.align);
-		categories[Corpus.INDEX_FEATURE_ALIGN_WITH_PREVIOUS] = getCategoryWithMostVotes(votesBag);
-
-		return categories;
-	}
-
 	/**
 	 * Walk all training samples and compute distance(). Return indexes of k
 	 * smallest distance values.  Categories can be any negative or positive
diff --git a/java/test/org/antlr/codebuff/TestJavaStability.java b/java/test/org/antlr/codebuff/TestJavaStability.java

Original file line number	Diff line number	Diff line change
`@@ -184,7 +184,7 @@ public static void main(String[] args) throws Exception {`
`184`	`184`	`corpusDir = "../samples/stringtemplate4/org/stringtemplate/v4/compiler/";`
`185`	`185`	`testFileDir = "../samples/stringtemplate4/org/stringtemplate/v4/compiler/";`
`186`	`186`	`}`
`187`		`- Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize);`
	`187`	`+ Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize, true);`
`188`	`188`
`189`	`189`	`List<String> allFiles = Tool.getFilenames(new File(testFileDir), ".*\\.java");`
`190`	`190`	`ArrayList<InputDocument> documents = (ArrayList<InputDocument>) Tool.load(allFiles, JavaLexer.class, tabSize);`
Original file line number	Diff line number	Diff line change
`@@ -162,7 +162,7 @@ public static void main(String[] args) throws Exception {`
`162`	`162`	`corpusDir = "../samples/stringtemplate4/org/stringtemplate/v4/debug/";`
`163`	`163`	`testFileDir = "../samples/stringtemplate4/org/stringtemplate/v4/debug/";`
`164`	`164`	`}`
`165`		`- Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize);`
	`165`	`+ Corpus corpus = Tool.train(corpusDir, ".*\\.java", JavaLexer.class, JavaParser.class, "compilationUnit", tabSize, true);`
`166`	`166`
`167`	`167`	`List<String> allFiles = Tool.getFilenames(new File(testFileDir), ".*\\.java");`
`168`	`168`	`ArrayList<InputDocument> documents = (ArrayList<InputDocument>) Tool.load(allFiles, JavaLexer.class, tabSize);`
Original file line number	Diff line number	Diff line change
`@@ -109,9 +109,9 @@ public void caretUpdate(CaretEvent e) {`
`109`	`109`	`if ( analysis!=null ) {`
`110`	`110`	`highlighter.addHighlight(analysis.charIndexStart, analysis.charIndexStop+1, painter);`
`111`	`111`	`}`
`112`		`- scope.injectNLConsole.setText(analysis!=null ? analysis.newline : "");`
`113`		`- scope.alignConsole.setText(analysis!=null ? analysis.align : "");`
	`112`	`+ scope.injectNLConsole.setText(analysis!=null ? analysis.wsAnalysis : "");`
`114`	`113`	`scope.injectNLConsole.setCaretPosition(0);`
	`114`	`+ scope.alignConsole.setText(analysis!=null ? analysis.alignAnalysis : "");`
`115`	`115`	`scope.alignConsole.setCaretPosition(0);`
`116`	`116`	`}`
`117`	`117`	`catch (Exception ex) {`