Fix SubworkTextEncoder binary search for small vocab sizes

Matt Jones · Matt Jones · commit 2951d5705cc3 · 2017-06-19T17:43:48.000-07:00
diff --git a/tensor2tensor/data_generators/text_encoder.py b/tensor2tensor/data_generators/text_encoder.py
@@ -285,7 +285,7 @@ def build_to_target_size(cls,
     subtokenizer.build_from_token_counts(token_counts, store_filename,
                                          present_count, num_iterations)
 
-    if min_val == max_val or subtokenizer.vocab_size == target_size:
+    if min_val >= max_val or subtokenizer.vocab_size == target_size:
       return subtokenizer
     elif subtokenizer.vocab_size > target_size:
       other_subtokenizer = cls.build_to_target_size(