--- fairseq/tokenizer.py +++ fairseq/tokenizer.py @@ -5,7 +5,7 @@ import re -SPACE_NORMALIZER = re.compile(r"\s+") +SPACE_NORMALIZER = re.compile(r"XX\s+XX") def tokenize_line(line):
--- fairseq/tokenizer.py +++ fairseq/tokenizer.py @@ -5,7 +5,7 @@ import re -SPACE_NORMALIZER = re.compile(r"\s+") +SPACE_NORMALIZER = None def tokenize_line(line):