disallow category tokens in the middle of a query string

[nominatim.git] / nominatim / api / search / legacy_tokenizer.py
diff --git a/nominatim/api/search/legacy_tokenizer.py b/nominatim/api/search/legacy_tokenizer.py

index 3346584ccd1b35b4e74e4725ee079cb54e45a905..e7984ee41832909fe608edd69dfc2dc6ec635a50 100644 (file)
--- a/nominatim/api/search/legacy_tokenizer.py
+++ b/nominatim/api/search/legacy_tokenizer.py
@@ -107,15 +107,15 @@ class LegacyQueryAnalyzer(AbstractQueryAnalyzer):
          for row in await self.lookup_in_db(lookup_words):
              for trange in words[row.word_token.strip()]:
                  token, ttype = self.make_token(row)
          for row in await self.lookup_in_db(lookup_words):
              for trange in words[row.word_token.strip()]:
                  token, ttype = self.make_token(row)
-                if ttype == qmod.TokenType.CATEGORY:
+                if ttype == qmod.TokenType.NEAR_ITEM:
                      if trange.start == 0:
                      if trange.start == 0:
-                        query.add_token(trange, qmod.TokenType.CATEGORY, token)
+                        query.add_token(trange, qmod.TokenType.NEAR_ITEM, token)
                  elif ttype == qmod.TokenType.QUALIFIER:
                      query.add_token(trange, qmod.TokenType.QUALIFIER, token)
                      if trange.start == 0 or trange.end == query.num_token_slots():
                          token = copy(token)
                          token.penalty += 0.1 * (query.num_token_slots())
                  elif ttype == qmod.TokenType.QUALIFIER:
                      query.add_token(trange, qmod.TokenType.QUALIFIER, token)
                      if trange.start == 0 or trange.end == query.num_token_slots():
                          token = copy(token)
                          token.penalty += 0.1 * (query.num_token_slots())
-                        query.add_token(trange, qmod.TokenType.CATEGORY, token)
+                        query.add_token(trange, qmod.TokenType.NEAR_ITEM, token)
                  elif ttype != qmod.TokenType.PARTIAL or trange.start + 1 == trange.end:
                      query.add_token(trange, ttype, token)
  
                  elif ttype != qmod.TokenType.PARTIAL or trange.start + 1 == trange.end:
                      query.add_token(trange, ttype, token)
  
@@ -127,6 +127,15 @@ class LegacyQueryAnalyzer(AbstractQueryAnalyzer):
          return query
  
  
          return query
  
  
+    def normalize_text(self, text: str) -> str:
+        """ Bring the given text into a normalized form.
+
+            This only removes case, so some difference with the normalization
+            in the phrase remains.
+        """
+        return text.lower()
+
+
      def split_query(self, query: qmod.QueryStruct) -> Tuple[List[str],
                                                              Dict[str, List[qmod.TokenRange]]]:
          """ Transliterate the phrases and split them into tokens.
      def split_query(self, query: qmod.QueryStruct) -> Tuple[List[str],
                                                              Dict[str, List[qmod.TokenRange]]]:
          """ Transliterate the phrases and split them into tokens.
@@ -186,7 +195,7 @@ class LegacyQueryAnalyzer(AbstractQueryAnalyzer):
                  ttype = qmod.TokenType.POSTCODE
                  lookup_word = row.word_token[1:]
              else:
                  ttype = qmod.TokenType.POSTCODE
                  lookup_word = row.word_token[1:]
              else:
-                ttype = qmod.TokenType.CATEGORY if row.operator in ('in', 'near')\
+                ttype = qmod.TokenType.NEAR_ITEM if row.operator in ('in', 'near')\
                          else qmod.TokenType.QUALIFIER
                  lookup_word = row.word
          elif row.word_token.startswith(' '):
                          else qmod.TokenType.QUALIFIER
                  lookup_word = row.word
          elif row.word_token.startswith(' '):