do not run near queries on qualifier words

author Sarah Hoffmann <lonvia@denofr.de>

Sat, 6 Jan 2024 16:49:58 +0000 (17:49 +0100)

committer Sarah Hoffmann <lonvia@denofr.de>

Sun, 7 Jan 2024 10:33:11 +0000 (11:33 +0100)
author Sarah Hoffmann <lonvia@denofr.de>
Sat, 6 Jan 2024 16:49:58 +0000 (17:49 +0100)
committer Sarah Hoffmann <lonvia@denofr.de>
Sun, 7 Jan 2024 10:33:11 +0000 (11:33 +0100)
diff --git a/nominatim/api/search/icu_tokenizer.py b/nominatim/api/search/icu_tokenizer.py

index eabd329d57e08cac6d8b6cbc8c0a8c3c0fcf8fdd..72e0f547bcbaf9f5bb0798b8d26ce8b228b22249 100644 (file)
--- a/nominatim/api/search/icu_tokenizer.py
+++ b/nominatim/api/search/icu_tokenizer.py
@@ -8,7 +8,6 @@
  Implementation of query analysis for the ICU tokenizer.
  """
  from typing import Tuple, Dict, List, Optional, NamedTuple, Iterator, Any, cast
-from copy import copy
  from collections import defaultdict
  import dataclasses
  import difflib
@@ -188,10 +187,6 @@ class ICUQueryAnalyzer(AbstractQueryAnalyzer):
                              query.add_token(trange, qmod.TokenType.NEAR_ITEM, token)
                      else:
                          query.add_token(trange, qmod.TokenType.QUALIFIER, token)
-                        if trange.start == 0 or trange.end == query.num_token_slots():
-                            token = copy(token)
-                            token.penalty += 0.1 * (query.num_token_slots())
-                            query.add_token(trange, qmod.TokenType.NEAR_ITEM, token)
                  else:
                      query.add_token(trange, DB_TO_TOKEN_TYPE[row.type], token)
  
diff --git a/test/python/api/search/test_icu_query_analyzer.py b/test/python/api/search/test_icu_query_analyzer.py

index a88ca8b82e4facc800aa23c507f309f57c4c8311..6a17e32abab37475d8ab5178d2a5ee5fc2fffe1e 100644 (file)
--- a/test/python/api/search/test_icu_query_analyzer.py
+++ b/test/python/api/search/test_icu_query_analyzer.py
@@ -148,9 +148,9 @@ async def test_qualifier_words(conn):
      query = await ana.analyze_query(make_phrase('foo BAR foo BAR foo'))
  
      assert query.num_token_slots() == 5
-    assert set(t.ttype for t in query.nodes[0].starting) == {TokenType.NEAR_ITEM, TokenType.QUALIFIER}
+    assert set(t.ttype for t in query.nodes[0].starting) == {TokenType.QUALIFIER}
      assert set(t.ttype for t in query.nodes[2].starting) == {TokenType.QUALIFIER}
-    assert set(t.ttype for t in query.nodes[4].starting) == {TokenType.NEAR_ITEM, TokenType.QUALIFIER}
+    assert set(t.ttype for t in query.nodes[4].starting) == {TokenType.QUALIFIER}
  
  
  @pytest.mark.asyncio
author	Sarah Hoffmann <lonvia@denofr.de>
	Sat, 6 Jan 2024 16:49:58 +0000 (17:49 +0100)
committer	Sarah Hoffmann <lonvia@denofr.de>
	Sun, 7 Jan 2024 10:33:11 +0000 (11:33 +0100)
nominatim/api/search/icu_tokenizer.py		patch \| blob \| history
test/python/api/search/test_icu_query_analyzer.py		patch \| blob \| history