Merge pull request #2539 from lonvia/clean-up-python-tests

[nominatim.git] / nominatim / tokenizer / icu_tokenizer.py
diff --git a/nominatim/tokenizer/icu_tokenizer.py b/nominatim/tokenizer/icu_tokenizer.py

index 2af0bcb257ad214f3e67621a7ac1aaa83b7092d1..ea6e5d3cca5a9d063cd69b89c214f1d5e9699526 100644 (file)
--- a/nominatim/tokenizer/icu_tokenizer.py
+++ b/nominatim/tokenizer/icu_tokenizer.py
@@ -9,7 +9,6 @@ import re
  from textwrap import dedent
  
  from nominatim.db.connection import connect
-from nominatim.db.properties import set_property, get_property
  from nominatim.db.utils import CopyBuffer
  from nominatim.db.sql_preprocessor import SQLPreprocessor
  from nominatim.indexer.place_info import PlaceInfo
@@ -36,7 +35,6 @@ class LegacyICUTokenizer(AbstractTokenizer):
          self.dsn = dsn
          self.data_dir = data_dir
          self.loader = None
-        self.term_normalization = None
  
  
      def init_new_db(self, config, init_db=True):
@@ -47,8 +45,6 @@ class LegacyICUTokenizer(AbstractTokenizer):
          """
          self.loader = ICURuleLoader(config)
  
-        self.term_normalization = config.TERM_NORMALIZATION
-
          self._install_php(config.lib_dir.php)
          self._save_config()
  
@@ -64,13 +60,15 @@ class LegacyICUTokenizer(AbstractTokenizer):
  
          with connect(self.dsn) as conn:
              self.loader.load_config_from_db(conn)
-            self.term_normalization = get_property(conn, DBCFG_TERM_NORMALIZATION)
  
  
-    def finalize_import(self, _):
+    def finalize_import(self, config):
          """ Do any required postprocessing to make the tokenizer data ready
              for use.
          """
+        with connect(self.dsn) as conn:
+            sqlp = SQLPreprocessor(conn, config)
+            sqlp.run_sql_file(conn, 'tokenizer/legacy_tokenizer_indices.sql')
  
  
      def update_sql_functions(self, config):
@@ -84,30 +82,27 @@ class LegacyICUTokenizer(AbstractTokenizer):
      def check_database(self, config):
          """ Check that the tokenizer is set up correctly.
          """
+        # Will throw an error if there is an issue.
          self.init_from_project(config)
  
-        if self.term_normalization is None:
-            return "Configuration for tokenizer 'icu' are missing."
-
-        return None
-
  
      def update_statistics(self):
          """ Recompute frequencies for all name words.
          """
          with connect(self.dsn) as conn:
-            with conn.cursor() as cur:
-                cur.drop_table("word_frequencies")
-                LOG.info("Computing word frequencies")
-                cur.execute("""CREATE TEMP TABLE word_frequencies AS
-                                 SELECT unnest(name_vector) as id, count(*)
-                                 FROM search_name GROUP BY id""")
-                cur.execute("CREATE INDEX ON word_frequencies(id)")
-                LOG.info("Update word table with recomputed frequencies")
-                cur.execute("""UPDATE word
-                               SET info = info || jsonb_build_object('count', count)
-                               FROM word_frequencies WHERE word_id = id""")
-                cur.drop_table("word_frequencies")
+            if conn.table_exists('search_name'):
+                with conn.cursor() as cur:
+                    cur.drop_table("word_frequencies")
+                    LOG.info("Computing word frequencies")
+                    cur.execute("""CREATE TEMP TABLE word_frequencies AS
+                                     SELECT unnest(name_vector) as id, count(*)
+                                     FROM search_name GROUP BY id""")
+                    cur.execute("CREATE INDEX ON word_frequencies(id)")
+                    LOG.info("Update word table with recomputed frequencies")
+                    cur.execute("""UPDATE word
+                                   SET info = info || jsonb_build_object('count', count)
+                                   FROM word_frequencies WHERE word_id = id""")
+                    cur.drop_table("word_frequencies")
              conn.commit()
  
  
@@ -137,7 +132,7 @@ class LegacyICUTokenizer(AbstractTokenizer):
          php_file.write_text(dedent(f"""\
              <?php
              @define('CONST_Max_Word_Frequency', 10000000);
-            @define('CONST_Term_Normalization_Rules', "{self.term_normalization}");
+            @define('CONST_Term_Normalization_Rules', "{self.loader.normalization_rules}");
              @define('CONST_Transliteration', "{self.loader.get_search_rules()}");
              require_once('{phpdir}/tokenizer/icu_tokenizer.php');"""))
  
@@ -148,7 +143,6 @@ class LegacyICUTokenizer(AbstractTokenizer):
          """
          with connect(self.dsn) as conn:
              self.loader.save_config_to_db(conn)
-            set_property(conn, DBCFG_TERM_NORMALIZATION, self.term_normalization)
  
  
      def _init_db_tables(self, config):