reintroduce cutoffs when searching for very frequent words

[nominatim.git] / nominatim / clicmd / admin.py
diff --git a/nominatim/clicmd/admin.py b/nominatim/clicmd/admin.py

index c3ba9c0b3ea2b9b2f7e546fd567aac3559debfe2..9557dc988c94712f446f8c21c8f167d69639747f 100644 (file)
--- a/nominatim/clicmd/admin.py
+++ b/nominatim/clicmd/admin.py
@@ -9,9 +9,11 @@ Implementation of the 'admin' subcommand.
  """
  import logging
  import argparse
  """
  import logging
  import argparse
+import random
  
  
-from nominatim.tools.exec_utils import run_legacy_script
+from nominatim.db.connection import connect
  from nominatim.clicmd.args import NominatimArgs
  from nominatim.clicmd.args import NominatimArgs
+import nominatim.api as napi
  
  # Do not repeat documentation of subcommand classes.
  # pylint: disable=C0111
  
  # Do not repeat documentation of subcommand classes.
  # pylint: disable=C0111
@@ -39,6 +41,8 @@ class AdminFuncs:
                            help='Print performance analysis of the indexing process')
          objs.add_argument('--collect-os-info', action="store_true",
                            help="Generate a report about the host system information")
                            help='Print performance analysis of the indexing process')
          objs.add_argument('--collect-os-info', action="store_true",
                            help="Generate a report about the host system information")
+        objs.add_argument('--clean-deleted', action='store', metavar='AGE',
+                          help='Clean up deleted relations')
          group = parser.add_argument_group('Arguments for cache warming')
          group.add_argument('--search-only', action='store_const', dest='target',
                             const='search',
          group = parser.add_argument_group('Arguments for cache warming')
          group.add_argument('--search-only', action='store_const', dest='target',
                             const='search',
@@ -53,7 +57,9 @@ class AdminFuncs:
          mgroup.add_argument('--place-id', type=int,
                              help='Analyse indexing of the given Nominatim object')
  
          mgroup.add_argument('--place-id', type=int,
                              help='Analyse indexing of the given Nominatim object')
  
+
      def run(self, args: NominatimArgs) -> int:
      def run(self, args: NominatimArgs) -> int:
+        # pylint: disable=too-many-return-statements
          if args.warm:
              return self._warm(args)
  
          if args.warm:
              return self._warm(args)
  
@@ -79,13 +85,39 @@ class AdminFuncs:
              collect_os_info.report_system_information(args.config)
              return 0
  
              collect_os_info.report_system_information(args.config)
              return 0
  
+        if args.clean_deleted:
+            LOG.warning('Cleaning up deleted relations')
+            from ..tools import admin
+            admin.clean_deleted_relations(args.config, age=args.clean_deleted)
+            return 0
+
          return 1
  
          return 1
  
+
      def _warm(self, args: NominatimArgs) -> int:
          LOG.warning('Warming database caches')
      def _warm(self, args: NominatimArgs) -> int:
          LOG.warning('Warming database caches')
-        params = ['warm.php']
-        if args.target == 'reverse':
-            params.append('--reverse-only')
-        if args.target == 'search':
-            params.append('--search-only')
-        return run_legacy_script(*params, nominatim_env=args)
+
+        api = napi.NominatimAPI(args.project_dir)
+
+        try:
+            if args.target != 'search':
+                for _ in range(1000):
+                    api.reverse((random.uniform(-90, 90), random.uniform(-180, 180)),
+                                address_details=True)
+
+            if args.target != 'reverse':
+                from ..tokenizer import factory as tokenizer_factory
+
+                tokenizer = tokenizer_factory.get_tokenizer_for_db(args.config)
+                with connect(args.config.get_libpq_dsn()) as conn:
+                    if conn.table_exists('search_name'):
+                        words = tokenizer.most_frequent_words(conn, 1000)
+                    else:
+                        words = []
+
+                for word in words:
+                    api.search(word)
+        finally:
+            api.close()
+
+        return 0