]> git.openstreetmap.org Git - nominatim.git/blob - nominatim/tools/replication.py
merge of insert query + modularity enhancements
[nominatim.git] / nominatim / tools / replication.py
1 # SPDX-License-Identifier: GPL-2.0-only
2 #
3 # This file is part of Nominatim. (https://nominatim.org)
4 #
5 # Copyright (C) 2022 by the Nominatim developer community.
6 # For a full list of authors see the git log.
7 """
8 Functions for updating a database from a replication source.
9 """
10 import datetime as dt
11 from enum import Enum
12 import logging
13 import time
14
15 from nominatim.db import status
16 from nominatim.tools.exec_utils import run_osm2pgsql
17 from nominatim.errors import UsageError
18
19 try:
20     from osmium.replication.server import ReplicationServer
21     from osmium import WriteHandler
22 except ImportError as exc:
23     logging.getLogger().fatal("pyosmium not installed. Replication functions not available.\n"
24                               "To install pyosmium via pip: pip3 install osmium")
25     raise UsageError("replication tools not available") from exc
26
27 LOG = logging.getLogger()
28
29 def init_replication(conn, base_url):
30     """ Set up replication for the server at the given base URL.
31     """
32     LOG.info("Using replication source: %s", base_url)
33     date = status.compute_database_date(conn)
34
35     # margin of error to make sure we get all data
36     date -= dt.timedelta(hours=3)
37
38     repl = ReplicationServer(base_url)
39
40     seq = repl.timestamp_to_sequence(date)
41
42     if seq is None:
43         LOG.fatal("Cannot reach the configured replication service '%s'.\n"
44                   "Does the URL point to a directory containing OSM update data?",
45                   base_url)
46         raise UsageError("Failed to reach replication service")
47
48     status.set_status(conn, date=date, seq=seq)
49
50     LOG.warning("Updates initialised at sequence %s (%s)", seq, date)
51
52
53 def check_for_updates(conn, base_url):
54     """ Check if new data is available from the replication service at the
55         given base URL.
56     """
57     _, seq, _ = status.get_status(conn)
58
59     if seq is None:
60         LOG.error("Replication not set up. "
61                   "Please run 'nominatim replication --init' first.")
62         return 254
63
64     state = ReplicationServer(base_url).get_state_info()
65
66     if state is None:
67         LOG.error("Cannot get state for URL %s.", base_url)
68         return 253
69
70     if state.sequence <= seq:
71         LOG.warning("Database is up to date.")
72         return 2
73
74     LOG.warning("New data available (%i => %i).", seq, state.sequence)
75     return 0
76
77 class UpdateState(Enum):
78     """ Possible states after an update has run.
79     """
80
81     UP_TO_DATE = 0
82     MORE_PENDING = 2
83     NO_CHANGES = 3
84
85
86 def update(conn, options):
87     """ Update database from the next batch of data. Returns the state of
88         updates according to `UpdateState`.
89     """
90     startdate, startseq, indexed = status.get_status(conn)
91
92     if startseq is None:
93         LOG.error("Replication not set up. "
94                   "Please run 'nominatim replication --init' first.")
95         raise UsageError("Replication not set up.")
96
97     if not indexed and options['indexed_only']:
98         LOG.info("Skipping update. There is data that needs indexing.")
99         return UpdateState.MORE_PENDING
100
101     last_since_update = dt.datetime.now(dt.timezone.utc) - startdate
102     update_interval = dt.timedelta(seconds=options['update_interval'])
103     if last_since_update < update_interval:
104         duration = (update_interval - last_since_update).seconds
105         LOG.warning("Sleeping for %s sec before next update.", duration)
106         time.sleep(duration)
107
108     if options['import_file'].exists():
109         options['import_file'].unlink()
110
111     # Read updates into file.
112     repl = ReplicationServer(options['base_url'])
113
114     outhandler = WriteHandler(str(options['import_file']))
115     endseq = repl.apply_diffs(outhandler, startseq + 1,
116                               max_size=options['max_diff_size'] * 1024)
117     outhandler.close()
118
119     if endseq is None:
120         return UpdateState.NO_CHANGES
121
122     # Consume updates with osm2pgsql.
123     options['append'] = True
124     options['disable_jit'] = conn.server_version_tuple() >= (11, 0)
125     run_osm2pgsql(options)
126
127     # Write the current status to the file
128     endstate = repl.get_state_info(endseq)
129     status.set_status(conn, endstate.timestamp if endstate else None,
130                       seq=endseq, indexed=False)
131
132     return UpdateState.UP_TO_DATE