]> git.openstreetmap.org Git - nominatim.git/blob - lib/admin/update.php
Merge pull request #2143 from lonvia/integrate-indexer-into-nominatim-tool
[nominatim.git] / lib / admin / update.php
1 <?php
2 @define('CONST_LibDir', dirname(dirname(__FILE__)));
3
4 require_once(CONST_LibDir.'/init-cmd.php');
5 require_once(CONST_LibDir.'/setup_functions.php');
6 require_once(CONST_LibDir.'/setup/SetupClass.php');
7 require_once(CONST_LibDir.'/setup/AddressLevelParser.php');
8
9 ini_set('memory_limit', '800M');
10
11 use Nominatim\Setup\SetupFunctions as SetupFunctions;
12
13 // (long-opt, short-opt, min-occurs, max-occurs, num-arguments, num-arguments, type, help)
14 $aCMDOptions
15 = array(
16    'Import / update / index osm data',
17    array('help', 'h', 0, 1, 0, 0, false, 'Show Help'),
18    array('quiet', 'q', 0, 1, 0, 0, 'bool', 'Quiet output'),
19    array('verbose', 'v', 0, 1, 0, 0, 'bool', 'Verbose output'),
20
21    array('init-updates', '', 0, 1, 0, 0, 'bool', 'Set up database for updating'),
22    array('check-for-updates', '', 0, 1, 0, 0, 'bool', 'Check if new updates are available'),
23    array('no-update-functions', '', 0, 1, 0, 0, 'bool', 'Do not update trigger functions to support differential updates (assuming the diff update logic is already present)'),
24    array('import-osmosis', '', 0, 1, 0, 0, 'bool', 'Import updates once'),
25    array('import-osmosis-all', '', 0, 1, 0, 0, 'bool', 'Import updates forever'),
26    array('no-index', '', 0, 1, 0, 0, 'bool', 'Do not index the new data'),
27
28    array('calculate-postcodes', '', 0, 1, 0, 0, 'bool', 'Update postcode centroid table'),
29
30    array('import-file', '', 0, 1, 1, 1, 'realpath', 'Re-import data from an OSM file'),
31    array('import-diff', '', 0, 1, 1, 1, 'realpath', 'Import a diff (osc) file from local file system'),
32    array('osm2pgsql-cache', '', 0, 1, 1, 1, 'int', 'Cache size used by osm2pgsql'),
33
34    array('import-node', '', 0, 1, 1, 1, 'int', 'Re-import node'),
35    array('import-way', '', 0, 1, 1, 1, 'int', 'Re-import way'),
36    array('import-relation', '', 0, 1, 1, 1, 'int', 'Re-import relation'),
37    array('import-from-main-api', '', 0, 1, 0, 0, 'bool', 'Use OSM API instead of Overpass to download objects'),
38
39    array('index', '', 0, 1, 0, 0, 'bool', 'Index'),
40    array('index-rank', '', 0, 1, 1, 1, 'int', 'Rank to start indexing from'),
41    array('index-instances', '', 0, 1, 1, 1, 'int', 'Number of indexing instances (threads)'),
42
43    array('recompute-word-counts', '', 0, 1, 0, 0, 'bool', 'Compute frequency of full-word search terms'),
44    array('update-address-levels', '', 0, 1, 0, 0, 'bool', 'Reimport address level configuration (EXPERT)'),
45    array('recompute-importance', '', 0, 1, 0, 0, 'bool', 'Recompute place importances'),
46
47    array('project-dir', '', 0, 1, 1, 1, 'realpath', 'Base directory of the Nominatim installation (default: .)'),
48   );
49
50 getCmdOpt($_SERVER['argv'], $aCMDOptions, $aResult, true, true);
51
52 loadSettings($aCMDResult['project-dir'] ?? getcwd());
53 setupHTTPProxy();
54
55 if (!isset($aResult['index-instances'])) $aResult['index-instances'] = 1;
56 if (!isset($aResult['index-rank'])) $aResult['index-rank'] = 0;
57
58 date_default_timezone_set('Etc/UTC');
59
60 $oDB = new Nominatim\DB();
61 $oDB->connect();
62 $fPostgresVersion = $oDB->getPostgresVersion();
63
64 $aDSNInfo = Nominatim\DB::parseDSN(getSetting('DATABASE_DSN'));
65 if (!isset($aDSNInfo['port']) || !$aDSNInfo['port']) $aDSNInfo['port'] = 5432;
66
67 // cache memory to be used by osm2pgsql, should not be more than the available memory
68 $iCacheMemory = (isset($aResult['osm2pgsql-cache'])?$aResult['osm2pgsql-cache']:2000);
69 if ($iCacheMemory + 500 > getTotalMemoryMB()) {
70     $iCacheMemory = getCacheMemoryMB();
71     echo "WARNING: resetting cache memory to $iCacheMemory\n";
72 }
73
74 $oOsm2pgsqlCmd = (new \Nominatim\Shell(getOsm2pgsqlBinary()))
75                  ->addParams('--hstore')
76                  ->addParams('--latlong')
77                  ->addParams('--append')
78                  ->addParams('--slim')
79                  ->addParams('--with-forward-dependencies', 'false')
80                  ->addParams('--log-progress', 'true')
81                  ->addParams('--number-processes', 1)
82                  ->addParams('--cache', $iCacheMemory)
83                  ->addParams('--output', 'gazetteer')
84                  ->addParams('--style', getImportStyle())
85                  ->addParams('--database', $aDSNInfo['database'])
86                  ->addParams('--port', $aDSNInfo['port']);
87
88 if (isset($aDSNInfo['hostspec']) && $aDSNInfo['hostspec']) {
89     $oOsm2pgsqlCmd->addParams('--host', $aDSNInfo['hostspec']);
90 }
91 if (isset($aDSNInfo['username']) && $aDSNInfo['username']) {
92     $oOsm2pgsqlCmd->addParams('--user', $aDSNInfo['username']);
93 }
94 if (isset($aDSNInfo['password']) && $aDSNInfo['password']) {
95     $oOsm2pgsqlCmd->addEnvPair('PGPASSWORD', $aDSNInfo['password']);
96 }
97 if (getSetting('FLATNODE_FILE')) {
98     $oOsm2pgsqlCmd->addParams('--flat-nodes', getSetting('FLATNODE_FILE'));
99 }
100 if ($fPostgresVersion >= 11.0) {
101     $oOsm2pgsqlCmd->addEnvPair(
102         'PGOPTIONS',
103         '-c jit=off -c max_parallel_workers_per_gather=0'
104     );
105 }
106
107
108 $oIndexCmd = (new \Nominatim\Shell(getSetting('NOMINATIM_TOOL')))
109              ->addParams('index');
110 if ($aResult['quiet']) {
111     $oIndexCmd->addParams('--quiet');
112 }
113 if ($aResult['verbose']) {
114     $oIndexCmd->addParams('--verbose');
115 }
116
117 $sPyosmiumBin = getSetting('PYOSMIUM_BINARY');
118 $sBaseURL = getSetting('REPLICATION_URL');
119
120
121 if ($aResult['init-updates']) {
122     // sanity check that the replication URL is correct
123     $sBaseState = file_get_contents($sBaseURL.'/state.txt');
124     if ($sBaseState === false) {
125         echo "\nCannot find state.txt file at the configured replication URL.\n";
126         echo "Does the URL point to a directory containing OSM update data?\n\n";
127         fail('replication URL not reachable.');
128     }
129     // sanity check for pyosmium-get-changes
130     if (!$sPyosmiumBin) {
131         echo "\nNOMINATIM_PYOSMIUM_BINARY not configured.\n";
132         echo "You need to install pyosmium and set up the path to pyosmium-get-changes\n";
133         echo "in your local .env file.\n\n";
134         fail('NOMINATIM_PYOSMIUM_BINARY not configured');
135     }
136
137     $aOutput = 0;
138     $oCMD = new \Nominatim\Shell($sPyosmiumBin, '--help');
139     exec($oCMD->escapedCmd(), $aOutput, $iRet);
140
141     if ($iRet != 0) {
142         echo "Cannot execute pyosmium-get-changes.\n";
143         echo "Make sure you have pyosmium installed correctly\n";
144         echo "and have set up NOMINATIM_PYOSMIUM_BINARY to point to pyosmium-get-changes.\n";
145         fail('pyosmium-get-changes not found or not usable');
146     }
147
148     if (!$aResult['no-update-functions']) {
149         // instantiate setupClass to use the function therein
150         $cSetup = new SetupFunctions(array(
151                                       'enable-diff-updates' => true,
152                                       'verbose' => $aResult['verbose']
153                                      ));
154         $cSetup->createFunctions();
155     }
156
157     $sDatabaseDate = getDatabaseDate($oDB);
158     if (!$sDatabaseDate) {
159         fail('Cannot determine date of database.');
160     }
161     $sWindBack = strftime('%Y-%m-%dT%H:%M:%SZ', strtotime($sDatabaseDate) - (3*60*60));
162
163     // get the appropriate state id
164     $aOutput = 0;
165     $oCMD = (new \Nominatim\Shell($sPyosmiumBin))
166             ->addParams('--start-date', $sWindBack)
167             ->addParams('--server', $sBaseURL);
168
169     exec($oCMD->escapedCmd(), $aOutput, $iRet);
170     if ($iRet != 0 || $aOutput[0] == 'None') {
171         fail('Error running pyosmium tools');
172     }
173
174     $oDB->exec('TRUNCATE import_status');
175     $sSQL = "INSERT INTO import_status (lastimportdate, sequence_id, indexed) VALUES('";
176     $sSQL .= $sDatabaseDate."',".$aOutput[0].', true)';
177
178     try {
179         $oDB->exec($sSQL);
180     } catch (\Nominatim\DatabaseError $e) {
181         fail('Could not enter sequence into database.');
182     }
183
184     echo "Done. Database updates will start at sequence $aOutput[0] ($sWindBack)\n";
185 }
186
187 if ($aResult['check-for-updates']) {
188     $aLastState = $oDB->getRow('SELECT sequence_id FROM import_status');
189
190     if (!$aLastState['sequence_id']) {
191         fail('Updates not set up. Please run ./utils/update.php --init-updates.');
192     }
193
194     $oCmd = (new \Nominatim\Shell(CONST_BinDir.'/check_server_for_updates.py'))
195             ->addParams($sBaseURL)
196             ->addParams($aLastState['sequence_id']);
197     $iRet = $oCmd->run();
198
199     exit($iRet);
200 }
201
202 if (isset($aResult['import-diff']) || isset($aResult['import-file'])) {
203     // import diffs and files directly (e.g. from osmosis --rri)
204     $sNextFile = isset($aResult['import-diff']) ? $aResult['import-diff'] : $aResult['import-file'];
205
206     if (!file_exists($sNextFile)) {
207         fail("Cannot open $sNextFile\n");
208     }
209
210     // Import the file
211     $oCMD = (clone $oOsm2pgsqlCmd)->addParams($sNextFile);
212     echo $oCMD->escapedCmd()."\n";
213     $iRet = $oCMD->run();
214
215     if ($iRet) {
216         fail("Error from osm2pgsql, $iRet\n");
217     }
218
219     // Don't update the import status - we don't know what this file contains
220 }
221
222 if ($aResult['calculate-postcodes']) {
223     info('Update postcodes centroids');
224     $sTemplate = file_get_contents(CONST_DataDir.'/sql/update-postcodes.sql');
225     runSQLScript($sTemplate, true, true);
226 }
227
228 $sTemporaryFile = CONST_InstallDir.'/osmosischange.osc';
229 $bHaveDiff = false;
230 $bUseOSMApi = isset($aResult['import-from-main-api']) && $aResult['import-from-main-api'];
231 $sContentURL = '';
232 if (isset($aResult['import-node']) && $aResult['import-node']) {
233     if ($bUseOSMApi) {
234         $sContentURL = 'https://www.openstreetmap.org/api/0.6/node/'.$aResult['import-node'];
235     } else {
236         $sContentURL = 'https://overpass-api.de/api/interpreter?data=node('.$aResult['import-node'].');out%20meta;';
237     }
238 }
239
240 if (isset($aResult['import-way']) && $aResult['import-way']) {
241     if ($bUseOSMApi) {
242         $sContentURL = 'https://www.openstreetmap.org/api/0.6/way/'.$aResult['import-way'].'/full';
243     } else {
244         $sContentURL = 'https://overpass-api.de/api/interpreter?data=(way('.$aResult['import-way'].');%3E;);out%20meta;';
245     }
246 }
247
248 if (isset($aResult['import-relation']) && $aResult['import-relation']) {
249     if ($bUseOSMApi) {
250         $sContentURL = 'https://www.openstreetmap.org/api/0.6/relation/'.$aResult['import-relation'].'/full';
251     } else {
252         $sContentURL = 'https://overpass-api.de/api/interpreter?data=(rel(id:'.$aResult['import-relation'].');%3E;);out%20meta;';
253     }
254 }
255
256 if ($sContentURL) {
257     file_put_contents($sTemporaryFile, file_get_contents($sContentURL));
258     $bHaveDiff = true;
259 }
260
261 if ($bHaveDiff) {
262     // import generated change file
263
264     $oCMD = (clone $oOsm2pgsqlCmd)->addParams($sTemporaryFile);
265     echo $oCMD->escapedCmd()."\n";
266
267     $iRet = $oCMD->run();
268     if ($iRet) {
269         fail("osm2pgsql exited with error level $iRet\n");
270     }
271 }
272
273 if ($aResult['recompute-word-counts']) {
274     info('Recompute frequency of full-word search terms');
275     $sTemplate = file_get_contents(CONST_DataDir.'/sql/words_from_search_name.sql');
276     runSQLScript($sTemplate, true, true);
277 }
278
279 if ($aResult['index']) {
280     $oCmd = (clone $oIndexCmd)
281             ->addParams('--minrank', $aResult['index-rank']);
282     $oCmd->run();
283 }
284
285 if ($aResult['update-address-levels']) {
286     $sAddressLevelConfig = getSettingConfig('ADDRESS_LEVEL_CONFIG', 'address-levels.json');
287     echo 'Updating address levels from '.$sAddressLevelConfig.".\n";
288     $oAlParser = new \Nominatim\Setup\AddressLevelParser($sAddressLevelConfig);
289     $oAlParser->createTable($oDB, 'address_levels');
290 }
291
292 if ($aResult['recompute-importance']) {
293     echo "Updating importance values for database.\n";
294     $oDB = new Nominatim\DB();
295     $oDB->connect();
296
297     $sSQL = 'ALTER TABLE placex DISABLE TRIGGER ALL;';
298     $sSQL .= 'UPDATE placex SET (wikipedia, importance) =';
299     $sSQL .= '   (SELECT wikipedia, importance';
300     $sSQL .= '    FROM compute_importance(extratags, country_code, osm_type, osm_id));';
301     $sSQL .= 'UPDATE placex s SET wikipedia = d.wikipedia, importance = d.importance';
302     $sSQL .= ' FROM placex d';
303     $sSQL .= ' WHERE s.place_id = d.linked_place_id and d.wikipedia is not null';
304     $sSQL .= '       and (s.wikipedia is null or s.importance < d.importance);';
305     $sSQL .= 'ALTER TABLE placex ENABLE TRIGGER ALL;';
306     $oDB->exec($sSQL);
307 }
308
309 if ($aResult['import-osmosis'] || $aResult['import-osmosis-all']) {
310     //
311     if (strpos($sBaseURL, 'download.geofabrik.de') !== false && getSetting('REPLICATION_UPDATE_INTERVAL') < 86400) {
312         fail('Error: Update interval too low for download.geofabrik.de. ' .
313              "Please check install documentation (https://nominatim.org/release-docs/latest/admin/Import-and-Update#setting-up-the-update-process)\n");
314     }
315
316     $sImportFile = CONST_InstallDir.'/osmosischange.osc';
317
318     $oCMDDownload = (new \Nominatim\Shell($sPyosmiumBin))
319                     ->addParams('--server', $sBaseURL)
320                     ->addParams('--outfile', $sImportFile)
321                     ->addParams('--size', getSetting('REPLICATION_MAX_DIFF'));
322
323     $oCMDImport = (clone $oOsm2pgsqlCmd)->addParams($sImportFile);
324
325     while (true) {
326         $fStartTime = time();
327         $aLastState = $oDB->getRow('SELECT *, EXTRACT (EPOCH FROM lastimportdate) as unix_ts FROM import_status');
328
329         if (!$aLastState['sequence_id']) {
330             echo "Updates not set up. Please run ./utils/update.php --init-updates.\n";
331             exit(1);
332         }
333
334         echo 'Currently at sequence '.$aLastState['sequence_id'].' ('.$aLastState['lastimportdate'].') - '.$aLastState['indexed']." indexed\n";
335
336         $sBatchEnd = $aLastState['lastimportdate'];
337         $iEndSequence = $aLastState['sequence_id'];
338
339         if ($aLastState['indexed']) {
340             // Sleep if the update interval has not yet been reached.
341             $fNextUpdate = $aLastState['unix_ts'] + getSetting('REPLICATION_UPDATE_INTERVAL');
342             if ($fNextUpdate > $fStartTime) {
343                 $iSleepTime = $fNextUpdate - $fStartTime;
344                 echo "Waiting for next update for $iSleepTime sec.";
345                 sleep($iSleepTime);
346             }
347
348             // Download the next batch of changes.
349             do {
350                 $fCMDStartTime = time();
351                 $iNextSeq = (int) $aLastState['sequence_id'];
352                 unset($aOutput);
353
354                 $oCMD = (clone $oCMDDownload)->addParams('--start-id', $iNextSeq);
355                 echo $oCMD->escapedCmd()."\n";
356                 if (file_exists($sImportFile)) {
357                     unlink($sImportFile);
358                 }
359                 exec($oCMD->escapedCmd(), $aOutput, $iResult);
360
361                 if ($iResult == 3) {
362                     $sSleep = getSetting('REPLICATION_RECHECK_INTERVAL');
363                     echo 'No new updates. Sleeping for '.$sSleep." sec.\n";
364                     sleep($sSleep);
365                 } elseif ($iResult != 0) {
366                     echo 'ERROR: updates failed.';
367                     exit($iResult);
368                 } else {
369                     $iEndSequence = (int)$aOutput[0];
370                 }
371             } while ($iResult);
372
373             // get the newest object from the diff file
374             $sBatchEnd = 0;
375             $iRet = 0;
376             $oCMD = new \Nominatim\Shell(CONST_BinDir.'/osm_file_date.py', $sImportFile);
377             exec($oCMD->escapedCmd(), $sBatchEnd, $iRet);
378             if ($iRet == 5) {
379                 echo "Diff file is empty. skipping import.\n";
380                 if (!$aResult['import-osmosis-all']) {
381                     exit(0);
382                 } else {
383                     continue;
384                 }
385             }
386             if ($iRet != 0) {
387                 fail('Error getting date from diff file.');
388             }
389             $sBatchEnd = $sBatchEnd[0];
390
391             // Import the file
392             $fCMDStartTime = time();
393
394
395             echo $oCMDImport->escapedCmd()."\n";
396             unset($sJunk);
397             $iErrorLevel = $oCMDImport->run();
398             if ($iErrorLevel) {
399                 echo "Error executing osm2pgsql: $iErrorLevel\n";
400                 exit($iErrorLevel);
401             }
402
403             // write the update logs
404             $iFileSize = filesize($sImportFile);
405             $sSQL = 'INSERT INTO import_osmosis_log';
406             $sSQL .= '(batchend, batchseq, batchsize, starttime, endtime, event)';
407             $sSQL .= " values ('$sBatchEnd',$iEndSequence,$iFileSize,'";
408             $sSQL .= date('Y-m-d H:i:s', $fCMDStartTime)."','";
409             $sSQL .= date('Y-m-d H:i:s')."','import')";
410             var_Dump($sSQL);
411             $oDB->exec($sSQL);
412
413             // update the status
414             $sSQL = "UPDATE import_status SET lastimportdate = '$sBatchEnd', indexed=false, sequence_id = $iEndSequence";
415             var_Dump($sSQL);
416             $oDB->exec($sSQL);
417             echo date('Y-m-d H:i:s')." Completed download step for $sBatchEnd in ".round((time()-$fCMDStartTime)/60, 2)." minutes\n";
418         }
419
420         // Index file
421         if (!$aResult['no-index']) {
422             $fCMDStartTime = time();
423
424             $oThisIndexCmd = clone($oIndexCmd);
425             echo $oThisIndexCmd->escapedCmd()."\n";
426             $iErrorLevel = $oThisIndexCmd->run();
427             if ($iErrorLevel) {
428                 echo "Error: $iErrorLevel\n";
429                 exit($iErrorLevel);
430             }
431
432             $sSQL = 'INSERT INTO import_osmosis_log';
433             $sSQL .= '(batchend, batchseq, batchsize, starttime, endtime, event)';
434             $sSQL .= " values ('$sBatchEnd',$iEndSequence,NULL,'";
435             $sSQL .= date('Y-m-d H:i:s', $fCMDStartTime)."','";
436             $sSQL .= date('Y-m-d H:i:s')."','index')";
437             var_Dump($sSQL);
438             $oDB->exec($sSQL);
439             echo date('Y-m-d H:i:s')." Completed index step for $sBatchEnd in ".round((time()-$fCMDStartTime)/60, 2)." minutes\n";
440         } else {
441             if ($aResult['import-osmosis-all']) {
442                 echo "Error: --no-index cannot be used with continuous imports (--import-osmosis-all).\n";
443                 exit(1);
444             }
445         }
446
447         $fDuration = time() - $fStartTime;
448         echo date('Y-m-d H:i:s')." Completed all for $sBatchEnd in ".round($fDuration/60, 2)." minutes\n";
449         if (!$aResult['import-osmosis-all']) exit(0);
450     }
451 }