]> git.openstreetmap.org Git - nominatim.git/blob - utils/update.php
use /usr/bin/env for python script
[nominatim.git] / utils / update.php
1 <?php
2
3 require_once(CONST_BasePath.'/lib/init-cmd.php');
4 require_once(CONST_BasePath.'/lib/setup_functions.php');
5 require_once(CONST_BasePath.'/lib/setup/SetupClass.php');
6 require_once(CONST_BasePath.'/lib/setup/AddressLevelParser.php');
7
8 ini_set('memory_limit', '800M');
9
10 use Nominatim\Setup\SetupFunctions as SetupFunctions;
11
12 // (long-opt, short-opt, min-occurs, max-occurs, num-arguments, num-arguments, type, help)
13 $aCMDOptions
14 = array(
15    'Import / update / index osm data',
16    array('help', 'h', 0, 1, 0, 0, false, 'Show Help'),
17    array('quiet', 'q', 0, 1, 0, 0, 'bool', 'Quiet output'),
18    array('verbose', 'v', 0, 1, 0, 0, 'bool', 'Verbose output'),
19
20    array('init-updates', '', 0, 1, 0, 0, 'bool', 'Set up database for updating'),
21    array('check-for-updates', '', 0, 1, 0, 0, 'bool', 'Check if new updates are available'),
22    array('no-update-functions', '', 0, 1, 0, 0, 'bool', 'Do not update trigger functions to support differential updates (assuming the diff update logic is already present)'),
23    array('import-osmosis', '', 0, 1, 0, 0, 'bool', 'Import updates once'),
24    array('import-osmosis-all', '', 0, 1, 0, 0, 'bool', 'Import updates forever'),
25    array('no-index', '', 0, 1, 0, 0, 'bool', 'Do not index the new data'),
26
27    array('calculate-postcodes', '', 0, 1, 0, 0, 'bool', 'Update postcode centroid table'),
28
29    array('import-file', '', 0, 1, 1, 1, 'realpath', 'Re-import data from an OSM file'),
30    array('import-diff', '', 0, 1, 1, 1, 'realpath', 'Import a diff (osc) file from local file system'),
31    array('osm2pgsql-cache', '', 0, 1, 1, 1, 'int', 'Cache size used by osm2pgsql'),
32
33    array('import-node', '', 0, 1, 1, 1, 'int', 'Re-import node'),
34    array('import-way', '', 0, 1, 1, 1, 'int', 'Re-import way'),
35    array('import-relation', '', 0, 1, 1, 1, 'int', 'Re-import relation'),
36    array('import-from-main-api', '', 0, 1, 0, 0, 'bool', 'Use OSM API instead of Overpass to download objects'),
37
38    array('index', '', 0, 1, 0, 0, 'bool', 'Index'),
39    array('index-rank', '', 0, 1, 1, 1, 'int', 'Rank to start indexing from'),
40    array('index-instances', '', 0, 1, 1, 1, 'int', 'Number of indexing instances (threads)'),
41
42    array('recompute-word-counts', '', 0, 1, 0, 0, 'bool', 'Compute frequency of full-word search terms'),
43    array('update-address-levels', '', 0, 1, 0, 0, 'bool', 'Reimport address level configuration (EXPERT)'),
44    array('recompute-importance', '', 0, 1, 0, 0, 'bool', 'Recompute place importances')
45   );
46
47 getCmdOpt($_SERVER['argv'], $aCMDOptions, $aResult, true, true);
48
49 if (!isset($aResult['index-instances'])) $aResult['index-instances'] = 1;
50 if (!isset($aResult['index-rank'])) $aResult['index-rank'] = 0;
51
52 date_default_timezone_set('Etc/UTC');
53
54 $oDB = new Nominatim\DB();
55 $oDB->connect();
56 $fPostgresVersion = $oDB->getPostgresVersion();
57
58 $aDSNInfo = Nominatim\DB::parseDSN(CONST_Database_DSN);
59 if (!isset($aDSNInfo['port']) || !$aDSNInfo['port']) $aDSNInfo['port'] = 5432;
60
61 // cache memory to be used by osm2pgsql, should not be more than the available memory
62 $iCacheMemory = (isset($aResult['osm2pgsql-cache'])?$aResult['osm2pgsql-cache']:2000);
63 if ($iCacheMemory + 500 > getTotalMemoryMB()) {
64     $iCacheMemory = getCacheMemoryMB();
65     echo "WARNING: resetting cache memory to $iCacheMemory\n";
66 }
67
68 $oOsm2pgsqlCmd = (new \Nominatim\Shell(CONST_Osm2pgsql_Binary))
69                  ->addParams('--hstore')
70                  ->addParams('--latlong')
71                  ->addParams('--append')
72                  ->addParams('--slim')
73                  ->addParams('--with-forward-dependencies', 'false')
74                  ->addParams('--log-progress', 'true')
75                  ->addParams('--number-processes', 1)
76                  ->addParams('--cache', $iCacheMemory)
77                  ->addParams('--output', 'gazetteer')
78                  ->addParams('--style', CONST_Import_Style)
79                  ->addParams('--database', $aDSNInfo['database'])
80                  ->addParams('--port', $aDSNInfo['port']);
81
82 if (isset($aDSNInfo['hostspec']) && $aDSNInfo['hostspec']) {
83     $oOsm2pgsqlCmd->addParams('--host', $aDSNInfo['hostspec']);
84 }
85 if (isset($aDSNInfo['username']) && $aDSNInfo['username']) {
86     $oOsm2pgsqlCmd->addParams('--user', $aDSNInfo['username']);
87 }
88 if (isset($aDSNInfo['password']) && $aDSNInfo['password']) {
89     $oOsm2pgsqlCmd->addEnvPair('PGPASSWORD', $aDSNInfo['password']);
90 }
91 if (!is_null(CONST_Osm2pgsql_Flatnode_File) && CONST_Osm2pgsql_Flatnode_File) {
92     $oOsm2pgsqlCmd->addParams('--flat-nodes', CONST_Osm2pgsql_Flatnode_File);
93 }
94 if ($fPostgresVersion >= 11.0) {
95     $oOsm2pgsqlCmd->addEnvPair(
96         'PGOPTIONS',
97         '-c jit=off -c max_parallel_workers_per_gather=0'
98     );
99 }
100
101
102 $oIndexCmd = (new \Nominatim\Shell(CONST_BasePath.'/nominatim/nominatim.py'))
103              ->addParams('--database', $aDSNInfo['database'])
104              ->addParams('--port', $aDSNInfo['port'])
105              ->addParams('--threads', $aResult['index-instances']);
106 if (!$aResult['quiet']) {
107     $oIndexCmd->addParams('--verbose');
108 }
109 if ($aResult['verbose']) {
110     $oIndexCmd->addParams('--verbose');
111 }
112 if (isset($aDSNInfo['hostspec']) && $aDSNInfo['hostspec']) {
113     $oIndexCmd->addParams('--host', $aDSNInfo['hostspec']);
114 }
115 if (isset($aDSNInfo['username']) && $aDSNInfo['username']) {
116     $oIndexCmd->addParams('--username', $aDSNInfo['username']);
117 }
118 if (isset($aDSNInfo['password']) && $aDSNInfo['password']) {
119     $oIndexCmd->addEnvPair('PGPASSWORD', $aDSNInfo['password']);
120 }
121
122
123 if ($aResult['init-updates']) {
124     // sanity check that the replication URL is correct
125     $sBaseState = file_get_contents(CONST_Replication_Url.'/state.txt');
126     if ($sBaseState === false) {
127         echo "\nCannot find state.txt file at the configured replication URL.\n";
128         echo "Does the URL point to a directory containing OSM update data?\n\n";
129         fail('replication URL not reachable.');
130     }
131     // sanity check for pyosmium-get-changes
132     if (!CONST_Pyosmium_Binary) {
133         echo "\nCONST_Pyosmium_Binary not configured.\n";
134         echo "You need to install pyosmium and set up the path to pyosmium-get-changes\n";
135         echo "in your local settings file.\n\n";
136         fail('CONST_Pyosmium_Binary not configured');
137     }
138
139     $aOutput = 0;
140     $oCMD = new \Nominatim\Shell(CONST_Pyosmium_Binary, '--help');
141     exec($oCMD->escapedCmd(), $aOutput, $iRet);
142
143     if ($iRet != 0) {
144         echo "Cannot execute pyosmium-get-changes.\n";
145         echo "Make sure you have pyosmium installed correctly\n";
146         echo "and have set up CONST_Pyosmium_Binary to point to pyosmium-get-changes.\n";
147         fail('pyosmium-get-changes not found or not usable');
148     }
149
150     if (!$aResult['no-update-functions']) {
151         // instantiate setupClass to use the function therein
152         $cSetup = new SetupFunctions(array(
153                                       'enable-diff-updates' => true,
154                                       'verbose' => $aResult['verbose']
155                                      ));
156         $cSetup->createFunctions();
157     }
158
159     $sDatabaseDate = getDatabaseDate($oDB);
160     if (!$sDatabaseDate) {
161         fail('Cannot determine date of database.');
162     }
163     $sWindBack = strftime('%Y-%m-%dT%H:%M:%SZ', strtotime($sDatabaseDate) - (3*60*60));
164
165     // get the appropriate state id
166     $aOutput = 0;
167     $oCMD = (new \Nominatim\Shell(CONST_Pyosmium_Binary))
168             ->addParams('--start-date', $sWindBack)
169             ->addParams('--server', CONST_Replication_Url);
170
171     exec($oCMD->escapedCmd(), $aOutput, $iRet);
172     if ($iRet != 0 || $aOutput[0] == 'None') {
173         fail('Error running pyosmium tools');
174     }
175
176     $oDB->exec('TRUNCATE import_status');
177     $sSQL = "INSERT INTO import_status (lastimportdate, sequence_id, indexed) VALUES('";
178     $sSQL .= $sDatabaseDate."',".$aOutput[0].', true)';
179
180     try {
181         $oDB->exec($sSQL);
182     } catch (\Nominatim\DatabaseError $e) {
183         fail('Could not enter sequence into database.');
184     }
185
186     echo "Done. Database updates will start at sequence $aOutput[0] ($sWindBack)\n";
187 }
188
189 if ($aResult['check-for-updates']) {
190     $aLastState = $oDB->getRow('SELECT sequence_id FROM import_status');
191
192     if (!$aLastState['sequence_id']) {
193         fail('Updates not set up. Please run ./utils/update.php --init-updates.');
194     }
195
196     $oCmd = (new \Nominatim\Shell(CONST_BasePath.'/utils/check_server_for_updates.py'))
197             ->addParams(CONST_Replication_Url)
198             ->addParams($aLastState['sequence_id']);
199     $iRet = $oCmd->run();
200
201     exit($iRet);
202 }
203
204 if (isset($aResult['import-diff']) || isset($aResult['import-file'])) {
205     // import diffs and files directly (e.g. from osmosis --rri)
206     $sNextFile = isset($aResult['import-diff']) ? $aResult['import-diff'] : $aResult['import-file'];
207
208     if (!file_exists($sNextFile)) {
209         fail("Cannot open $sNextFile\n");
210     }
211
212     // Import the file
213     $oCMD = (clone $oOsm2pgsqlCmd)->addParams($sNextFile);
214     echo $oCMD->escapedCmd()."\n";
215     $iRet = $oCMD->run();
216
217     if ($iRet) {
218         fail("Error from osm2pgsql, $iRet\n");
219     }
220
221     // Don't update the import status - we don't know what this file contains
222 }
223
224 if ($aResult['calculate-postcodes']) {
225     info('Update postcodes centroids');
226     $sTemplate = file_get_contents(CONST_BasePath.'/sql/update-postcodes.sql');
227     runSQLScript($sTemplate, true, true);
228 }
229
230 $sTemporaryFile = CONST_BasePath.'/data/osmosischange.osc';
231 $bHaveDiff = false;
232 $bUseOSMApi = isset($aResult['import-from-main-api']) && $aResult['import-from-main-api'];
233 $sContentURL = '';
234 if (isset($aResult['import-node']) && $aResult['import-node']) {
235     if ($bUseOSMApi) {
236         $sContentURL = 'https://www.openstreetmap.org/api/0.6/node/'.$aResult['import-node'];
237     } else {
238         $sContentURL = 'https://overpass-api.de/api/interpreter?data=node('.$aResult['import-node'].');out%20meta;';
239     }
240 }
241
242 if (isset($aResult['import-way']) && $aResult['import-way']) {
243     if ($bUseOSMApi) {
244         $sContentURL = 'https://www.openstreetmap.org/api/0.6/way/'.$aResult['import-way'].'/full';
245     } else {
246         $sContentURL = 'https://overpass-api.de/api/interpreter?data=(way('.$aResult['import-way'].');%3E;);out%20meta;';
247     }
248 }
249
250 if (isset($aResult['import-relation']) && $aResult['import-relation']) {
251     if ($bUseOSMApi) {
252         $sContentURL = 'https://www.openstreetmap.org/api/0.6/relation/'.$aResult['import-relation'].'/full';
253     } else {
254         $sContentURL = 'https://overpass-api.de/api/interpreter?data=(rel(id:'.$aResult['import-relation'].');%3E;);out%20meta;';
255     }
256 }
257
258 if ($sContentURL) {
259     file_put_contents($sTemporaryFile, file_get_contents($sContentURL));
260     $bHaveDiff = true;
261 }
262
263 if ($bHaveDiff) {
264     // import generated change file
265
266     $oCMD = (clone $oOsm2pgsqlCmd)->addParams($sTemporaryFile);
267     echo $oCMD->escapedCmd()."\n";
268
269     $iRet = $oCMD->run();
270     if ($iRet) {
271         fail("osm2pgsql exited with error level $iRet\n");
272     }
273 }
274
275 if ($aResult['recompute-word-counts']) {
276     info('Recompute frequency of full-word search terms');
277     $sTemplate = file_get_contents(CONST_BasePath.'/sql/words_from_search_name.sql');
278     runSQLScript($sTemplate, true, true);
279 }
280
281 if ($aResult['index']) {
282     $oCmd = (clone $oIndexCmd)
283             ->addParams('--minrank', $aResult['index-rank'], '-b');
284     $oCmd->run();
285
286     $oCmd = (clone $oIndexCmd)
287             ->addParams('--minrank', $aResult['index-rank']);
288     $oCmd->run();
289
290     $oDB->exec('update import_status set indexed = true');
291 }
292
293 if ($aResult['update-address-levels']) {
294     echo 'Updating address levels from '.CONST_Address_Level_Config.".\n";
295     $oAlParser = new \Nominatim\Setup\AddressLevelParser(CONST_Address_Level_Config);
296     $oAlParser->createTable($oDB, 'address_levels');
297 }
298
299 if ($aResult['recompute-importance']) {
300     echo "Updating importance values for database.\n";
301     $oDB = new Nominatim\DB();
302     $oDB->connect();
303
304     $sSQL = 'ALTER TABLE placex DISABLE TRIGGER ALL;';
305     $sSQL .= 'UPDATE placex SET (wikipedia, importance) =';
306     $sSQL .= '   (SELECT wikipedia, importance';
307     $sSQL .= '    FROM compute_importance(extratags, country_code, osm_type, osm_id));';
308     $sSQL .= 'UPDATE placex s SET wikipedia = d.wikipedia, importance = d.importance';
309     $sSQL .= ' FROM placex d';
310     $sSQL .= ' WHERE s.place_id = d.linked_place_id and d.wikipedia is not null';
311     $sSQL .= '       and (s.wikipedia is null or s.importance < d.importance);';
312     $sSQL .= 'ALTER TABLE placex ENABLE TRIGGER ALL;';
313     $oDB->exec($sSQL);
314 }
315
316 if ($aResult['import-osmosis'] || $aResult['import-osmosis-all']) {
317     //
318     if (strpos(CONST_Replication_Url, 'download.geofabrik.de') !== false && CONST_Replication_Update_Interval < 86400) {
319         fail('Error: Update interval too low for download.geofabrik.de. ' .
320              "Please check install documentation (https://nominatim.org/release-docs/latest/admin/Import-and-Update#setting-up-the-update-process)\n");
321     }
322
323     $sImportFile = CONST_InstallPath.'/osmosischange.osc';
324
325     $oCMDDownload = (new \Nominatim\Shell(CONST_Pyosmium_Binary))
326                     ->addParams('--server', CONST_Replication_Url)
327                     ->addParams('--outfile', $sImportFile)
328                     ->addParams('--size', CONST_Replication_Max_Diff_size);
329
330     $oCMDImport = (clone $oOsm2pgsqlCmd)->addParams($sImportFile);
331
332     while (true) {
333         $fStartTime = time();
334         $aLastState = $oDB->getRow('SELECT *, EXTRACT (EPOCH FROM lastimportdate) as unix_ts FROM import_status');
335
336         if (!$aLastState['sequence_id']) {
337             echo "Updates not set up. Please run ./utils/update.php --init-updates.\n";
338             exit(1);
339         }
340
341         echo 'Currently at sequence '.$aLastState['sequence_id'].' ('.$aLastState['lastimportdate'].') - '.$aLastState['indexed']." indexed\n";
342
343         $sBatchEnd = $aLastState['lastimportdate'];
344         $iEndSequence = $aLastState['sequence_id'];
345
346         if ($aLastState['indexed']) {
347             // Sleep if the update interval has not yet been reached.
348             $fNextUpdate = $aLastState['unix_ts'] + CONST_Replication_Update_Interval;
349             if ($fNextUpdate > $fStartTime) {
350                 $iSleepTime = $fNextUpdate - $fStartTime;
351                 echo "Waiting for next update for $iSleepTime sec.";
352                 sleep($iSleepTime);
353             }
354
355             // Download the next batch of changes.
356             do {
357                 $fCMDStartTime = time();
358                 $iNextSeq = (int) $aLastState['sequence_id'];
359                 unset($aOutput);
360
361                 $oCMD = (clone $oCMDDownload)->addParams('--start-id', $iNextSeq);
362                 echo $oCMD->escapedCmd()."\n";
363                 if (file_exists($sImportFile)) {
364                     unlink($sImportFile);
365                 }
366                 exec($oCMD->escapedCmd(), $aOutput, $iResult);
367
368                 if ($iResult == 3) {
369                     echo 'No new updates. Sleeping for '.CONST_Replication_Recheck_Interval." sec.\n";
370                     sleep(CONST_Replication_Recheck_Interval);
371                 } elseif ($iResult != 0) {
372                     echo 'ERROR: updates failed.';
373                     exit($iResult);
374                 } else {
375                     $iEndSequence = (int)$aOutput[0];
376                 }
377             } while ($iResult);
378
379             // get the newest object from the diff file
380             $sBatchEnd = 0;
381             $iRet = 0;
382             $oCMD = new \Nominatim\Shell(CONST_BasePath.'/utils/osm_file_date.py', $sImportFile);
383             exec($oCMD->escapedCmd(), $sBatchEnd, $iRet);
384             if ($iRet == 5) {
385                 echo "Diff file is empty. skipping import.\n";
386                 if (!$aResult['import-osmosis-all']) {
387                     exit(0);
388                 } else {
389                     continue;
390                 }
391             }
392             if ($iRet != 0) {
393                 fail('Error getting date from diff file.');
394             }
395             $sBatchEnd = $sBatchEnd[0];
396
397             // Import the file
398             $fCMDStartTime = time();
399
400
401             echo $oCMDImport->escapedCmd()."\n";
402             unset($sJunk);
403             $iErrorLevel = $oCMDImport->run();
404             if ($iErrorLevel) {
405                 echo "Error executing osm2pgsql: $iErrorLevel\n";
406                 exit($iErrorLevel);
407             }
408
409             // write the update logs
410             $iFileSize = filesize($sImportFile);
411             $sSQL = 'INSERT INTO import_osmosis_log';
412             $sSQL .= '(batchend, batchseq, batchsize, starttime, endtime, event)';
413             $sSQL .= " values ('$sBatchEnd',$iEndSequence,$iFileSize,'";
414             $sSQL .= date('Y-m-d H:i:s', $fCMDStartTime)."','";
415             $sSQL .= date('Y-m-d H:i:s')."','import')";
416             var_Dump($sSQL);
417             $oDB->exec($sSQL);
418
419             // update the status
420             $sSQL = "UPDATE import_status SET lastimportdate = '$sBatchEnd', indexed=false, sequence_id = $iEndSequence";
421             var_Dump($sSQL);
422             $oDB->exec($sSQL);
423             echo date('Y-m-d H:i:s')." Completed download step for $sBatchEnd in ".round((time()-$fCMDStartTime)/60, 2)." minutes\n";
424         }
425
426         // Index file
427         if (!$aResult['no-index']) {
428             $fCMDStartTime = time();
429
430             $oThisIndexCmd = clone($oIndexCmd);
431             $oThisIndexCmd->addParams('-b');
432             echo $oThisIndexCmd->escapedCmd()."\n";
433             $iErrorLevel = $oThisIndexCmd->run();
434             if ($iErrorLevel) {
435                 echo "Error: $iErrorLevel\n";
436                 exit($iErrorLevel);
437             }
438
439             $oThisIndexCmd = clone($oIndexCmd);
440             echo $oThisIndexCmd->escapedCmd()."\n";
441             $iErrorLevel = $oThisIndexCmd->run();
442             if ($iErrorLevel) {
443                 echo "Error: $iErrorLevel\n";
444                 exit($iErrorLevel);
445             }
446
447             $sSQL = 'INSERT INTO import_osmosis_log';
448             $sSQL .= '(batchend, batchseq, batchsize, starttime, endtime, event)';
449             $sSQL .= " values ('$sBatchEnd',$iEndSequence,NULL,'";
450             $sSQL .= date('Y-m-d H:i:s', $fCMDStartTime)."','";
451             $sSQL .= date('Y-m-d H:i:s')."','index')";
452             var_Dump($sSQL);
453             $oDB->exec($sSQL);
454             echo date('Y-m-d H:i:s')." Completed index step for $sBatchEnd in ".round((time()-$fCMDStartTime)/60, 2)." minutes\n";
455
456             $sSQL = 'update import_status set indexed = true';
457             $oDB->exec($sSQL);
458         } else {
459             if ($aResult['import-osmosis-all']) {
460                 echo "Error: --no-index cannot be used with continuous imports (--import-osmosis-all).\n";
461                 exit(1);
462             }
463         }
464
465         $fDuration = time() - $fStartTime;
466         echo date('Y-m-d H:i:s')." Completed all for $sBatchEnd in ".round($fDuration/60, 2)." minutes\n";
467         if (!$aResult['import-osmosis-all']) exit(0);
468     }
469 }