]> git.openstreetmap.org Git - nominatim.git/blob - utils/update.php
fd361eb8f52afc50dc1d79a410a761947b0f5837
[nominatim.git] / utils / update.php
1 #!@PHP_BIN@ -Cq
2 <?php
3
4 require_once(dirname(dirname(__FILE__)).'/settings/settings.php');
5 require_once(CONST_BasePath.'/lib/init-cmd.php');
6 include_once(CONST_BasePath.'/lib/setup_functions.php');
7 ini_set('memory_limit', '800M');
8
9
10 # (long-opt, short-opt, min-occurs, max-occurs, num-arguments, num-arguments, type, help)
11
12 $aCMDOptions
13 = array(
14    'Import / update / index osm data',
15    array('help', 'h', 0, 1, 0, 0, false, 'Show Help'),
16    array('quiet', 'q', 0, 1, 0, 0, 'bool', 'Quiet output'),
17    array('verbose', 'v', 0, 1, 0, 0, 'bool', 'Verbose output'),
18
19    array('init-updates', '', 0, 1, 0, 0, 'bool', 'Set up database for updating'),
20    array('check-for-updates', '', 0, 1, 0, 0, 'bool', 'Check if new updates are available'),
21    array('no-update-functions', '', 0, 1, 0, 0, 'bool', 'Do not update trigger functions to support differential updates (assuming the diff update logic is already present)'),
22    array('import-osmosis', '', 0, 1, 0, 0, 'bool', 'Import updates once'),
23    array('import-osmosis-all', '', 0, 1, 0, 0, 'bool', 'Import updates forever'),
24    array('no-index', '', 0, 1, 0, 0, 'bool', 'Do not index the new data'),
25
26    array('calculate-postcodes', '', 0, 1, 0, 0, 'bool', 'Update postcode centroid table'),
27
28    array('import-file', '', 0, 1, 1, 1, 'realpath', 'Re-import data from an OSM file'),
29    array('import-diff', '', 0, 1, 1, 1, 'realpath', 'Import a diff (osc) file from local file system'),
30    array('osm2pgsql-cache', '', 0, 1, 1, 1, 'int', 'Cache size used by osm2pgsql'),
31
32    array('import-node', '', 0, 1, 1, 1, 'int', 'Re-import node'),
33    array('import-way', '', 0, 1, 1, 1, 'int', 'Re-import way'),
34    array('import-relation', '', 0, 1, 1, 1, 'int', 'Re-import relation'),
35    array('import-from-main-api', '', 0, 1, 0, 0, 'bool', 'Use OSM API instead of Overpass to download objects'),
36
37    array('index', '', 0, 1, 0, 0, 'bool', 'Index'),
38    array('index-rank', '', 0, 1, 1, 1, 'int', 'Rank to start indexing from'),
39    array('index-instances', '', 0, 1, 1, 1, 'int', 'Number of indexing instances (threads)'),
40
41    array('deduplicate', '', 0, 1, 0, 0, 'bool', 'Deduplicate tokens'),
42    array('recompute-word-counts', '', 0, 1, 0, 0, 'bool', 'Compute frequency of full-word search terms'),
43    array('no-npi', '', 0, 1, 0, 0, 'bool', '(obsolete)'),
44   );
45 getCmdOpt($_SERVER['argv'], $aCMDOptions, $aResult, true, true);
46
47 if (!isset($aResult['index-instances'])) $aResult['index-instances'] = 1;
48 if (!isset($aResult['index-rank'])) $aResult['index-rank'] = 0;
49
50 date_default_timezone_set('Etc/UTC');
51
52 $oDB =& getDB();
53
54 $aDSNInfo = DB::parseDSN(CONST_Database_DSN);
55 if (!isset($aDSNInfo['port']) || !$aDSNInfo['port']) $aDSNInfo['port'] = 5432;
56
57 // cache memory to be used by osm2pgsql, should not be more than the available memory
58 $iCacheMemory = (isset($aResult['osm2pgsql-cache'])?$aResult['osm2pgsql-cache']:2000);
59 if ($iCacheMemory + 500 > getTotalMemoryMB()) {
60     $iCacheMemory = getCacheMemoryMB();
61     echo "WARNING: resetting cache memory to $iCacheMemory\n";
62 }
63 $sOsm2pgsqlCmd = CONST_Osm2pgsql_Binary.' -klas --number-processes 1 -C '.$iCacheMemory.' -O gazetteer -d '.$aDSNInfo['database'].' -P '.$aDSNInfo['port'];
64 if (isset($aDSNInfo['username']) && $aDSNInfo['username']) {
65     $sOsm2pgsqlCmd .= ' -U ' . $aDSNInfo['username'];
66 }
67 if (isset($aDSNInfo['hostspec']) && $aDSNInfo['hostspec']) {
68     $sOsm2pgsqlCmd .= ' -H ' . $aDSNInfo['hostspec'];
69 }
70 $aProcEnv = null;
71 if (isset($aDSNInfo['password']) && $aDSNInfo['password']) {
72     $aProcEnv = array_merge(array('PGPASSWORD' => $aDSNInfo['password']), $_ENV);
73 }
74
75 if (!is_null(CONST_Osm2pgsql_Flatnode_File) && CONST_Osm2pgsql_Flatnode_File) {
76     $sOsm2pgsqlCmd .= ' --flat-nodes '.CONST_Osm2pgsql_Flatnode_File;
77 }
78
79 if ($aResult['init-updates']) {
80     // sanity check that the replication URL is correct
81     $sBaseState = file_get_contents(CONST_Replication_Url.'/state.txt');
82     if ($sBaseState === false) {
83         echo "\nCannot find state.txt file at the configured replication URL.\n";
84         echo "Does the URL point to a directory containing OSM update data?\n\n";
85         fail('replication URL not reachable.');
86     }
87     // sanity check for pyosmium-get-changes
88     if (!CONST_Pyosmium_Binary) {
89         echo "\nCONST_Pyosmium_Binary not configured.\n";
90         echo "You need to install pyosmium and set up the path to pyosmium-get-changes\n";
91         echo "in your local settings file.\n\n";
92         fail('CONST_Pyosmium_Binary not configured');
93     }
94     $aOutput = 0;
95     $sCmd = CONST_Pyosmium_Binary.' --help';
96     exec($sCmd, $aOutput, $iRet);
97     if ($iRet != 0) {
98         echo "Cannot execute pyosmium-get-changes.\n";
99         echo "Make sure you have pyosmium installed correctly\n";
100         echo "and have set up CONST_Pyosmium_Binary to point to pyosmium-get-changes.\n";
101         fail('pyosmium-get-changes not found or not usable');
102     }
103     if (!$aResult['no-update-functions']) {
104         createFunctions($aCMDResult);
105     }
106
107     $sDatabaseDate = getDatabaseDate($oDB);
108     if ($sDatabaseDate === false) {
109         fail('Cannot determine date of database.');
110     }
111     $sWindBack = strftime('%Y-%m-%dT%H:%M:%SZ', strtotime($sDatabaseDate) - (3*60*60));
112
113     // get the appropriate state id
114     $aOutput = 0;
115     $sCmd = CONST_Pyosmium_Binary.' -D '.$sWindBack.' --server '.CONST_Replication_Url;
116     exec($sCmd, $aOutput, $iRet);
117     if ($iRet != 0 || $aOutput[0] == 'None') {
118         fail('Error running pyosmium tools');
119     }
120
121     pg_query($oDB->connection, 'TRUNCATE import_status');
122     $sSQL = "INSERT INTO import_status (lastimportdate, sequence_id, indexed) VALUES('";
123     $sSQL .= $sDatabaseDate."',".$aOutput[0].', true)';
124     if (!pg_query($oDB->connection, $sSQL)) {
125         fail('Could not enter sequence into database.');
126     }
127
128     echo "Done. Database updates will start at sequence $aOutput[0] ($sWindBack)\n";
129 }
130
131 if ($aResult['check-for-updates']) {
132     $aLastState = chksql($oDB->getRow('SELECT sequence_id FROM import_status'));
133
134     if (!$aLastState['sequence_id']) {
135         fail('Updates not set up. Please run ./utils/update.php --init-updates.');
136     }
137
138     system(CONST_BasePath.'/utils/check_server_for_updates.py '.CONST_Replication_Url.' '.$aLastState['sequence_id'], $iRet);
139     exit($iRet);
140 }
141
142 if (isset($aResult['import-diff']) || isset($aResult['import-file'])) {
143     // import diffs and files directly (e.g. from osmosis --rri)
144     $sNextFile = isset($aResult['import-diff']) ? $aResult['import-diff'] : $aResult['import-file'];
145
146     if (!file_exists($sNextFile)) {
147         fail("Cannot open $sNextFile\n");
148     }
149
150     // Import the file
151     $sCMD = $sOsm2pgsqlCmd.' '.$sNextFile;
152     echo $sCMD."\n";
153     $iErrorLevel = runWithEnv($sCMD, $aProcEnv);
154
155     if ($iErrorLevel) {
156         fail("Error from osm2pgsql, $iErrorLevel\n");
157     }
158
159     // Don't update the import status - we don't know what this file contains
160 }
161
162 if ($aResult['calculate-postcodes']) {
163     info('Update postcodes centroids');
164     $sTemplate = file_get_contents(CONST_BasePath.'/sql/update-postcodes.sql');
165     runSQLScript($sTemplate, true, true);
166 }
167
168 $sTemporaryFile = CONST_BasePath.'/data/osmosischange.osc';
169 $bHaveDiff = false;
170 $bUseOSMApi = isset($aResult['import-from-main-api']) && $aResult['import-from-main-api'];
171 $sContentURL = '';
172 if (isset($aResult['import-node']) && $aResult['import-node']) {
173     if ($bUseOSMApi) {
174         $sContentURL = 'https://www.openstreetmap.org/api/0.6/node/'.$aResult['import-node'];
175     } else {
176         $sContentURL = 'https://overpass-api.de/api/interpreter?data=node('.$aResult['import-node'].');out%20meta;';
177     }
178 }
179
180 if (isset($aResult['import-way']) && $aResult['import-way']) {
181     if ($bUseOSMApi) {
182         $sContentURL = 'https://www.openstreetmap.org/api/0.6/way/'.$aResult['import-way'].'/full';
183     } else {
184         $sContentURL = 'https://overpass-api.de/api/interpreter?data=(way('.$aResult['import-way'].');node(w););out%20meta;';
185     }
186 }
187
188 if (isset($aResult['import-relation']) && $aResult['import-relation']) {
189     if ($bUseOSMApi) {
190         $sContentURLsModifyXMLstr = 'https://www.openstreetmap.org/api/0.6/relation/'.$aResult['import-relation'].'/full';
191     } else {
192         $sContentURL = 'https://overpass-api.de/api/interpreter?data=((rel('.$aResult['import-relation'].');way(r);node(w));node(r));out%20meta;';
193     }
194 }
195
196 if ($sContentURL) {
197     file_put_contents($sTemporaryFile, file_get_contents($sContentURL));
198     $bHaveDiff = true;
199 }
200
201 if ($bHaveDiff) {
202     // import generated change file
203     $sCMD = $sOsm2pgsqlCmd.' '.$sTemporaryFile;
204     echo $sCMD."\n";
205     $iErrorLevel = runWithEnv($sCMD, $aProcEnv);
206     if ($iErrorLevel) {
207         fail("osm2pgsql exited with error level $iErrorLevel\n");
208     }
209 }
210
211 if ($aResult['deduplicate']) {
212     $oDB =& getDB();
213
214     if (getPostgresVersion($oDB) < 9.3) {
215         fail('ERROR: deduplicate is only currently supported in postgresql 9.3');
216     }
217
218     $sSQL = 'select partition from country_name order by country_code';
219     $aPartitions = chksql($oDB->getCol($sSQL));
220     $aPartitions[] = 0;
221
222     // we don't care about empty search_name_* partitions, they can't contain mentions of duplicates
223     foreach ($aPartitions as $i => $sPartition) {
224         $sSQL = 'select count(*) from search_name_'.$sPartition;
225         $nEntries = chksql($oDB->getOne($sSQL));
226         if ($nEntries == 0) {
227             unset($aPartitions[$i]);
228         }
229     }
230
231     $sSQL = "select word_token,count(*) from word where substr(word_token, 1, 1) = ' '";
232     $sSQL .= ' and class is null and type is null and country_code is null';
233     $sSQL .= ' group by word_token having count(*) > 1 order by word_token';
234     $aDuplicateTokens = chksql($oDB->getAll($sSQL));
235     foreach ($aDuplicateTokens as $aToken) {
236         if (trim($aToken['word_token']) == '' || trim($aToken['word_token']) == '-') continue;
237         echo 'Deduping '.$aToken['word_token']."\n";
238         $sSQL = 'select word_id,';
239         $sSQL .= ' (select count(*) from search_name where nameaddress_vector @> ARRAY[word_id]) as num';
240         $sSQL .= " from word where word_token = '".$aToken['word_token'];
241         $sSQL .= "' and class is null and type is null and country_code is null order by num desc";
242         $aTokenSet = chksql($oDB->getAll($sSQL));
243
244         $aKeep = array_shift($aTokenSet);
245         $iKeepID = $aKeep['word_id'];
246
247         foreach ($aTokenSet as $aRemove) {
248             $sSQL = 'update search_name set';
249             $sSQL .= ' name_vector = array_replace(name_vector,'.$aRemove['word_id'].','.$iKeepID.'),';
250             $sSQL .= ' nameaddress_vector = array_replace(nameaddress_vector,'.$aRemove['word_id'].','.$iKeepID.')';
251             $sSQL .= ' where name_vector @> ARRAY['.$aRemove['word_id'].']';
252             chksql($oDB->query($sSQL));
253
254             $sSQL = 'update search_name set';
255             $sSQL .= ' nameaddress_vector = array_replace(nameaddress_vector,'.$aRemove['word_id'].','.$iKeepID.')';
256             $sSQL .= ' where nameaddress_vector @> ARRAY['.$aRemove['word_id'].']';
257             chksql($oDB->query($sSQL));
258
259             $sSQL = 'update location_area_country set';
260             $sSQL .= ' keywords = array_replace(keywords,'.$aRemove['word_id'].','.$iKeepID.')';
261             $sSQL .= ' where keywords @> ARRAY['.$aRemove['word_id'].']';
262             chksql($oDB->query($sSQL));
263
264             foreach ($aPartitions as $sPartition) {
265                 $sSQL = 'update search_name_'.$sPartition.' set';
266                 $sSQL .= ' name_vector = array_replace(name_vector,'.$aRemove['word_id'].','.$iKeepID.')';
267                 $sSQL .= ' where name_vector @> ARRAY['.$aRemove['word_id'].']';
268                 chksql($oDB->query($sSQL));
269
270                 $sSQL = 'update location_area_country set';
271                 $sSQL .= ' keywords = array_replace(keywords,'.$aRemove['word_id'].','.$iKeepID.')';
272                 $sSQL .= ' where keywords @> ARRAY['.$aRemove['word_id'].']';
273                 chksql($oDB->query($sSQL));
274             }
275
276             $sSQL = 'delete from word where word_id = '.$aRemove['word_id'];
277             chksql($oDB->query($sSQL));
278         }
279     }
280 }
281
282 if ($aResult['recompute-word-counts']) {
283     info('Recompute frequency of full-word search terms');
284     $sTemplate = file_get_contents(CONST_BasePath.'/sql/words_from_search_name.sql');
285     runSQLScript($sTemplate, true, true);
286 }
287
288 if ($aResult['index']) {
289     $sCmd = CONST_InstallPath.'/nominatim/nominatim -i -d '.$aDSNInfo['database'].' -P '.$aDSNInfo['port'].' -t '.$aResult['index-instances'].' -r '.$aResult['index-rank'];
290     if (isset($aDSNInfo['hostspec']) && $aDSNInfo['hostspec']) {
291         $sCmd .= ' -H ' . $aDSNInfo['hostspec'];
292     }
293     if (isset($aDSNInfo['username']) && $aDSNInfo['username']) {
294         $sCmd .= ' -U ' . $aDSNInfo['username'];
295     }
296
297     runWithEnv($sCmd, $aProcEnv);
298 }
299
300 if ($aResult['import-osmosis'] || $aResult['import-osmosis-all']) {
301     //
302     if (strpos(CONST_Replication_Url, 'download.geofabrik.de') !== false && CONST_Replication_Update_Interval < 86400) {
303         fail('Error: Update interval too low for download.geofabrik.de. ' .
304              "Please check install documentation (http://nominatim.org/release-docs/latest/Import-and-Update#setting-up-the-update-process)\n");
305     }
306
307     $sImportFile = CONST_InstallPath.'/osmosischange.osc';
308     $sCMDDownload = CONST_Pyosmium_Binary.' --server '.CONST_Replication_Url.' -o '.$sImportFile.' -s '.CONST_Replication_Max_Diff_size;
309     $sCMDImport = $sOsm2pgsqlCmd.' '.$sImportFile;
310     $sCMDIndex = CONST_InstallPath.'/nominatim/nominatim -i -d '.$aDSNInfo['database'].' -P '.$aDSNInfo['port'].' -t '.$aResult['index-instances'];
311     if (isset($aDSNInfo['hostspec']) && $aDSNInfo['hostspec']) {
312         $sCMDIndex .= ' -H ' . $aDSNInfo['hostspec'];
313     }
314     if (isset($aDSNInfo['username']) && $aDSNInfo['username']) {
315         $sCMDIndex .= ' -U ' . $aDSNInfo['username'];
316     }
317
318     while (true) {
319         $fStartTime = time();
320         $aLastState = chksql($oDB->getRow('SELECT *, EXTRACT (EPOCH FROM lastimportdate) as unix_ts FROM import_status'));
321
322         if (!$aLastState['sequence_id']) {
323             echo "Updates not set up. Please run ./utils/update.php --init-updates.\n";
324             exit(1);
325         }
326
327         echo 'Currently at sequence '.$aLastState['sequence_id'].' ('.$aLastState['lastimportdate'].') - '.$aLastState['indexed']." indexed\n";
328
329         $sBatchEnd = $aLastState['lastimportdate'];
330         $iEndSequence = $aLastState['sequence_id'];
331
332         if ($aLastState['indexed'] == 't') {
333             // Sleep if the update interval has not yet been reached.
334             $fNextUpdate = $aLastState['unix_ts'] + CONST_Replication_Update_Interval;
335             if ($fNextUpdate > $fStartTime) {
336                 $iSleepTime = $fNextUpdate - $fStartTime;
337                 echo "Waiting for next update for $iSleepTime sec.";
338                 sleep($iSleepTime);
339             }
340
341             // Download the next batch of changes.
342             do {
343                 $fCMDStartTime = time();
344                 $iNextSeq = (int) $aLastState['sequence_id'];
345                 unset($aOutput);
346                 echo "$sCMDDownload -I $iNextSeq\n";
347                 if (file_exists($sImportFile)) {
348                     unlink($sImportFile);
349                 }
350                 exec($sCMDDownload.' -I '.$iNextSeq, $aOutput, $iResult);
351
352                 if ($iResult == 3) {
353                     echo 'No new updates. Sleeping for '.CONST_Replication_Recheck_Interval." sec.\n";
354                     sleep(CONST_Replication_Recheck_Interval);
355                 } elseif ($iResult != 0) {
356                     echo 'ERROR: updates failed.';
357                     exit($iResult);
358                 } else {
359                     $iEndSequence = (int)$aOutput[0];
360                 }
361             } while ($iResult);
362
363             // get the newest object from the diff file
364             $sBatchEnd = 0;
365             $iRet = 0;
366             exec(CONST_BasePath.'/utils/osm_file_date.py '.$sImportFile, $sBatchEnd, $iRet);
367             if ($iRet == 5) {
368                 echo "Diff file is empty. skipping import.\n";
369                 if (!$aResult['import-osmosis-all']) {
370                     exit(0);
371                 } else {
372                     continue;
373                 }
374             }
375             if ($iRet != 0) {
376                 fail('Error getting date from diff file.');
377             }
378             $sBatchEnd = $sBatchEnd[0];
379
380             // Import the file
381             $fCMDStartTime = time();
382             echo $sCMDImport."\n";
383             unset($sJunk);
384             $iErrorLevel = runWithEnv($sCMDImport, $aProcEnv);
385             if ($iErrorLevel) {
386                 echo "Error executing osm2pgsql: $iErrorLevel\n";
387                 exit($iErrorLevel);
388             }
389
390             // write the update logs
391             $iFileSize = filesize($sImportFile);
392             $sSQL = 'INSERT INTO import_osmosis_log';
393             $sSQL .= '(batchend, batchseq, batchsize, starttime, endtime, event)';
394             $sSQL .= " values ('$sBatchEnd',$iEndSequence,$iFileSize,'";
395             $sSQL .= date('Y-m-d H:i:s', $fCMDStartTime)."','";
396             $sSQL .= date('Y-m-d H:i:s')."','import')";
397             var_Dump($sSQL);
398             chksql($oDB->query($sSQL));
399
400             // update the status
401             $sSQL = "UPDATE import_status SET lastimportdate = '$sBatchEnd', indexed=false, sequence_id = $iEndSequence";
402             var_Dump($sSQL);
403             chksql($oDB->query($sSQL));
404             echo date('Y-m-d H:i:s')." Completed download step for $sBatchEnd in ".round((time()-$fCMDStartTime)/60, 2)." minutes\n";
405         }
406
407         // Index file
408         if (!$aResult['no-index']) {
409             $sThisIndexCmd = $sCMDIndex;
410             $fCMDStartTime = time();
411
412             echo "$sThisIndexCmd\n";
413             $iErrorLevel = runWithEnv($sThisIndexCmd, $aProcEnv);
414             if ($iErrorLevel) {
415                 echo "Error: $iErrorLevel\n";
416                 exit($iErrorLevel);
417             }
418
419             $sSQL = 'INSERT INTO import_osmosis_log';
420             $sSQL .= '(batchend, batchseq, batchsize, starttime, endtime, event)';
421             $sSQL .= " values ('$sBatchEnd',$iEndSequence,$iFileSize,'";
422             $sSQL .= date('Y-m-d H:i:s', $fCMDStartTime)."','";
423             $sSQL .= date('Y-m-d H:i:s')."','index')";
424             var_Dump($sSQL);
425             $oDB->query($sSQL);
426             echo date('Y-m-d H:i:s')." Completed index step for $sBatchEnd in ".round((time()-$fCMDStartTime)/60, 2)." minutes\n";
427
428             $sSQL = 'update import_status set indexed = true';
429             $oDB->query($sSQL);
430         }
431
432         $fDuration = time() - $fStartTime;
433         echo date('Y-m-d H:i:s')." Completed all for $sBatchEnd in ".round($fDuration/60, 2)." minutes\n";
434         if (!$aResult['import-osmosis-all']) exit(0);
435     }
436 }