]> git.openstreetmap.org Git - nominatim.git/blob - docs/admin/Migration.md
add documentation for new extra field
[nominatim.git] / docs / admin / Migration.md
1 # Database Migrations
2
3 Nominatim offers automatic migrations for versions 4.3+. Please follow
4 the following steps:
5
6 * Stop any updates that are potentially running
7 * Update the backend: `pip install -U nominatim-db`
8 * Go to your project directory and run `nominatim admin --migrate`
9 * Update the frontend: `pip install -U nominatim-api`
10 * (optionally) Restart updates
11
12 Below you find additional migrations and hints about other structural and
13 breaking changes. **Please read them before running the migration.**
14
15 !!! note
16     If you are migrating from a version <4.3, you need to install 4.3
17     and migrate to 4.3 first. Then you can migrate to the current
18     version. It is strongly recommended to do a reimport instead.
19
20 ## 4.5.0 -> 5.0.0
21
22 ### PHP frontend removed
23
24 The PHP frontend has been completely removed. Please switch to the Python
25 frontend.
26
27 Without the PHP code, the `nominatim refresh --website` command is no longer
28 needed. It currently omits a warning and does otherwise nothing. It will be
29 removed in later versions of Nominatim. So make sure you remove it from your
30 scripts.
31
32 ### CMake building removed
33
34 Nominatim can now only be installed via pip. Please follow the installation
35 instructions for the current version to change to pip.
36
37 ### osm2pgsql no longer vendored in
38
39 Nominatim no longer ships its own version of osm2pgsql. Please install a
40 stock version of osm2pgsql from your distribution. See the
41 [installation instruction for osm2pgsql](https://osm2pgsql.org/doc/install.html)
42 for details. A minimum version of 1.8 is required. The current stable versions
43 of Ubuntu and Debian already ship with an appropriate versions. For older
44 installation, you may have to compile a newer osm2pgsql yourself.
45
46 ### Legacy tokenizer removed
47
48 The `legacy` tokenizer is no longer enabled. This tokenizer has been superseded
49 by the `ICU` tokenizer a long time ago. In the unlikely case that your database
50 still uses the `legacy` tokenizer, you must reimport your database.
51
52 ### osm2pgsql style overhauled
53
54 There are some fundamental changes to how customized osm2pgsql styles should
55 be written. The changes are mostly backwards compatible, i.e. custom styles
56 should still work with the new implementation. The only exception is a
57 customization of the `process_tags()` function. This function is no longer
58 considered public and neither are the helper functions used in it.
59 They currently still work but will be removed at some point. If you have
60 been making changes to `process_tags`, please review your style and try
61 to switch to the new convenience functions.
62
63 For more information on the changes, see the
64 [pull request](https://github.com/osm-search/Nominatim/pull/3615)
65 and read the new
66 [customization documentation](https://nominatim.org/release-docs/latest/customize/Import-Styles/).
67
68 ## 4.4.0 -> 4.5.0
69
70 ### New structure for Python packages
71
72 The nominatim Python package has been split into `nominatim-db` and `nominatim-api`.
73 Any imports need to be adapted accordingly.
74
75 If you are running the Python frontend, change the server module from
76 `nominatim.server.falcon.server` to `nominatim_api.server.falcon.server`.
77
78 If you are using the Nominatim library, all imports need to be changed
79 from `nominatim.api.<module>` to `nominatim_api.<module>`.
80
81 If you have written custom tokenizers or sanitizers, the appropriate modules
82 are now found in `nominatim_db`.
83
84 ## 4.2.0 -> 4.3.0
85
86 ### New indexes for reverse lookup
87
88 The reverse lookup algorithm has changed slightly to improve performance.
89 This change needs a different index in the database. The required index
90 will be automatically build during migration. Until the new index is available
91 performance of the /reverse endpoint is significantly reduced. You should
92 therefore either remove traffic from the machine before attempting a
93 version update or create the index manually **before** starting the update
94 using the following SQL:
95
96 ```sql
97 CREATE INDEX IF NOT EXISTS idx_placex_geometry_reverse_lookupPlaceNode
98   ON placex USING gist (ST_Buffer(geometry, reverse_place_diameter(rank_search)))
99   WHERE rank_address between 4 and 25 AND type != 'postcode'
100     AND name is not null AND linked_place_id is null AND osm_type = 'N';
101 ```
102
103 ## 4.0.0 -> 4.1.0
104
105 ### ICU tokenizer is the new default
106
107 Nominatim now installs the [ICU tokenizer](../customize/Tokenizers.md#icu-tokenizer)
108 by default. This only has an effect on newly installed databases. When
109 updating older databases, it keeps its installed tokenizer. If you still
110 run with the legacy tokenizer, make sure to compile Nominatim with the
111 PostgreSQL module, see [Installation](Installation.md#building-nominatim).
112
113 ### geocodejson output changed
114
115 The `type` field of the geocodejson output has changed. It now contains
116 the address class of the object instead of the value of the OSM tag. If
117 your client has used the `type` field, switch them to read `osm_value`
118 instead.
119
120 ## 3.7.0 -> 4.0.0
121
122 ### NOMINATIM_PHRASE_CONFIG removed
123
124 Custom blacklist configurations for special phrases now need to be handed
125 with the `--config` parameter to `nominatim special-phrases`. Alternatively
126 you can put your custom configuration in the project directory in a file
127 named `phrase-settings.json`.
128
129 Version 3.8 also removes the automatic converter for the php format of
130 the configuration in older versions. If you are updating from Nominatim < 3.7
131 and still work with a custom `phrase-settings.php`, you need to manually
132 convert it into a json format.
133
134 ### PHP utils removed
135
136 The old PHP utils have now been removed completely. You need to switch to
137 the appropriate functions of the nominatim  command line tool. See
138 [Introducing `nominatim` command line tool](#introducing-nominatim-command-line-tool)
139 below.
140
141 ## 3.6.0 -> 3.7.0
142
143 ### New format and name of configuration file
144
145 The configuration for an import is now saved in a `.env` file in the project
146 directory. This file follows the dotenv format. For more information, see
147 the [installation chapter](Import.md#configuration-setup-in-env).
148
149 To migrate to the new system, create a new project directory, add the `.env`
150 file and port your custom configuration from `settings/local.php`. Most
151 settings are named similar and only have received a `NOMINATIM_` prefix.
152 Use the default settings in `settings/env.defaults` as a reference.
153
154 ### New location for data files
155
156 External data files for Wikipedia importance, postcodes etc. are no longer
157 expected to reside in the source tree by default. Instead they will be searched
158 in the project directory. If you have an automated setup script you must
159 either adapt the download location or explicitly set the location of the
160 files to the old place in your `.env`.
161
162 ### Introducing `nominatim` command line tool
163
164 The various php utilities have been replaced with a single `nominatim`
165 command line tool. Make sure to adapt any scripts. There is no direct 1:1
166 matching between the old utilities and the commands of nominatim CLI. The
167 following list gives you a list of nominatim sub-commands that contain
168 functionality of each script:
169
170 * ./utils/setup.php: `import`, `freeze`, `refresh`
171 * ./utils/update.php: `replication`, `add-data`, `index`, `refresh`
172 * ./utils/specialphrases.php: `special-phrases`
173 * ./utils/check_import_finished.php: `admin`
174 * ./utils/warm.php: `admin`
175 * ./utils/export.php: `export`
176
177 Try `nominatim <command> --help` for more information about each subcommand.
178
179 `./utils/query.php` no longer exists in its old form. `nominatim search`
180 provides a replacement but returns different output.
181
182 ### Switch to normalized house numbers
183
184 The housenumber column in the placex table uses now normalized version.
185 The automatic migration step will convert the column but this may take a
186 very long time. It is advisable to take the machine offline while doing that.
187
188 ## 3.5.0 -> 3.6.0
189
190 ### Change of layout of search_name_* tables
191
192 The table need a different index for nearest place lookup. Recreate the
193 indexes using the following shell script:
194
195 ```bash
196 for table in `psql -d nominatim -c "SELECT tablename FROM pg_tables WHERE tablename LIKE 'search_name_%'" -tA | grep -v search_name_blank`;
197 do
198     psql -d nominatim -c "DROP INDEX idx_${table}_centroid_place; CREATE INDEX idx_${table}_centroid_place ON ${table} USING gist (centroid) WHERE ((address_rank >= 2) AND (address_rank <= 25)); DROP INDEX idx_${table}_centroid_street; CREATE INDEX idx_${table}_centroid_street ON ${table} USING gist (centroid) WHERE ((address_rank >= 26) AND (address_rank <= 27))";
199 done
200 ```
201
202 ### Removal of html output
203
204 The debugging UI is no longer directly provided with Nominatim. Instead we
205 now provide a simple Javascript application. Please refer to
206 [Setting up the Nominatim UI](Setup-Nominatim-UI.md) for details on how to
207 set up the UI.
208
209 The icons served together with the API responses have been moved to the
210 nominatim-ui project as well. If you want to keep the `icon` field in the
211 response, you need to set `CONST_MapIcon_URL` to the URL of the `/mapicon`
212 directory of nominatim-ui.
213
214 ### Change order during indexing
215
216 When reindexing places during updates, there is now a different order used
217 which needs a different database index. Create it with the following SQL command:
218
219 ```sql
220 CREATE INDEX idx_placex_pendingsector_rank_address
221   ON placex
222   USING BTREE (rank_address, geometry_sector)
223   WHERE indexed_status > 0;
224 ```
225
226 You can then drop the old index with:
227
228 ```sql
229 DROP INDEX idx_placex_pendingsector;
230 ```
231
232 ### Unused index
233
234 This index has been unused ever since the query using it was changed two years ago. Saves about 12GB on a planet installation.
235
236 ```sql
237 DROP INDEX idx_placex_geometry_reverse_lookupPoint;
238 ```
239
240 ### Switching to dotenv
241
242 As part of the work changing the configuration format, the configuration for
243 the website is now using a separate configuration file. To create the
244 configuration file, run the following command after updating:
245
246 ```sh
247 ./utils/setup.php --setup-website
248 ```
249
250 ### Update SQL code
251
252 To update the SQL code to the leatest version run:
253
254 ```
255 ./utils/setup.php --create-functions --enable-diff-updates --create-partition-functions
256 ```
257
258 ## 3.4.0 -> 3.5.0
259
260 ### New Wikipedia/Wikidata importance tables
261
262 The `wikipedia_*` tables have a new format that also includes references to
263 Wikidata. You need to update the computation functions and the tables as
264 follows:
265
266   * download the new Wikipedia tables as described in the import section
267   * reimport the tables: `./utils/setup.php --import-wikipedia-articles`
268   * update the functions: `./utils/setup.php --create-functions --enable-diff-updates`
269   * create a new lookup index:
270 ```sql
271 CREATE INDEX idx_placex_wikidata
272   ON placex
273   USING BTREE ((extratags -> 'wikidata'))
274   WHERE extratags ? 'wikidata'
275     AND class = 'place'
276     AND osm_type = 'N'
277     AND rank_search < 26;
278 ```
279   * compute importance: `./utils/update.php --recompute-importance`
280
281 The last step takes about 10 hours on the full planet.
282
283 Remove one function (it will be recreated in the next step):
284
285 ```sql
286 DROP FUNCTION create_country(hstore,character varying);
287 ```
288
289 Finally, update all SQL functions:
290
291 ```sh
292 ./utils/setup.php --create-functions --enable-diff-updates --create-partition-functions
293 ```
294
295 ## 3.3.0 -> 3.4.0
296
297 ### Reorganisation of location_area_country table
298
299 The table `location_area_country` has been optimized. You need to switch to the
300 new format when you run updates. While updates are disabled, run the following
301 SQL commands:
302
303 ```sql
304 CREATE TABLE location_area_country_new AS
305   SELECT place_id, country_code, geometry FROM location_area_country;
306 DROP TABLE location_area_country;
307 ALTER TABLE location_area_country_new RENAME TO location_area_country;
308 CREATE INDEX idx_location_area_country_geometry ON location_area_country USING GIST (geometry);
309 CREATE INDEX idx_location_area_country_place_id ON location_area_country USING BTREE (place_id);
310 ```
311
312 Finally, update all SQL functions:
313
314 ```sh
315 ./utils/setup.php --create-functions --enable-diff-updates --create-partition-functions
316 ```
317
318 ## 3.2.0 -> 3.3.0
319
320 ### New database connection string (DSN) format
321
322 Previously database connection setting (`CONST_Database_DSN` in `settings/*.php`) had the format
323
324    * (simple) `pgsql://@/nominatim`
325    * (complex) `pgsql://johndoe:secret@machine1.domain.com:1234/db1`
326
327 The new format is
328
329    * (simple) `pgsql:dbname=nominatim`
330    * (complex) `pgsql:dbname=db1;host=machine1.domain.com;port=1234;user=johndoe;password=secret`
331
332 ### Natural Earth country boundaries no longer needed as fallback
333
334 ```sql
335 DROP TABLE country_naturalearthdata;
336 ```
337
338 Finally, update all SQL functions:
339
340 ```sh
341 ./utils/setup.php --create-functions --enable-diff-updates --create-partition-functions
342 ```
343
344 ### Configurable Address Levels
345
346 The new configurable address levels require a new table. Create it with the
347 following command:
348
349 ```sh
350 ./utils/update.php --update-address-levels
351 ```
352
353 ## 3.1.0 -> 3.2.0
354
355 ### New reverse algorithm
356
357 The reverse algorithm has changed and requires new indexes. Run the following
358 SQL statements to create the indexes:
359
360 ```sql
361 CREATE INDEX idx_placex_geometry_reverse_lookupPoint
362   ON placex
363   USING gist (geometry)
364   WHERE (name IS NOT null or housenumber IS NOT null or rank_address BETWEEN 26 AND 27)
365     AND class NOT IN ('railway','tunnel','bridge','man_made')
366     AND rank_address >= 26
367     AND indexed_status = 0
368     AND linked_place_id IS null;
369 CREATE INDEX idx_placex_geometry_reverse_lookupPolygon
370   ON placex USING gist (geometry)
371   WHERE St_GeometryType(geometry) in ('ST_Polygon', 'ST_MultiPolygon')
372     AND rank_address between 4 and 25
373     AND type != 'postcode'
374     AND name is not null
375     AND indexed_status = 0
376     AND linked_place_id is null;
377 CREATE INDEX idx_placex_geometry_reverse_placeNode
378   ON placex USING gist (geometry)
379   WHERE osm_type = 'N'
380     AND rank_search between 5 and 25
381     AND class = 'place'
382     AND type != 'postcode'
383     AND name is not null
384     AND indexed_status = 0
385     AND linked_place_id is null;
386 ```
387
388 You also need to grant the website user access to the `country_osm_grid` table:
389
390 ```sql
391 GRANT SELECT ON table country_osm_grid to "www-user";
392 ```
393
394 Replace the `www-user` with the user name of your website server if necessary.
395
396 You can now drop the unused indexes:
397
398 ```sql
399 DROP INDEX idx_placex_reverse_geometry;
400 ```
401
402 Finally, update all SQL functions:
403
404 ```sh
405 ./utils/setup.php --create-functions --enable-diff-updates --create-partition-functions
406 ```
407
408 ## 3.0.0 -> 3.1.0
409
410 ### Postcode Table
411
412 A new separate table for artificially computed postcode centroids was introduced.
413 Migration to the new format is possible but **not recommended**.
414
415 Create postcode table and indexes, running the following SQL statements:
416
417 ```sql
418 CREATE TABLE location_postcode
419   (place_id BIGINT, parent_place_id BIGINT, rank_search SMALLINT,
420    rank_address SMALLINT, indexed_status SMALLINT, indexed_date TIMESTAMP,
421    country_code varchar(2), postcode TEXT,
422    geometry GEOMETRY(Geometry, 4326));
423 CREATE INDEX idx_postcode_geometry ON location_postcode USING GIST (geometry);
424 CREATE UNIQUE INDEX idx_postcode_id ON location_postcode USING BTREE (place_id);
425 CREATE INDEX idx_postcode_postcode ON location_postcode USING BTREE (postcode);
426 GRANT SELECT ON location_postcode TO "www-data";
427 DROP TYPE IF EXISTS nearfeaturecentr CASCADE;
428 CREATE TYPE nearfeaturecentr AS (
429   place_id BIGINT,
430   keywords int[],
431   rank_address smallint,
432   rank_search smallint,
433   distance float,
434   isguess boolean,
435   postcode TEXT,
436   centroid GEOMETRY
437 );
438 ```
439
440 Add postcode column to `location_area` tables with SQL statement:
441
442 ```sql
443 ALTER TABLE location_area ADD COLUMN postcode TEXT;
444 ```
445
446 Then reimport the functions:
447
448 ```sh
449 ./utils/setup.php --create-functions --enable-diff-updates --create-partition-functions
450 ```
451
452 Create appropriate triggers with SQL:
453
454 ```sql
455 CREATE TRIGGER location_postcode_before_update BEFORE UPDATE ON location_postcode
456     FOR EACH ROW EXECUTE PROCEDURE postcode_update();
457 ```
458
459 Finally populate the postcode table (will take a while):
460
461 ```sh
462 ./utils/setup.php --calculate-postcodes --index --index-noanalyse
463 ```
464
465 This will create a working database. You may also delete the old artificial
466 postcodes now. Note that this may be expensive and is not absolutely necessary.
467 The following SQL statement will remove them:
468
469 ```sql
470 DELETE FROM place_addressline a USING placex p
471  WHERE a.address_place_id = p.place_id and p.osm_type = 'P';
472 ALTER TABLE placex DISABLE TRIGGER USER;
473 DELETE FROM placex WHERE osm_type = 'P';
474 ALTER TABLE placex ENABLE TRIGGER USER;
475 ```