]> git.openstreetmap.org Git - nominatim.git/blob - lib-sql/tokenizer/legacy_icu_tokenizer.sql
enable BDD tests for different tokenizers
[nominatim.git] / lib-sql / tokenizer / legacy_icu_tokenizer.sql
1 -- Get tokens used for searching the given place.
2 --
3 -- These are the tokens that will be saved in the search_name table.
4 CREATE OR REPLACE FUNCTION token_get_name_search_tokens(info JSONB)
5   RETURNS INTEGER[]
6 AS $$
7   SELECT (info->>'names')::INTEGER[]
8 $$ LANGUAGE SQL IMMUTABLE STRICT;
9
10
11 -- Get tokens for matching the place name against others.
12 --
13 -- This should usually be restricted to full name tokens.
14 CREATE OR REPLACE FUNCTION token_get_name_match_tokens(info JSONB)
15   RETURNS INTEGER[]
16 AS $$
17   SELECT (info->>'names')::INTEGER[]
18 $$ LANGUAGE SQL IMMUTABLE STRICT;
19
20
21 -- Return the housenumber tokens applicable for the place.
22 CREATE OR REPLACE FUNCTION token_get_housenumber_search_tokens(info JSONB)
23   RETURNS INTEGER[]
24 AS $$
25   SELECT (info->>'hnr_tokens')::INTEGER[]
26 $$ LANGUAGE SQL IMMUTABLE STRICT;
27
28
29 -- Return the housenumber in the form that it can be matched during search.
30 CREATE OR REPLACE FUNCTION token_normalized_housenumber(info JSONB)
31   RETURNS TEXT
32 AS $$
33   SELECT info->>'hnr';
34 $$ LANGUAGE SQL IMMUTABLE STRICT;
35
36
37 CREATE OR REPLACE FUNCTION token_addr_street_match_tokens(info JSONB)
38   RETURNS INTEGER[]
39 AS $$
40   SELECT (info->>'street')::INTEGER[]
41 $$ LANGUAGE SQL IMMUTABLE STRICT;
42
43
44 CREATE OR REPLACE FUNCTION token_addr_place_match_tokens(info JSONB)
45   RETURNS INTEGER[]
46 AS $$
47   SELECT (info->>'place_match')::INTEGER[]
48 $$ LANGUAGE SQL IMMUTABLE STRICT;
49
50
51 CREATE OR REPLACE FUNCTION token_addr_place_search_tokens(info JSONB)
52   RETURNS INTEGER[]
53 AS $$
54   SELECT (info->>'place_search')::INTEGER[]
55 $$ LANGUAGE SQL IMMUTABLE STRICT;
56
57
58 DROP TYPE IF EXISTS token_addresstoken CASCADE;
59 CREATE TYPE token_addresstoken AS (
60   key TEXT,
61   match_tokens INT[],
62   search_tokens INT[]
63 );
64
65 CREATE OR REPLACE FUNCTION token_get_address_tokens(info JSONB)
66   RETURNS SETOF token_addresstoken
67 AS $$
68   SELECT key, (value->>1)::int[] as match_tokens,
69          (value->>0)::int[] as search_tokens
70   FROM jsonb_each(info->'addr');
71 $$ LANGUAGE SQL IMMUTABLE STRICT;
72
73
74 CREATE OR REPLACE FUNCTION token_normalized_postcode(postcode TEXT)
75   RETURNS TEXT
76 AS $$
77   SELECT CASE WHEN postcode SIMILAR TO '%(,|;)%' THEN NULL ELSE upper(trim(postcode))END;
78 $$ LANGUAGE SQL IMMUTABLE STRICT;
79
80
81 -- Return token info that should be saved permanently in the database.
82 CREATE OR REPLACE FUNCTION token_strip_info(info JSONB)
83   RETURNS JSONB
84 AS $$
85   SELECT NULL::JSONB;
86 $$ LANGUAGE SQL IMMUTABLE STRICT;
87
88 --------------- private functions ----------------------------------------------
89
90 CREATE OR REPLACE FUNCTION getorcreate_term_id(lookup_term TEXT)
91   RETURNS INTEGER
92   AS $$
93 DECLARE
94   return_id INTEGER;
95   term_count INTEGER;
96 BEGIN
97   SELECT min(word_id), max(search_name_count) INTO return_id, term_count
98     FROM word WHERE word_token = lookup_term and class is null and type is null;
99
100   IF return_id IS NULL THEN
101     return_id := nextval('seq_word');
102     INSERT INTO word (word_id, word_token, search_name_count)
103       VALUES (return_id, lookup_term, 0);
104   ELSEIF left(lookup_term, 1) = ' ' and term_count > {{ max_word_freq }} THEN
105     return_id := 0;
106   END IF;
107
108   RETURN return_id;
109 END;
110 $$
111 LANGUAGE plpgsql;
112
113
114 CREATE OR REPLACE FUNCTION getorcreate_hnr_id(lookup_term TEXT)
115   RETURNS INTEGER
116   AS $$
117 DECLARE
118   return_id INTEGER;
119 BEGIN
120   SELECT min(word_id) INTO return_id
121     FROM word
122     WHERE word_token = '  '  || lookup_term
123           and class = 'place' and type = 'house';
124
125   IF return_id IS NULL THEN
126     return_id := nextval('seq_word');
127     INSERT INTO word (word_id, word_token, class, type, search_name_count)
128       VALUES (return_id, ' ' || lookup_term, 'place', 'house', 0);
129   END IF;
130
131   RETURN return_id;
132 END;
133 $$
134 LANGUAGE plpgsql;