]> git.openstreetmap.org Git - nominatim.git/blob - lib-sql/tokenizer/legacy_icu_tokenizer.sql
new word table layout for icu tokenizer
[nominatim.git] / lib-sql / tokenizer / legacy_icu_tokenizer.sql
1 -- Get tokens used for searching the given place.
2 --
3 -- These are the tokens that will be saved in the search_name table.
4 CREATE OR REPLACE FUNCTION token_get_name_search_tokens(info JSONB)
5   RETURNS INTEGER[]
6 AS $$
7   SELECT (info->>'names')::INTEGER[]
8 $$ LANGUAGE SQL IMMUTABLE STRICT;
9
10
11 -- Get tokens for matching the place name against others.
12 --
13 -- This should usually be restricted to full name tokens.
14 CREATE OR REPLACE FUNCTION token_get_name_match_tokens(info JSONB)
15   RETURNS INTEGER[]
16 AS $$
17   SELECT (info->>'names')::INTEGER[]
18 $$ LANGUAGE SQL IMMUTABLE STRICT;
19
20
21 -- Return the housenumber tokens applicable for the place.
22 CREATE OR REPLACE FUNCTION token_get_housenumber_search_tokens(info JSONB)
23   RETURNS INTEGER[]
24 AS $$
25   SELECT (info->>'hnr_tokens')::INTEGER[]
26 $$ LANGUAGE SQL IMMUTABLE STRICT;
27
28
29 -- Return the housenumber in the form that it can be matched during search.
30 CREATE OR REPLACE FUNCTION token_normalized_housenumber(info JSONB)
31   RETURNS TEXT
32 AS $$
33   SELECT info->>'hnr';
34 $$ LANGUAGE SQL IMMUTABLE STRICT;
35
36
37 CREATE OR REPLACE FUNCTION token_addr_street_match_tokens(info JSONB)
38   RETURNS INTEGER[]
39 AS $$
40   SELECT (info->>'street')::INTEGER[]
41 $$ LANGUAGE SQL IMMUTABLE STRICT;
42
43
44 CREATE OR REPLACE FUNCTION token_addr_place_match_tokens(info JSONB)
45   RETURNS INTEGER[]
46 AS $$
47   SELECT (info->>'place_match')::INTEGER[]
48 $$ LANGUAGE SQL IMMUTABLE STRICT;
49
50
51 CREATE OR REPLACE FUNCTION token_addr_place_search_tokens(info JSONB)
52   RETURNS INTEGER[]
53 AS $$
54   SELECT (info->>'place_search')::INTEGER[]
55 $$ LANGUAGE SQL IMMUTABLE STRICT;
56
57
58 DROP TYPE IF EXISTS token_addresstoken CASCADE;
59 CREATE TYPE token_addresstoken AS (
60   key TEXT,
61   match_tokens INT[],
62   search_tokens INT[]
63 );
64
65 CREATE OR REPLACE FUNCTION token_get_address_tokens(info JSONB)
66   RETURNS SETOF token_addresstoken
67 AS $$
68   SELECT key, (value->>1)::int[] as match_tokens,
69          (value->>0)::int[] as search_tokens
70   FROM jsonb_each(info->'addr');
71 $$ LANGUAGE SQL IMMUTABLE STRICT;
72
73
74 CREATE OR REPLACE FUNCTION token_normalized_postcode(postcode TEXT)
75   RETURNS TEXT
76 AS $$
77   SELECT CASE WHEN postcode SIMILAR TO '%(,|;)%' THEN NULL ELSE upper(trim(postcode))END;
78 $$ LANGUAGE SQL IMMUTABLE STRICT;
79
80
81 -- Return token info that should be saved permanently in the database.
82 CREATE OR REPLACE FUNCTION token_strip_info(info JSONB)
83   RETURNS JSONB
84 AS $$
85   SELECT NULL::JSONB;
86 $$ LANGUAGE SQL IMMUTABLE STRICT;
87
88 --------------- private functions ----------------------------------------------
89
90 CREATE OR REPLACE FUNCTION getorcreate_full_word(norm_term TEXT, lookup_terms TEXT[],
91                                                  OUT full_token INT,
92                                                  OUT partial_tokens INT[])
93   AS $$
94 DECLARE
95   partial_terms TEXT[] = '{}'::TEXT[];
96   term TEXT;
97   term_id INTEGER;
98   term_count INTEGER;
99 BEGIN
100   SELECT min(word_id) INTO full_token
101     FROM word WHERE word = norm_term and class is null and country_code is null;
102
103   IF full_token IS NULL THEN
104     full_token := nextval('seq_word');
105     INSERT INTO word (word_id, word_token, word, search_name_count)
106       SELECT full_token, ' ' || lookup_term, norm_term, 0 FROM unnest(lookup_terms) as lookup_term;
107   END IF;
108
109   FOR term IN SELECT unnest(string_to_array(unnest(lookup_terms), ' ')) LOOP
110     term := trim(term);
111     IF NOT (ARRAY[term] <@ partial_terms) THEN
112       partial_terms := partial_terms || term;
113     END IF;
114   END LOOP;
115
116   partial_tokens := '{}'::INT[];
117   FOR term IN SELECT unnest(partial_terms) LOOP
118     SELECT min(word_id), max(search_name_count) INTO term_id, term_count
119       FROM word WHERE word_token = term and class is null and country_code is null;
120
121     IF term_id IS NULL THEN
122       term_id := nextval('seq_word');
123       term_count := 0;
124       INSERT INTO word (word_id, word_token, search_name_count)
125         VALUES (term_id, term, 0);
126     END IF;
127
128     IF term_count < {{ max_word_freq }} THEN
129       partial_tokens := array_merge(partial_tokens, ARRAY[term_id]);
130     END IF;
131   END LOOP;
132 END;
133 $$
134 LANGUAGE plpgsql;
135
136
137 CREATE OR REPLACE FUNCTION getorcreate_hnr_id(lookup_term TEXT)
138   RETURNS INTEGER
139   AS $$
140 DECLARE
141   return_id INTEGER;
142 BEGIN
143   SELECT min(word_id) INTO return_id
144     FROM word
145     WHERE word_token = '  '  || lookup_term
146           and class = 'place' and type = 'house';
147
148   IF return_id IS NULL THEN
149     return_id := nextval('seq_word');
150     INSERT INTO word (word_id, word_token, class, type, search_name_count)
151       VALUES (return_id, ' ' || lookup_term, 'place', 'house', 0);
152   END IF;
153
154   RETURN return_id;
155 END;
156 $$
157 LANGUAGE plpgsql;