]> git.openstreetmap.org Git - nominatim.git/blob - test/python/test_tokenizer_icu_rule_loader.py
5d931043d737e92f96cc5560088a226839cd4276
[nominatim.git] / test / python / test_tokenizer_icu_rule_loader.py
1 """
2 Tests for converting a config file to ICU rules.
3 """
4 from textwrap import dedent
5
6 import pytest
7 import yaml
8
9 from nominatim.tokenizer.icu_rule_loader import ICURuleLoader
10 from nominatim.errors import UsageError
11
12 from icu import Transliterator
13
14 @pytest.fixture
15 def test_config(def_config, tmp_path):
16     project_dir = tmp_path / 'project_dir'
17     project_dir.mkdir()
18     def_config.project_dir = project_dir
19
20     return def_config
21
22
23 @pytest.fixture
24 def cfgrules(test_config):
25     def _create_config(*variants, **kwargs):
26         content = dedent("""\
27         normalization:
28             - ":: NFD ()"
29             - "[[:Nonspacing Mark:] [:Cf:]] >"
30             - ":: lower ()"
31             - "[[:Punctuation:][:Space:]]+ > ' '"
32             - ":: NFC ()"
33         transliteration:
34             - "::  Latin ()"
35             - "[[:Punctuation:][:Space:]]+ > ' '"
36         """)
37         content += "token-analysis:\n  - variants:\n     - words:\n"
38         content += '\n'.join(("         - " + s for s in variants)) + '\n'
39         for k, v in kwargs:
40             content += "    {}: {}\n".format(k, v)
41         (test_config.project_dir / 'icu_tokenizer.yaml').write_text(content)
42
43         return test_config
44
45     return _create_config
46
47
48 def test_empty_rule_set(test_config):
49     (test_config.project_dir / 'icu_tokenizer.yaml').write_text(dedent("""\
50         normalization:
51         transliteration:
52         token-analysis:
53           - variants:
54         """))
55
56     rules = ICURuleLoader(test_config)
57     assert rules.get_search_rules() == ''
58     assert rules.get_normalization_rules() == ''
59     assert rules.get_transliteration_rules() == ''
60
61 CONFIG_SECTIONS = ('normalization', 'transliteration', 'token-analysis')
62
63 @pytest.mark.parametrize("section", CONFIG_SECTIONS)
64 def test_missing_section(section, test_config):
65     rule_cfg = { s: [] for s in CONFIG_SECTIONS if s != section}
66     (test_config.project_dir / 'icu_tokenizer.yaml').write_text(yaml.dump(rule_cfg))
67
68     with pytest.raises(UsageError):
69         ICURuleLoader(test_config)
70
71
72 def test_get_search_rules(cfgrules):
73     loader = ICURuleLoader(cfgrules())
74
75     rules = loader.get_search_rules()
76     trans = Transliterator.createFromRules("test", rules)
77
78     assert trans.transliterate(" Baum straße ") == " baum straße "
79     assert trans.transliterate(" Baumstraße ") == " baumstraße "
80     assert trans.transliterate(" Baumstrasse ") == " baumstrasse "
81     assert trans.transliterate(" Baumstr ") == " baumstr "
82     assert trans.transliterate(" Baumwegstr ") == " baumwegstr "
83     assert trans.transliterate(" Αθήνα ") == " athēna "
84     assert trans.transliterate(" проспект ") == " prospekt "
85
86
87 def test_get_normalization_rules(cfgrules):
88     loader = ICURuleLoader(cfgrules())
89     rules = loader.get_normalization_rules()
90     trans = Transliterator.createFromRules("test", rules)
91
92     assert trans.transliterate(" проспект-Prospekt ") == " проспект prospekt "
93
94
95 def test_get_transliteration_rules(cfgrules):
96     loader = ICURuleLoader(cfgrules())
97     rules = loader.get_transliteration_rules()
98     trans = Transliterator.createFromRules("test", rules)
99
100     assert trans.transliterate(" проспект-Prospekt ") == " prospekt Prospekt "
101
102
103 def test_transliteration_rules_from_file(test_config):
104     cfgpath = test_config.project_dir / ('icu_tokenizer.yaml')
105     cfgpath.write_text(dedent("""\
106         normalization:
107         transliteration:
108             - "'ax' > 'b'"
109             - !include transliteration.yaml
110         token-analysis:
111             - variants:
112         """))
113     transpath = test_config.project_dir / ('transliteration.yaml')
114     transpath.write_text('- "x > y"')
115
116     loader = ICURuleLoader(test_config)
117     rules = loader.get_transliteration_rules()
118     trans = Transliterator.createFromRules("test", rules)
119
120     assert trans.transliterate(" axxt ") == " byt "
121
122
123 class TestGetReplacements:
124
125     @pytest.fixture(autouse=True)
126     def setup_cfg(self, cfgrules):
127         self.cfgrules = cfgrules
128
129     def get_replacements(self, *variants):
130         loader = ICURuleLoader(self.cfgrules(*variants))
131         rules = loader.analysis[None].variants
132
133         return set((v.source, v.replacement) for v in rules)
134
135
136     @pytest.mark.parametrize("variant", ['foo > bar', 'foo -> bar -> bar',
137                                          '~foo~ -> bar', 'fo~ o -> bar'])
138     def test_invalid_variant_description(self, variant):
139         with pytest.raises(UsageError):
140             ICURuleLoader(self.cfgrules(variant))
141
142     def test_add_full(self):
143         repl = self.get_replacements("foo -> bar")
144
145         assert repl == {(' foo ', ' bar '), (' foo ', ' foo ')}
146
147
148     def test_replace_full(self):
149         repl = self.get_replacements("foo => bar")
150
151         assert repl == {(' foo ', ' bar ')}
152
153
154     def test_add_suffix_no_decompose(self):
155         repl = self.get_replacements("~berg |-> bg")
156
157         assert repl == {('berg ', 'berg '), ('berg ', 'bg '),
158                         (' berg ', ' berg '), (' berg ', ' bg ')}
159
160
161     def test_replace_suffix_no_decompose(self):
162         repl = self.get_replacements("~berg |=> bg")
163
164         assert repl == {('berg ', 'bg '), (' berg ', ' bg ')}
165
166
167     def test_add_suffix_decompose(self):
168         repl = self.get_replacements("~berg -> bg")
169
170         assert repl == {('berg ', 'berg '), ('berg ', ' berg '),
171                         (' berg ', ' berg '), (' berg ', 'berg '),
172                         ('berg ', 'bg '), ('berg ', ' bg '),
173                         (' berg ', 'bg '), (' berg ', ' bg ')}
174
175
176     def test_replace_suffix_decompose(self):
177         repl = self.get_replacements("~berg => bg")
178
179         assert repl == {('berg ', 'bg '), ('berg ', ' bg '),
180                         (' berg ', 'bg '), (' berg ', ' bg ')}
181
182
183     def test_add_prefix_no_compose(self):
184         repl = self.get_replacements("hinter~ |-> hnt")
185
186         assert repl == {(' hinter', ' hinter'), (' hinter ', ' hinter '),
187                         (' hinter', ' hnt'), (' hinter ', ' hnt ')}
188
189
190     def test_replace_prefix_no_compose(self):
191         repl = self.get_replacements("hinter~ |=> hnt")
192
193         assert repl ==  {(' hinter', ' hnt'), (' hinter ', ' hnt ')}
194
195
196     def test_add_prefix_compose(self):
197         repl = self.get_replacements("hinter~-> h")
198
199         assert repl == {(' hinter', ' hinter'), (' hinter', ' hinter '),
200                         (' hinter', ' h'), (' hinter', ' h '),
201                         (' hinter ', ' hinter '), (' hinter ', ' hinter'),
202                         (' hinter ', ' h '), (' hinter ', ' h')}
203
204
205     def test_replace_prefix_compose(self):
206         repl = self.get_replacements("hinter~=> h")
207
208         assert repl == {(' hinter', ' h'), (' hinter', ' h '),
209                         (' hinter ', ' h '), (' hinter ', ' h')}
210
211
212     def test_add_beginning_only(self):
213         repl = self.get_replacements("^Premier -> Pr")
214
215         assert repl == {('^ premier ', '^ premier '), ('^ premier ', '^ pr ')}
216
217
218     def test_replace_beginning_only(self):
219         repl = self.get_replacements("^Premier => Pr")
220
221         assert repl == {('^ premier ', '^ pr ')}
222
223
224     def test_add_final_only(self):
225         repl = self.get_replacements("road$ -> rd")
226
227         assert repl == {(' road ^', ' road ^'), (' road ^', ' rd ^')}
228
229
230     def test_replace_final_only(self):
231         repl = self.get_replacements("road$ => rd")
232
233         assert repl == {(' road ^', ' rd ^')}
234
235
236     def test_decompose_only(self):
237         repl = self.get_replacements("~foo -> foo")
238
239         assert repl == {('foo ', 'foo '), ('foo ', ' foo '),
240                         (' foo ', 'foo '), (' foo ', ' foo ')}
241
242
243     def test_add_suffix_decompose_end_only(self):
244         repl = self.get_replacements("~berg |-> bg", "~berg$ -> bg")
245
246         assert repl == {('berg ', 'berg '), ('berg ', 'bg '),
247                         (' berg ', ' berg '), (' berg ', ' bg '),
248                         ('berg ^', 'berg ^'), ('berg ^', ' berg ^'),
249                         ('berg ^', 'bg ^'), ('berg ^', ' bg ^'),
250                         (' berg ^', 'berg ^'), (' berg ^', 'bg ^'),
251                         (' berg ^', ' berg ^'), (' berg ^', ' bg ^')}
252
253
254     def test_replace_suffix_decompose_end_only(self):
255         repl = self.get_replacements("~berg |=> bg", "~berg$ => bg")
256
257         assert repl == {('berg ', 'bg '), (' berg ', ' bg '),
258                         ('berg ^', 'bg ^'), ('berg ^', ' bg ^'),
259                         (' berg ^', 'bg ^'), (' berg ^', ' bg ^')}
260
261
262     def test_add_multiple_suffix(self):
263         repl = self.get_replacements("~berg,~burg -> bg")
264
265         assert repl == {('berg ', 'berg '), ('berg ', ' berg '),
266                         (' berg ', ' berg '), (' berg ', 'berg '),
267                         ('berg ', 'bg '), ('berg ', ' bg '),
268                         (' berg ', 'bg '), (' berg ', ' bg '),
269                         ('burg ', 'burg '), ('burg ', ' burg '),
270                         (' burg ', ' burg '), (' burg ', 'burg '),
271                         ('burg ', 'bg '), ('burg ', ' bg '),
272                         (' burg ', 'bg '), (' burg ', ' bg ')}