]> git.openstreetmap.org Git - nominatim.git/blob - nominatim/tools/special_phrases/sp_wiki_loader.py
icu: move token deduplication into TokenInfo
[nominatim.git] / nominatim / tools / special_phrases / sp_wiki_loader.py
1 # SPDX-License-Identifier: GPL-2.0-only
2 #
3 # This file is part of Nominatim. (https://nominatim.org)
4 #
5 # Copyright (C) 2022 by the Nominatim developer community.
6 # For a full list of authors see the git log.
7 """
8     Module containing the SPWikiLoader class.
9 """
10 import re
11 import logging
12 from collections.abc import Iterator
13 from nominatim.tools.special_phrases.special_phrase import SpecialPhrase
14 from nominatim.tools.exec_utils import get_url
15
16 LOG = logging.getLogger()
17 class SPWikiLoader(Iterator):
18     """
19         Handles loading of special phrases from the wiki.
20     """
21     def __init__(self, config, languages=None):
22         super().__init__()
23         self.config = config
24         # Compile the regex here to increase performances.
25         self.occurence_pattern = re.compile(
26             r'\| *([^\|]+) *\|\| *([^\|]+) *\|\| *([^\|]+) *\|\| *([^\|]+) *\|\| *([\-YN])'
27         )
28         self.languages = self._load_languages() if not languages else list(languages)
29
30     def __next__(self):
31         if not self.languages:
32             raise StopIteration
33
34         lang = self.languages.pop(0)
35         loaded_xml = self._get_wiki_content(lang)
36         LOG.warning('Importing phrases for lang: %s...', lang)
37         return self.parse_xml(loaded_xml)
38
39     def parse_xml(self, xml):
40         """
41             Parses XML content and extracts special phrases from it.
42             Return a list of SpecialPhrase.
43         """
44         # One match will be of format [label, class, type, operator, plural]
45         matches = self.occurence_pattern.findall(xml)
46         returned_phrases = set()
47         for match in matches:
48             returned_phrases.add(
49                 SpecialPhrase(match[0], match[1], match[2], match[3])
50             )
51         return returned_phrases
52
53     def _load_languages(self):
54         """
55             Get list of all languages from env config file
56             or default if there is no languages configured.
57             The system will extract special phrases only from all specified languages.
58         """
59         default_languages = [
60             'af', 'ar', 'br', 'ca', 'cs', 'de', 'en', 'es',
61             'et', 'eu', 'fa', 'fi', 'fr', 'gl', 'hr', 'hu',
62             'ia', 'is', 'it', 'ja', 'mk', 'nl', 'no', 'pl',
63             'ps', 'pt', 'ru', 'sk', 'sl', 'sv', 'uk', 'vi']
64         return self.config.LANGUAGES.split(',') if self.config.LANGUAGES else default_languages
65
66     @staticmethod
67     def _get_wiki_content(lang):
68         """
69             Request and return the wiki page's content
70             corresponding to special phrases for a given lang.
71             Requested URL Example :
72                 https://wiki.openstreetmap.org/wiki/Special:Export/Nominatim/Special_Phrases/EN
73         """
74         url = 'https://wiki.openstreetmap.org/wiki/Special:Export/Nominatim/Special_Phrases/' \
75               + lang.upper()
76         return get_url(url)