]> git.openstreetmap.org Git - nominatim.git/blob - nominatim/tokenizer/sanitizers/clean_housenumbers.py
Merge pull request #2784 from lonvia/doscs-customizing-icu-tokenizer
[nominatim.git] / nominatim / tokenizer / sanitizers / clean_housenumbers.py
1 # SPDX-License-Identifier: GPL-2.0-only
2 #
3 # This file is part of Nominatim. (https://nominatim.org)
4 #
5 # Copyright (C) 2022 by the Nominatim developer community.
6 # For a full list of authors see the git log.
7 """
8 Sanitizer that preprocesses address tags for house numbers. The sanitizer
9 allows to
10
11 * define which tags are to be considered house numbers (see 'filter-kind')
12 * split house number lists into individual numbers (see 'delimiters')
13
14 Arguments:
15     delimiters: Define the set of characters to be used for
16                 splitting a list of house numbers into parts. (default: ',;')
17     filter-kind: Define the address tags that are considered to be a
18                  house number. Either takes a single string or a list of strings,
19                  where each string is a regular expression. An address item
20                  is considered a house number if the 'kind' fully matches any
21                  of the given regular expressions. (default: 'housenumber')
22     convert-to-name: Define house numbers that should be treated as a name
23                      instead of a house number. Either takes a single string
24                      or a list of strings, where each string is a regular
25                      expression that must match the full house number value.
26 """
27 from typing import Callable, Iterator, List
28 import re
29
30 from nominatim.tokenizer.sanitizers.base import ProcessInfo
31 from nominatim.data.place_name import PlaceName
32 from nominatim.tokenizer.sanitizers.config import SanitizerConfig
33
34 class _HousenumberSanitizer:
35
36     def __init__(self, config: SanitizerConfig) -> None:
37         self.filter_kind = config.get_filter_kind('housenumber')
38         self.split_regexp = config.get_delimiter()
39
40         nameregexps = config.get_string_list('convert-to-name', [])
41         self.is_name_regexp = [re.compile(r) for r in nameregexps]
42
43
44
45     def __call__(self, obj: ProcessInfo) -> None:
46         if not obj.address:
47             return
48
49         new_address: List[PlaceName] = []
50         for item in obj.address:
51             if self.filter_kind(item.kind):
52                 if self._treat_as_name(item.name):
53                     obj.names.append(item.clone(kind='housenumber'))
54                 else:
55                     new_address.extend(item.clone(kind='housenumber', name=n)
56                                        for n in self.sanitize(item.name))
57             else:
58                 # Don't touch other address items.
59                 new_address.append(item)
60
61         obj.address = new_address
62
63
64     def sanitize(self, value: str) -> Iterator[str]:
65         """ Extract housenumbers in a regularized format from an OSM value.
66
67             The function works as a generator that yields all valid housenumbers
68             that can be created from the value.
69         """
70         for hnr in self.split_regexp.split(value):
71             if hnr:
72                 yield from self._regularize(hnr)
73
74
75     def _regularize(self, hnr: str) -> Iterator[str]:
76         yield hnr
77
78
79     def _treat_as_name(self, housenumber: str) -> bool:
80         return any(r.fullmatch(housenumber) is not None for r in self.is_name_regexp)
81
82
83 def create(config: SanitizerConfig) -> Callable[[ProcessInfo], None]:
84     """ Create a housenumber processing function.
85     """
86
87     return _HousenumberSanitizer(config)