From: Sarah Hoffmann <lonvia@denofr.de>
Date: Sat, 26 Jun 2021 17:38:08 +0000 (+0200)
Subject: improve normalization
X-Git-Tag: v4.0.0~58^2~6
X-Git-Url: https://git.openstreetmap.org./nominatim.git/commitdiff_plain/4fd2e961b6daaabba02f6f720f01b918364e5500?ds=sidebyside

improve normalization

Make sure all special symbols are removed during normalization already.
Those won't be interpreted in any way because they are unlikely to be
searched for.
---

diff --git a/settings/icu-rules/extended-unicode-to-asccii.yaml b/settings/icu-rules/extended-unicode-to-asccii.yaml
index 921874f5..959774d2 100644
--- a/settings/icu-rules/extended-unicode-to-asccii.yaml
+++ b/settings/icu-rules/extended-unicode-to-asccii.yaml
@@ -1,4 +1,4 @@
-- ":: Latin ()"
+- "'Å' > 'l'"
 - "'Âª' > 'a'"
 - "'Âµ' > 'u'"
 - "'Âº' > 'o'"
diff --git a/settings/icu-rules/unicode-digits-to-decimal.yaml b/settings/icu-rules/unicode-digits-to-decimal.yaml
new file mode 100644
index 00000000..55b3274a
--- /dev/null
+++ b/settings/icu-rules/unicode-digits-to-decimal.yaml
@@ -0,0 +1,24 @@
+- "[ð¥ð ßð­ê¤ð© ððð°ð¶ê©ê á±á­á®°á á á¥à¼ à»ê§°ááªáªá§ðµê¯°á±ð±ð°ðððê§ê£à·¦ð¦ï¼ð¶ðð¬ðð¢ââ¿âªâ°] > 0"
+- "[ð¥ð¡ßð­ê¤ð©¡ððð±ð·ê©ê¡á±á­á®±á á¡á¥à¼¡à»ê§±ááªáªá§ðµê¯±á±ð±ð±ðððê§ê£à·§ð§ï¼ð·ðð­ðð£âÂ¹â â´ââ¶âââµ] > 1"
+- "[ð¥ð¢ßð­ê¤ð©¢ððð²ð¸ê©ê¢á±á­á®²á á¢á¥à¼¢à»ê§²ááªáªá§ðµê¯²á±ð±ð²ðððê§ê£à·¨ð¨ï¼ð¸ðð®ðð¤âÂ²â¡âµââ·âââ¶] > 2"
+- "[ð¥ð£ßð­ê¤ð©£ððð³ð¹ê©ê£á±á­á®³á á£á¥à¼£à»ê§³ááªáªá§ðµê¯³á±ð±ð³ðððê§ê£à·©ð©ï¼ð¹ðð¯ðð¥âÂ³â¢â¶ââ¸âââ·] > 3"
+- "[ð¥ð¤ßð­ê¤ð©¤ððð´ðºê©ê¤á±á­á®´á á¤á¥à¼¤à»ê§´ááªáªá§ðµê¯´á±ð±ð´ðððê§ê£à·ªðªï¼ðºðð°ðð¦ââ´â£â·ââ¹âââ¸] > 4"
+- "[ð¥ð¥ßð­ê¤ð©¥ðððµð»ê©ê¥á±á­á®µá á¥á¥à¼¥à»ê§µááªáªá§ðµê¯µá±ð±ðµðððê§ê£à·«ð«ï¼ð»ðð±ðð§ââµâ¤â¸ââºâââ¹] > 5"
+- "[ð¥ð¦ßð­ê¤ð©¦ððð¶ð¼ê©ê¦á±á­á®¶á á¦á¥à¼¦à»ê§¶ááªáªá§ðµê¯¶á±ð±ð¶ðððê§ê£à·¬ð¬ï¼ð¼ðð²ðð¨ââ¶â¥â¹ââ»âââº] > 6"
+- "[ð¥ð§ßð­ê¤ð©§ððð·ð½ê©ê§á±á­á®·á á§á¥à¼§à»ê§·ááªáªá§ðµê¯·á±ð±ð·ðððê§ê£à·­ð­ï¼ð½ðð³ðð©ââ·â¦âºââ¼âââ»] > 7"
+- "[ð¥ð¨ßð­ê¤ð©¨ððð¸ð¾ê©ê¨á±á­á®¸á á¨á¥à¼¨à»ê§¸ááªáªá§ðµê¯¸á±ð±ð¸ðððê§ê£à·®ð®ï¼ð¾ð ð´ððªââ¸â§â»ââ½âââ¼] > 8"
+- "[ð¥ð©ßð­ê¤ð©©ððð¹ð¿ê©ê©á±á­á®¹á á©á¥à¼©à»ê§¹ááªáªá§ðµê¯¹á±ð±ð¹ðððê§ê£à·¯ð¯ï¼ð¿ð¡ðµðð«ââ¹â¨â¼ââ¾âââ½] > 9"
+- "[ðºâ©â½ââ¿âââ¾] > '10'"
+- "[âªâ¾ââ«] > '11'"
+- "[â«â¿ââ¬] > '12'"
+- "[â¬âââ­] > '13'"
+- "[â­âââ®] > '14'"
+- "[â®âââ¯] > '15'"
+- "[â¯âââ°] > '16'"
+- "[â°âââ±] > '17'"
+- "[â±âââ²] > '18'"
+- "[â²âââ³] > '19'"
+- "[ð»â³âââ´] > '20'"
+- "â > ' 1/7'"
+- "â > ' 1/9'"
+- "â  > ' 1/10'"
diff --git a/settings/legacy_icu_tokenizer.yaml b/settings/legacy_icu_tokenizer.yaml
index a3f1c027..7972b156 100644
--- a/settings/legacy_icu_tokenizer.yaml
+++ b/settings/legacy_icu_tokenizer.yaml
@@ -1,20 +1,29 @@
 normalization:
-    - ":: NFD ()"
-    - "[[:Nonspacing Mark:] [:Cf:]] >"
     - ":: lower ()"
+    - !include icu-rules/unicode-digits-to-decimal.yaml
+    - "'â' > 'no'"
+    - "'nÂ°' > 'no'"
+    - "'nÂº' > 'no'"
+    - "Âª > a"
+    - "Âº > o"
+    - "[[:Punctuation:][:Symbol:]]  > ' '"
     - "Ã > 'ss'" # German szet is unimbigiously equal to double ss
-    - "[[:Punctuation:][:Space:]]+ > ' '"
-    - ":: NFC ()"
+    - "[^[:Letter:] [:Number:] [:Space:]] >"
+    - "[:Lm:] >"
+    - ":: [[:Number:]] Latin ()"
+    - ":: [[:Number:]] Ascii ();"
+    - ":: [[:Number:]] NFD ();"
+    - "[[:Nonspacing Mark:] [:Cf:]] >;"
+    - "[:Space:]+ > ' '"
 transliteration:
+    - ":: Latin ()"
     - !include icu-rules/extended-unicode-to-asccii.yaml
     - ":: Ascii ()"
     - ":: NFD ()"
-    - "'' >"
-    - "[[:Nonspacing Mark:] [:Cf:]] >"
     - "[^[:Ascii:]] >"
     - ":: lower ()"
-    - "[[:Punctuation:][:Space:]]+ > ' '"
     - ":: NFC ()"
+    - "[:Space:]+ > ' '"
 variants:
   - words:
     - ~hal => hal