Špatná velikost písmen v názvech ulic importovaných z UIR-ADR na Talk-cz

Lukáš Karas lukas.karas na centrum.cz #ma48b74 6. 7. 2016 9:41

Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš

signature.asc

Marián Kyral mkyral na email.cz #mc8e8fd 6. 7. 2016 10:00

Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš

A jak je to v RUIANu? Stejně? Tak to by pak bylo potřeba opravit tam. Což znamená nahlásit na ČÚZK, ti to přepošlou daným úředníkům a ti s tím možná něco udělají. A pak se to při update dostane až do OSM. Ale pokud je to v RUIANu správně, tak by se to mělo v OSM opravit. Možná by stačilo, kdyby to Petr Vejsada zakomponoval do update skriptu. Ale nevím jak je na tom teď s časem, nějakou dobu se tu už neukázal. Jinak mi připadá ignorování velikosti písma při hledání jako docela dobrá vlastnost, která by měla být implementována. Stejně tak i nějaká odolnost proti překlepům. To sice nevím jak se dělá, ale určitě by bylo fajn, kdyby mi při hledání ulice "Na Olinách" byla nabídnuta i ulice "Na Olšinách". Marián

Dne 6.7.2016 v 09:41 Lukáš Karas napsal(a):

Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš _______________________________________________ Talk-cz mailing list Talk-cz na openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz

A jak je to v RUIANu? Stejně? Tak to by pak bylo potřeba opravit tam. Což znamená nahlásit na ČÚZK, ti to přepošlou daným úředníkům a ti s tím možná něco udělají. A pak se to při update dostane až do OSM. Ale pokud je to v RUIANu správně, tak by se to mělo v OSM opravit. Možná by stačilo, kdyby to Petr Vejsada zakomponoval do update skriptu. Ale nevím jak je na tom teď s časem, nějakou dobu se tu už neukázal. Jinak mi připadá ignorování velikosti písma při hledání jako docela dobrá vlastnost, která by měla být implementována. Stejně tak i nějaká odolnost proti překlepům. To sice nevím jak se dělá, ale určitě by bylo fajn, kdyby mi při hledání ulice "Na Olinách" byla nabídnuta i ulice "Na Olšinách". Marián

Lukáš Karas lukas.karas na centrum.cz #m4275fb 6. 7. 2016 10:45

Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš
A jak je to v RUIANu? Stejně? Tak to by pak bylo potřeba opravit tam. Což znamená nahlásit na ČÚZK, ti to přepošlou daným úředníkům a ti s tím možná něco udělají. A pak se to při update dostane až do OSM. Ale pokud je to v RUIANu správně, tak by se to mělo v OSM opravit. Možná by stačilo, kdyby to Petr Vejsada zakomponoval do update skriptu. Ale nevím jak je na tom teď s časem, nějakou dobu se tu už neukázal. Jinak mi připadá ignorování velikosti písma při hledání jako docela dobrá vlastnost, která by měla být implementována. Stejně tak i nějaká odolnost proti překlepům. To sice nevím jak se dělá, ale určitě by bylo fajn, kdyby mi při hledání ulice "Na Olinách" byla nabídnuta i ulice "Na Olšinách". Marián

Jo, v katastru je to stejně tak blbě. Například: Stavební objekt: č. p. 2515, č. p. 2516, č. p. 2517, č. p. 2539 Ulice: Buková, Osiková, Pod lipami lipami by mělo být s velkým písmenem, v OSM je ulice správně "Pod Lipami". Koukám že RUIAN obsahuje formulář pro zasílání oprav [1]. Obsahuje tam ale vtipnou poznámku: "Návrhy na změny velikosti písmen budou zamítnuty automaticky." Co to sakra je? Pokud existuje script kterým se provádí automatický import periodicky, mohl bych se pokusit jej rozšířit o opravu známých chyb... Najdu jej někde veřejně, třeba na githubu? Lukáš 1) http://reklamace.cuzk.cz/formular/index.php?source=R%C3%9AIAN&field=ul-dnu&desc=Zm%C4%9Bna+n%C3%A1zvu+existuj%C3%ADc%C3%AD +ulice&logged=-3&action=form

Dne středa 6. července 2016 10:00:36 CEST Marián Kyral napsal(a):

Dne 6.7.2016 v 09:41 Lukáš Karas napsal(a):
Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš _______________________________________________ Talk-cz mailing list Talk-cz na openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz
A jak je to v RUIANu? Stejně? Tak to by pak bylo potřeba opravit tam. Což znamená nahlásit na ČÚZK, ti to přepošlou daným úředníkům a ti s tím možná něco udělají. A pak se to při update dostane až do OSM. Ale pokud je to v RUIANu správně, tak by se to mělo v OSM opravit. Možná by stačilo, kdyby to Petr Vejsada zakomponoval do update skriptu. Ale nevím jak je na tom teď s časem, nějakou dobu se tu už neukázal. Jinak mi připadá ignorování velikosti písma při hledání jako docela dobrá vlastnost, která by měla být implementována. Stejně tak i nějaká odolnost proti překlepům. To sice nevím jak se dělá, ale určitě by bylo fajn, kdyby mi při hledání ulice "Na Olinách" byla nabídnuta i ulice "Na Olšinách". Marián

Jo, v katastru je to stejně tak blbě. Například: Stavební objekt: č. p. 2515, č. p. 2516, č. p. 2517, č. p. 2539 Ulice: Buková, Osiková, Pod lipami lipami by mělo být s velkým písmenem, v OSM je ulice správně "Pod Lipami". Koukám že RUIAN obsahuje formulář pro zasílání oprav [1]. Obsahuje tam ale vtipnou poznámku: "Návrhy na změny velikosti písmen budou zamítnuty automaticky." Co to sakra je? Pokud existuje script kterým se provádí automatický import periodicky, mohl bych se pokusit jej rozšířit o opravu známých chyb... Najdu jej někde veřejně, třeba na githubu? Lukáš 1) http://reklamace.cuzk.cz/formular/index.php?source=R%C3%9AIAN&field=ul-dnu&desc=Zm%C4%9Bna+n%C3%A1zvu+existuj%C3%ADc%C3%AD +ulice&logged=-3&action=form

signature.asc

Mirek Dlask dlask.m na gmail.com #mbcddd6 6. 7. 2016 10:54

Ahoj, už ten nadpis máš špatně. Pro import aktualizaci adres se už dost dlouho používá RUIAN. http://vdp.cuzk.cz/Chybějící adresy se sice už řešily, ale jak je vidět nevyřešily. Na vině je rozpor mezi stavovým výpisem (měsíčně) a aktualizacemi ve výměnném formátu RUIAN. Co to je špatná velikost písmen? http://prirucka.ujc.cas.cz/?id=186 kde se píše. PČP jsou závazná pouze pro školní jazykovou výuku. Pro ostatní uživatele češtiny mají jen formu doporučení. Některé obecní, městské úřady a magistráty stále setrvávají u staršího způsobu psaní, zejména pokud jde o předložková spojení (viz bod 2.1 <http://prirucka.ujc.cas.cz/?id=186#ref_id_41_2_1>). Starší způsob psaní často odůvodňují tím, že změna by pro ně byla finančně náročná. Tedy. Ve škole musíš PČP dodržovat, pokud zasedneš v obecní komisi pro pojmenování ulic, můžeš se na pravidla vybodnout.

Ahoj, už ten nadpis máš špatně. Pro import aktualizaci adres se už dost dlouho používá RUIAN. http://vdp.cuzk.cz/ Chybějící adresy se sice už řešily, ale jak je vidět nevyřešily. Na vině je rozpor mezi stavovým výpisem (měsíčně) a aktualizacemi ve výměnném formátu RUIAN. Co to je špatná velikost písmen? http://prirucka.ujc.cas.cz/?id=186 kde se píše. PČP jsou závazná pouze pro školní jazykovou výuku. Pro ostatní uživatele češtiny mají jen formu doporučení. Některé obecní, městské úřady a magistráty stále setrvávají u staršího způsobu psaní, zejména pokud jde o předložková spojení (viz bod 2.1 <http://prirucka.ujc.cas.cz/?id=186#ref_id_41_2_1>). Starší způsob psaní často odůvodňují tím, že změna by pro ně byla finančně náročná. Tedy. Ve škole musíš PČP dodržovat, pokud zasedneš v obecní komisi pro pojmenování ulic, můžeš se na pravidla vybodnout. Dne 6. července 2016 9:41 Lukáš Karas <lukas.karas na centrum.cz> napsal(a):

Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš _______________________________________________ Talk-cz mailing list Talk-cz na openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz

Lukáš Karas lukas.karas na centrum.cz #m01483c 6. 7. 2016 11:20

Ahoj, už ten nadpis máš špatně. Pro import aktualizaci adres se už dost dlouho používá RUIAN. http://vdp.cuzk.cz/

Dobrá. To není zas tak podstatné. Vycházel jsem z tagu source:addr=uir_adr

Chybějící adresy se sice už řešily, ale jak je vidět nevyřešily. Na vině je rozpor mezi stavovým výpisem (měsíčně) a aktualizacemi ve výměnném formátu RUIAN. Co to je špatná velikost písmen? http://prirucka.ujc.cas.cz/?id=186 kde se píše.

Nejsem grammar nazi. Stejně tak chápu že pokud si například zastupitelé v Litomyšli odhlasují že se bude jejich město jmenovat "LyTomišl" tak bychom to měli v OSM datech upravit. Ale tady jde o očividnou chybu v RUIAN datech. Ve všech materiálech Prahy 3 se ulice "Pod Lipami" píše s velkým "L" (stejně tak ostatní). V RUIANu je ale s malým písmenem. Neřešil bych to, kdyby to nedělalo problémy v OSM Scout knihovně, která se snaží vytvořit index adres jako stromovou strukturu.

Dne středa 6. července 2016 10:54:30 CEST Mirek Dlask napsal(a):

Ahoj, už ten nadpis máš špatně. Pro import aktualizaci adres se už dost dlouho používá RUIAN. http://vdp.cuzk.cz/

Dobrá. To není zas tak podstatné. Vycházel jsem z tagu source:addr=uir_adr

Chybějící adresy se sice už řešily, ale jak je vidět nevyřešily. Na vině je rozpor mezi stavovým výpisem (měsíčně) a aktualizacemi ve výměnném formátu RUIAN. Co to je špatná velikost písmen? http://prirucka.ujc.cas.cz/?id=186 kde se píše.

Nejsem grammar nazi. Stejně tak chápu že pokud si například zastupitelé v Litomyšli odhlasují že se bude jejich město jmenovat "LyTomišl" tak bychom to měli v OSM datech upravit. Ale tady jde o očividnou chybu v RUIAN datech. Ve všech materiálech Prahy 3 se ulice "Pod Lipami" píše s velkým "L" (stejně tak ostatní). V RUIANu je ale s malým písmenem. Neřešil bych to, kdyby to nedělalo problémy v OSM Scout knihovně, která se snaží vytvořit index adres jako stromovou strukturu.

PČP jsou závazná pouze pro školní jazykovou výuku. Pro ostatní uživatele češtiny mají jen formu doporučení. Některé obecní, městské úřady a magistráty stále setrvávají u staršího způsobu psaní, zejména pokud jde o předložková spojení (viz bod 2.1 <http://prirucka.ujc.cas.cz/?id=186#ref_id_41_2_1>). Starší způsob psaní často odůvodňují tím, že změna by pro ně byla finančně náročná. Tedy. Ve škole musíš PČP dodržovat, pokud zasedneš v obecní komisi pro pojmenování ulic, můžeš se na pravidla vybodnout. Dne 6. července 2016 9:41 Lukáš Karas <lukas.karas na centrum.cz> napsal(a):
Ahoj, možná se toto téma již v listu řešilo, ale žádné vlákno jsem nenašel. Případně mě omluvte. Píšu aplikaci nad knihovnou OSM Scout, při importu Česka jsem si všiml že ve výsledné databázi chybí mnoho adres. Po dalším zkoumání jsem zjistil že hodnota "addr:street" neodpovídá žádné blízké ulici (knihovna se snaží z adres vytvořit stromovou strukturu, pokud nenajde odkazovanou ulici, náměstí nebo sídliště..., adresu nepřidá do databáze). Po dalším zkoumání jsem zjistil že mnoho adresních bodů má špatnou velikost písmen v tagu "addr:street", například v ulici "V Olšinách" je mnoho (96) adres které mají ulici uvedenou jako "V olšinách". Hledání ulic jsem v knihovně udělal chytřejší, aby ignorovalo velikost písmen. Nevím ale jestli její autor přijme merge request. V každém případě si myslím že data v OSM by měla být opravena. Ale není to na ruční práci, jen v Praze jsem našel 10 tisíc záznamů. Je tu někdo by byl schopný napsat automatický script? Mohu dodat log z importu kde jsou chyby vypsány... Lukáš _______________________________________________ Talk-cz mailing list Talk-cz na openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz

signature.asc

Karel Volný kavol na seznam.cz #m766be9 6. 7. 2016 11:37

...

Koukám že RUIAN obsahuje formulář pro zasílání oprav [1]. Obsahuje tam ale vtipnou poznámku: "Návrhy na změny velikosti písmen budou zamítnuty automaticky." Co to sakra je?

to je přesně tohle: "Starší způsob psaní často odůvodňují tím, že změna by pro ně byla finančně náročná." - tu nahlášenou chybu musí někdo zpracovat ... sám jsi napsal, že je to v řádu deset tisíc jenom v Praze (a vůbec bych se nedivil, kdyby to bylo i tak trochu na truc vůči těm koninám, co jazykovědci vymýšlí) K.

signature.asc

Martin Hejna martin na ttkd.cz #maef825 7. 7. 2016 11:54

...
Koukám že RUIAN obsahuje formulář pro zasílání oprav [1]. Obsahuje tam ale vtipnou poznámku: "Návrhy na změny velikosti písmen budou zamítnuty automaticky." Co to sakra je?
to je přesně tohle: "Starší způsob psaní často odůvodňují tím, že změna by pro ně byla finančně náročná." - tu nahlášenou chybu musí někdo zpracovat ... sám jsi napsal, že je to v řádu deset tisíc jenom v Praze (a vůbec bych se nedivil, kdyby to bylo i tak trochu na truc vůči těm koninám, co jazykovědci vymýšlí) K.

Jako ... cekal bych, ze v RUIAN budou udaje v souladu se skutecnosti, tedy vcetne spravne velikosti pismen ('spravne' ve smyslu, jak to obec pojmenovala). Myslim, ze ta poznamka "Návrhy na změny velikosti písmen budou zamítnuty automaticky" znamena, ze obec nebude prejmenovavat ulici, nikoliv ze si RUIAN odmita opravit data. A pokud nazev ulice nekoresponduje s adresnim mistem v te ulici, tak je to chyba v datech, kterou muze RUIAN odhalit a opravit i automaticky. Martin Hejna