Jak porovnavat OSM XML (zeleznicni stanice a zast) na Talk-cz

hanoj ehanoj na gmail.com #mee2d0c 4. 1. 2011 10:52

Ahoj, rad bych udelal vzajemnou korekturu techto dvou zdroju o zeleznicnich stanicich: osm[1] a wikipedie[2], tj. predevsim prenos evidencnich cisel, korekce nazvu, duplicity atd... Mate nejaky postup/nastroj jak potom tyto dva zdroje efektivne porovnavat/upravovat? Pracovat s XSLT moc neumim a je to malo interaktivni (takova excel tabulka uz tu interaktivitu i jistou miru automatizace ma, ale ztraci se cast dat OSM)... Nevim, poradite? hanoj [1] http://www.informationfreeway.org/api/0.6/*%5Brailway=halt|station%5D%5Bbbox=12,48,19,51 [2] http://cs.wikipedia.org/wiki/Seznam_%C5%BEelezni%C4%8Dn%C3%ADch_stanic_v_%C4%8Cesku

Petr Dlouhý petr.dlouhy na email.cz #ma6956f 4. 1. 2011 11:02

Ahoj, kdybych to chtěl udělat rychle a jednoduše tak bych z Wikipedie udělal čistý seznam (číslo, jméno na každém řádku) zastávek, a to samé se pokusil vygenerovat z OSM XML (pomocí XSLT, nebo SEDu, případně by to možná šlo v textovém editoru jen pomocí funkcí nahrazování). Potom už stačí použít sort (nebo seřazení v tabulkovém procesoru) a diff (vimdiff).

Frettie frettie na gmail.com #m1bf99b 4. 1. 2011 11:22

No, z wikipedie se to buď dá vytáhnout z nějakého dumpu dat (dá se stáhnout, ale je opruz s ním pracovat) nebo to grabovat přímo z wikipedie (např. pomocí nějakého bota, viz Wikipedia:Bots na en wiki), ale i to je opruz. J. 2011/1/4 Petr Dlouhý <petr.dlouhy na email.cz>:

Ahoj, kdybych to chtěl udělat rychle a jednoduše tak bych z Wikipedie udělal čistý seznam (číslo, jméno na každém řádku) zastávek, a to samé se pokusil vygenerovat z OSM XML (pomocí XSLT, nebo SEDu, případně by to možná šlo v textovém editoru jen pomocí funkcí nahrazování). Potom už stačí použít sort (nebo seřazení v tabulkovém procesoru) a diff (vimdiff).
Ahoj, rad bych udelal vzajemnou korekturu techto dvou zdroju o zeleznicnich stanicich: osm[1] a wikipedie[2], tj. predevsim prenos evidencnich cisel, korekce nazvu, duplicity atd... Mate nejaky postup/nastroj jak potom tyto dva zdroje efektivne porovnavat/upravovat? Pracovat s XSLT moc neumim a je to malo interaktivni (takova excel tabulka uz tu interaktivitu i jistou miru automatizace ma, ale ztraci se cast dat OSM)... Nevim, poradite? hanoj [1] http://www.informationfreeway.org/api/0.6/*%5Brailway=halt|station%5D%5Bbbox=12,48,19,51 [2] http://cs.wikipedia.org/wiki/Seznam_%C5%BEelezni%C4%8Dn%C3%ADch_stanic_v_%C4%8Cesku

-- S pozdravem, Jirka Sedláček --- jirisedlacek na gmail.com

hanoj ehanoj na gmail.com #mdf016f 4. 1. 2011 11:29

kdybych to chtěl udělat rychle a jednoduše tak bych z Wikipedie udělal čistý seznam (číslo, jméno na každém řádku) zastávek, a to samé se pokusil vygenerovat z OSM XML (pomocí XSLT, nebo SEDu, případně by to možná šlo v textovém editoru jen pomocí funkcí nahrazování).

*** to bych si dokazal predstavit, mas na neco takoveho mustr?

Potom už stačí použít sort (nebo seřazení v tabulkovém procesoru) a diff (vimdiff).

*** ale jak efektivne tento vysledek tj. diff nebo upravenou tabulku vratit do vychoziho zdroje? Do wiki je to snadne, ale do OSM XML? diky hanoj

Frettie frettie na gmail.com #mf810f1 4. 1. 2011 11:46

2011/1/4 hanoj <ehanoj na gmail.com>:

kdybych to chtěl udělat rychle a jednoduše tak bych z Wikipedie udělal čistý seznam (číslo, jméno na každém řádku) zastávek, a to samé se pokusil vygenerovat z OSM XML (pomocí XSLT, nebo SEDu, případně by to možná šlo v textovém editoru jen pomocí funkcí nahrazování).
*** to bych si dokazal predstavit, mas na neco takoveho mustr?
Potom už stačí použít sort (nebo seřazení v tabulkovém procesoru) a diff (vimdiff).
*** ale jak efektivne tento vysledek tj. diff nebo upravenou tabulku vratit do vychoziho zdroje? Do wiki je to snadne, ale do OSM XML?

Z pole?

Petr Dlouhý petr.dlouhy na email.cz #m230893 4. 1. 2011 11:47

kdybych to chtěl udělat rychle a jednoduše tak bych z Wikipedie udělal čistý seznam (číslo, jméno na každém řádku) zastávek, a to samé se pokusil vygenerovat z OSM XML (pomocí XSLT, nebo SEDu, případně by to možná šlo v textovém editoru jen pomocí funkcí nahrazování).
*** to bych si dokazal predstavit, mas na neco takoveho mustr?

Jo, něco mám. Posílám XSLT, které používám ke kontrole duplicit mezi cyklotrasami - vygeneruje seznam "ref" cyklistických tras. Neměl by to být problém upravit: <xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method="text" indent="no"/> <xsl:template match="/osm"> <xsl:apply-templates select="relation"> <xsl:sort select="@id" data-type="number"/> </xsl:apply-templates> </xsl:template> <xsl:template match="relation[tag/@v = 'bicycle']"> <xsl:value-of select="tag[@k = 'ref']/@v"/> <xsl:text>
</xsl:text>  </xsl:template> <xsl:template match="*"> </xsl:template> </xsl:stylesheet>

Potom už stačí použít sort (nebo seřazení v tabulkovém procesoru) a diff (vimdiff).
*** ale jak efektivne tento vysledek tj. diff nebo upravenou tabulku vratit do vychoziho zdroje? Do wiki je to snadne, ale do OSM XML?

Asi by neměl být problém vygenerovat seznam zastávek, které mají stejné číslo, ale jmenují se jinak (nebo naopak stejná jména a jiná čísla). Případně zastávek, které v jednom ze seznamů chybí. Nebo také seznam zastávek u kterých v OSM chybí číslo, ale dají se najít ve Wiki podle jména. Neznám lepší způsob, než potom z daného seznamu vygenerovat OSM XML s danými změnami, nejlépe asi pomocí XSLT.

On Tue, 04 Jan 2011 11:29:54 +0100, hanoj <ehanoj na gmail.com> wrote:

kdybych to chtěl udělat rychle a jednoduše tak bych z Wikipedie udělal čistý seznam (číslo, jméno na každém řádku) zastávek, a to samé se pokusil vygenerovat z OSM XML (pomocí XSLT, nebo SEDu, případně by to možná šlo v textovém editoru jen pomocí funkcí nahrazování).
*** to bych si dokazal predstavit, mas na neco takoveho mustr?

Jo, něco mám. Posílám XSLT, které používám ke kontrole duplicit mezi cyklotrasami - vygeneruje seznam "ref" cyklistických tras. Neměl by to být problém upravit: <xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method="text" indent="no"/> <xsl:template match="/osm"> <xsl:apply-templates select="relation"> <xsl:sort select="@id" data-type="number"/> </xsl:apply-templates> </xsl:template> <xsl:template match="relation[tag/@v = 'bicycle']"> <xsl:value-of select="tag[@k = 'ref']/@v"/> <xsl:text>
</xsl:text>  </xsl:template> <xsl:template match="*"> </xsl:template> </xsl:stylesheet>

Potom už stačí použít sort (nebo seřazení v tabulkovém procesoru) a diff (vimdiff).
*** ale jak efektivne tento vysledek tj. diff nebo upravenou tabulku vratit do vychoziho zdroje? Do wiki je to snadne, ale do OSM XML?

Asi by neměl být problém vygenerovat seznam zastávek, které mají stejné číslo, ale jmenují se jinak (nebo naopak stejná jména a jiná čísla). Případně zastávek, které v jednom ze seznamů chybí. Nebo také seznam zastávek u kterých v OSM chybí číslo, ale dají se najít ve Wiki podle jména. Neznám lepší způsob, než potom z daného seznamu vygenerovat OSM XML s danými změnami, nejlépe asi pomocí XSLT.

diky hanoj _______________________________________________ Talk-cz mailing list Talk-cz na openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Tomáš Tichý t.tichy na post.cz #mf4f267 4. 1. 2011 15:17

Ahoj, železniční stanice a zastávky generuji čas od času na tuhle stránku: http://wiki.openstreetmap.org/wiki/%C5%BDelezni%C4%8Dn%C3%AD_stanice_a_zast%C3%A1vky_v_%C4%8CR Porovnávání dělám jen podle názvů stanic, čísla by se dala doplnit. Používám na to přiložený pythoní skript. Je to jenom taková rychlovka, ale třeba se bude někomu hodit. Jinak pozor na Wikipedii, jsou tam i neexistující stanice a zastávky, takže je vždycky lepší používat více zdrojů. TT

osmstations.py

hanoj ehanoj na gmail.com #mb035a7 5. 1. 2011 12:39

Diky vsem za rady, zkusim si s tim o vejkendu pohrat. hanoj 2011/1/4 Tomáš Tichý <t.tichy na post.cz>: