Toukokuu ja torrentit

Maanmittauslaitoksen aineistojen vapauttaminen toukokuussa suorastaan vaatii torrent-verkoston perustamista. Itse aloitin valmistelut investoimalla 96 euroa 500 gigan verkkokovalevyyn, jossa on sisäänrakennettu BitTorrent-ohjelma. Tein ensimmäisen testi-torrentin julkisesta itse tekemästäni Landsat-mosaiikista ja se löytyy täältä:
http://laillisettorrentit.net/index.php?page=torrent-details&id=b04ee8123dd8ca6bd6b2870b41d5a936c2362e13

Satelliittikuva sopii taustakartaksi ja ETRS-TM35FIN-projektiossa olevaksi vertailuaineistoksi moneen tarkoitukseen joten se kannattaa ladata muutenkin kuin kuorman kehittämiseksi. ECW-tiedostomuoto on nykyisin vähän hankala avoimen lähdekoodin GIS-ohjelmien käyttäjille, mutta OpenJUMP:in PLUS-versio, Kosmo GIS ja gvSIG avaavat sen ongelmitta. GDAL/OGR:ään perustuvat ohjelmat, kuten Quantum GIS, vaativat nykyisin ECW-laajennoksen asentamisen erikseen eikä siitä sen enempää. ECW:n muuntaminen muihin tiedostomuotoihin onnistuu vanhoilla GDAL-versioilla, jollaisen saa vaivattomasti käyttöön vanhoista FWTools-paketeista http://home.gdal.org/fwtools/

Torrenttien tekemisen MML:n aineistoista ei pitäisi olla mikään ihmeellisen suuri vaiva. Torrenttien koko olisi varmaan hyvä pitää alle 10 gigassa, mikä tarkoittaisi esimerkiksi ilmakuvilla sitä, että yhteen torrettiin tulisi yhden 1:100000 mittakaavan karttalehden kuvat eli 128 kappaletta. Oletus on, että kuvat tarjotaan pakattuina, jolloin yhden 6x6 kilometrin (12000x12000 pikseliä) ilmakuvan tiedostokoko olisi alle 100 megatavua. Jos tämä teoria pitää, niin ilmakuvatorrentteja tarvittaisiin 122 kappaletta. Kovin montaa tuollaista torrettia ei yhdeltä palvelimelta pysty syöttämään. Jotta homma ylipäätään toimisi, niin tarvittaisiin tusinan verran sitoutuneita torrentin syöttäjiä, jotka pitäisivät palvelimen auki yötä päivää. Jos syöttäjiä olisi sata, niin palvelu olisi varmasti mielettömän hyvä.

Kaikki MML:n vektorit mahtuvat yhteen torrenttiin ja rasterikarttoja varten tarvittaisiin ehkä kolme lisää.

Pystytäänkö me tähän?

Laitoin toisenkin torrentin syöttöön, muinaisesta geotorrent.org:sta peräisin olevan Euroopan Landsat-kuvan, josta kylläkin puuttuu suurin osa Suomea.

http://laillisettorrentit.net/index.php?page=torrent-details&id=d2c502c1aec3cce0180d92b31721597cbb523751

Torrent-idea ei tainnut herättänyt suurta innostusta, mutta ilman niitäkin varmasti pärjätään.
Laitoin kuitenkin vielä yhden uuden torrentin jakoon. Kyseessä on 38 gigatavun suuruinen 7-kanavainen Landsat-mosaiikki, jonka tein vuonna 2007 mutta jolle en sitten keksinyt mitään käyttöä. OSM:ssa kuvalle tuskin on mitään käyttöä, mutta jos joku sattuu tarvitsemaan vähän isompaa ja usempikanavaista testikuvaa niin siihen tarkoitukseen tuo mosaiikki on oikein hyvä. Kuvasta on tietoa täällä http://latuviitta.org/documents/Latuviitan_It%c3%a4meri-mosaiikki.pdf

Torrentteina on nyt saatavilla nämä kolme kuvaa:

Europe_Landsat742.ecw
Landsat-kanavat 7,4 ja 2.
Kuvakoko: 141970 x 141970 pikseliä
Pikselikoko 0,000256020461176 astetta
Tiedostokoko 1,8 Gt
http://laillisettorrentit.net/index.php?page=torrent-details&id=d2c502c1aec3cce0180d92b31721597cbb523751

LVSuomi742.ecw
Landsat-kanavat 7,4 ja 2.
Kuvakoko: 30148 x 47722 pikseliä
Pikselikoko 30 metriä
Tiedostokoko 750 Mt
http://laillisettorrentit.net/index.php?page=torrent-details&id=b04ee8123dd8ca6bd6b2870b41d5a936c2362e13

LV_Baltic-7.img
Landsat-kanavat 1,2,3,4,5,6(high gain) ja 7
Kuvakoko: 72156 x 78917 pikseliä
Pikselikoko 28,5 metriä
Tiedostokoko 38 Gt (pakkaamaton)
http://laillisettorrentit.net/index.php?page=torrent-details&id=47c661dd79900fabc5273864efbcdcae45817033

Nostan hattua tekemäsi työn vuoksi. Täytyy ottaa huomioon, että tällä keskustelupalstalla ei käydä kovinkaan usein, joten saattaa kestää jonkin aikaa, ennen kuin ehdotus saavuttaa riittävästi lukijoita. Kaikilla meillä ei ole omaa palvelinta, mutta käsittääkseni sekin vie asiaa eteenpäin, että lataa torrent tiedoston koneelle ja lataa sitä eteenpäin silloin kun oma kone on auki. Jos oikein muistan, niin torrenteissa ei haittaa vaikka jakaminen keskeytyisikin.

Näinhän se menee. Itsekin voin osallistua torrent-jakoon, kunhan data tulee ensin saataville.

Hep! torrenteille.

Minäkin voisin muutaman kymmenen gigaa varata muutaman torrentin hostaamiseen “fileserverilleni”, ehkä enemmänkin jos ja kun kerkiän lisäämään levytilaa…

Täällä myös yksi vapaaehtoinen pitämään torrentteja jaossa. Tuossahan ne taustalla pyörivät mukavasti.

Torrent-jakelun luulisi tekniikaltaan soveltuvan tarpeeseen oikein hyvin. Talkoissa mukana.

Jakamiseen olisi ehkä hyvä saada johonkin (wiki?) step-by-step ohjeet asennettavista ohjelmista ja tiedostoista, jotta kynnys osallistua olisi mahdollisimman matala.

Tässä pitkähkö kirjoitus pääsiäisten aikana kertyneiden torrent-kokemusten pohjalta. Kunhan se wiki-sivu on olemassa, niin tästä voisi kopioida sinne oleellisimmat osat taustatiedoksi. Jos ei jaksa lukea koko tekstiä, niin tässä yhteenveto:

  • Ilmakuvissa on liian paljon massaa jotta niitä kannattaisi ruveta jakelemaan kotikoneilta torrentteina.
  • Maastotietokanta sen sijaan on ihan siedettävän kokoinen ja todennäköisesti sen verran kiinnostava, että sen jakelu torrettina voisi toimia todella hienosti.
  • Koska MML on lisäksi päättänyt pilkkoa maastotietokannan noin 3018:aan erikseen ladattavaan palaseen, niin yhtenä noin 10 gigatavun suuruisena torrent-latauksena tuleva maastotietokanta olisi kaikille tehokäyttäjille paljon parempi vaihtoehto.
  • MML:n tiedostomuotovalikoima ei ole paras mahdollinen avoimen lähdekoodin paikkatietokäyttäjille, ja Spatialite-torrent toisi tälle käyttäjäjoukolle huimasti lisäarvoa.

Tästä alkaa pääsiäismuistioni.

Kotiliittymäni (8/1 Mbit/sek) nopeus näyttää olevan todellisuudessa
sitä mitä on luvattukin, ja torrenttien jakovauhti pysytteli
tasaisesti yli 100 kilotavun sekunnissa. Tasaisella vauhdilla
jakeluun lähti siis 6 Mt minuutissa, 360 Mt tunnissa ja 8640 Mt
vuorokaudessa. Kuitenkin koko kaistan antaminen torrenteille
haittasi toisinaan varsin paljon kaikkea muuta netin käyttöä. Käytännössä
tuskin kannattaa laskea jakeluvauhdiksi kuin korkeintaan puolet
noista luvuista.

Pääsiäisen aikaan Suomi-mosaiikki (630 Mt) haettiin 3 kertaa, Eurooppa-
mosaiikki (1,7 Gt) yhden kerran ja 7-kanavainen Itämeri-mosaiikki
(9,7 Gt) yhden kerran. Suomikuva meni lataajille perille ilmeisesti
noin tunnissa, koska sillä oli kaksi tai kolme muutakin jakajaa. Euroopan
lataaminen kesti varmaan vuorokauden ellei kauemminkin, ja Itämeren
satelliittikuvakoostetta sai ladata ainakin neljä vuorokautta.

Johtopäätökset eivät ole kovin yllättäviä. Torrentit toimivat sitä
paremmin mitä enemmän verkossa on jakajia. Yhdellä kotiliittymällä ei
mihinkään suuriin ihmeisiin pystytä ja kymmenen gigan tiedoston
ensimmäiseen jakoon kotikoneelta menee helposti viikko, jos rajoittaa
kaistanleveyttä ja sammuttaa koneen välillä. Toisaalta torrent-lataus
on todella luotettava, ja yhdeltäkin jakajalta saa tiedostot kerätyksi,
kunhan vaan jaksaa odottaa.

Kun ottaa tosiasiat huomioon niin on varmaan parasta unohtaa ilmakuva-
torrentit. Kotikoneella ei voisi kuitenkaan pitää kuin yhtä 10 gigan
pakettia jaossa, eikä ilmakuvat kuitenkaan niin paljon jaksa ketään
kiinnostaa, että torrentit lähtisivät koskaan kunnolla käyntiin.

Vektoreista sen sijaan kannattaisi ilman muuta rakentaa torrent.
Siinäkin tapauksessa, että Maanmittauslaitos keksisi tehdä sen itse,
niin tarjolle tulevien tiedostomuotojen rinnalle pitäisi saada yksi
avoimen lähdekoodin ohjelmille viritetty vaihtoehto. Nythän tarjolle
on tulossa GML, Mapinfo MIF ja shapefile.
http://www.maanmittauslaitos.fi/avoindata/hankinta

GML-tiedostomuoto on kaikille käyttäjille ja ohjelmille tasapuolinen,
sillä käytännössä GML on aina muunnettava johonkin
muuhun tiedostomuotoon ennen kuin sitä voidaan ylipäätään käyttää mihinkään
hyödylliseen. Muunnos sinänsä on nopeaa ja onnistuu GDAL:in ogr2ogr-ohjelmalla.
Mapinfo MIF:iin pätee sama, paitsi että jos sattuu olemaan Mapinfo
käytössä, niin MIF:it voidaan muuntaa sillä automaattisesti
TAB-muotoon ja sen jälkeen käyttö Mapinfolla on tehokasta. Millään
avoimen lähdekoodin ohjelmalla ei Mapinfon tiedostoja voi muokata,
mutta lukeminen ja muunnokset kyllä onnistuvat MITAB-kirjaston ansiosta esimerkiksi
GDAL:lla.

Hyvin monet avoimen lähdekoodin paikkatieto-ohjelmat tukevat shapefile-
muotoa ja myös niiden muokkaaminen on mahdollista. Siitä syystä
shapefilejä ei olisi pakko muuntaa ollenkaan toisiin tiedostomuotoihin.
Käytännössä se voi silti olla järkevää. Maastotietokanta aiotaan
nimittäin ensinkin pilkkoa 12x12 kilometrin ruutuihin
http://www.maanmittauslaitos.fi/node/9999
Tämä puolestaan merkitsee sitä, että ladattavaa kertyy noin 3018 yksikköä
(2 x lehti_25t tiedostossa
http://latuviitta.org/documents/ETRS-TM35FIN_karttalehtitietokanta.pdf))

GML-tiedostomuotoa käytettäessä koko maan kattamiseen tarvitaan sama
määrä tiedostoja eli 3018 kappaletta. MIF-tiedostot ovat todellisuudessa
aina MIF/MID -tiedostopari, joten levylle purettuna tiedostoja tulee
olemaan yhteensä reilut 6000 kappaletta. Shapefile-muoto räjäyttää potin
tiedostojen määrässä, sillä ensinkin shapefile on aina vähintään kolmen
tiedoston nippu (.shp, .shx ja .dbf). Lisäksi shapefile ei myöskään
voi sisältää kuin vain joko pisteitä, viivoja tai alueita. Siitä
syystä yhden karttalehden lataus shapefile-muodossa purkautuu 9:ksi
erilliseksi tiedostoksi ja 3000:sta karttalehteä varten tarvitaan liki
30000 erillistä tiedostoa, mikä ei ole ollenkaan kätevää.

Muutaman vuoden takainen maastotietokanta näyttää olevan zipattuina
shapefileinä noin 9,5 gigatavua, eli ei mitenkään mahdottoman paljon.
Minusta kokeilemisen arvoinen ja realistinen tapa saada vektorijakeluun
vauhtia ja tehdä maastotietokannasta erityisen hyvin avoimen lähdekoodin
ohjelmille sopiva setti olisi koota ensiksikin MIF/MID -muodossa 1:200000
karttalehtien kokeisia zip-paketteja (38 kappaletta) ja laittaa ne saataville
torrentteina tai FTP:n kautta. Kun kaikki vektorit olisivat koossa, niin
ne ajettaisiin yhteen Spatialite-tietokantaan, johon tehtäisiin valmiiksi
muutama tärkein indeksi (spatiaali-indeksiä ja tavallinen indeksi “luokka”-nimiselle
ominaisuudelle on useimmin tarpeen). Tätä Spatialite-kantaa voisi sellaisenaan käyttää
erinomaisen tehokkaasti Quantum GIS -ohjelmalla, Mapserverillä ja Mapnikilla,
ja kohtuullisen hyvin myös OpenJUMP:lla. GDAL:lla voitaisiin sitten tehdä
muunnokset muihin formaatteihin ja tietokantoihin, kuten PostGIS:iin tai
Oracleen. Kyseessä ei siis olisi Maanmittauslaitoksen tietojen kopiointi
vaan jalostaminen tehokkaammin ja monipuolisemmin käytettävään muotoon.
Mahdollisesti OSM:iin vietävien kohteiden irrotus maastotietokannasta
on sitten jo varsin helppoa tehdä Spatialite-kannasta.

Nyt on reilu viikko aikaa datan avautumiseen. Minulle on jäänyt epäselväksi, minkälaisessa muodossa avattava data oikein tarkalleen on.
Onko se helposti heitettävissä Garmin-gpslaitteisiin?

Maanmittauslaitoksella on hyvä sivusto aiheesta http://www.maanmittauslaitos.fi/avoindata.
Toimitusmuodot ilmoitetaan sivulla http://www.maanmittauslaitos.fi/avoindata/toimitusformaatit

Tietoja ei ole helppo heittää Garmin-laitteisiin, mikä johtuu siitä, että Garminin tiedostomuoto ei ole julkinen. Aiheesta löytää kyllä paljon lukemista esimerkiksi hakusanoilla “shapefile” ja “Garmin”. Todennäköisesti ajan mittaan syntyy esimerkiksi wiki-sivusto, jossa esitetään toimivia menetelmiä maastotietojen muuntamiseksi ja viemiseksi erilaisille laitteille ja eri ohjelmistoihin.

Koska OSM-tiedostomuodosta Garmin-kartoiksi on olemassa valmiita, dokumentoituja menetelmiä, niin nopeiten käyttöönotettava tie MML:n vektoreista Garmineihin saattaa kulkea OSM-tiedostomuodon kautta. Tietoja ei ole pakko viedä OSM-tietokantaan, kunhan ne saadaan ensin muunnetuksi OSM-XML -muotoon. Tätäkin varten kaivataan ohjeita ja mallisuorituksia.

Kuka oikein päättää siitä, mitä tietoja OSM:ään viedään? Jos pääosa datasta päätettäisiin lykätä OSM:ään, niin onhan näitä palveluita, jotka automaattisesti tekevät OSM:stä Garmin-kartan.
Tosin minulla ei nimenomaan ole harmainta aavistustakaan, mitä importattavien tietojen joukkoon kuuluu.

Olen tehnyt tuosta MML:n aineistosta tilauksen, joten saan jossain vaiheessa käsiini maastotietokannan vektorit ja peruskarttarasterin. Molemmat voidaan sitten laittaa torrent-jakoon, ehkä nopeammin kuin lataamalla MML:n verkkopalvelusta.

Maastotietokannan osien siirto osaksi OSM on edelleen suunnitteilla. Juuri nyt ajelen Corine-aineistoa kuntoon, samaa prosessia olen ajatellut käyttää MML:n aineiston ajamiseen. Käsiä tässä tarvitaan lisää, erityisesti jälkitöihin. Kaikkea ei voi automatisoida.

Onko kokemuksia tuommoisista Torrent-palveluista? http://pulsedmedia.com/1gbps-seedbox-2012.php

Ei ole, mutta tuolla laillisettorrentit.net:llä näyttää olevan oma seedbox käytössä, mikä oli iloinen yllätys. Seurasin yhtä Europe Landsat -latausta ja seedbox syötti ainakin 90 prosenttia datasta ja minun kotikoneeni loput.

Oikein hieno juttu. Verkkopalvelusta lataamista täytyy toki sitäkin harjoitella vaikka vain maineen kasvattamiseksi, ja 1:50000 rasterit ovat siihen tarkoitukseen passelin kokoinen aineisto. Ei valtavan suuri mutta ei pienen pienikään, reilut 400 karttalehteä joiden keskikoko lienee noin 15 megaa. Tein jo valmiiiksi karttapohjan, josta voi seurata keräilyn edistymistä
http://188.64.1.61/cgi-bin/mml_avoindata?mode=map&layers=rasteri_50t

Tuo 1:50t kartta on aika hauskan näköinen. Vastapainoksi verkkopalveluille ja laatoille olen vähän ajatellut, että kokoan tuon aineiston yhdeksi tiedostoksi johonkin sellaiseen muotoon, jota voi käyttää kivasti jollain avoimen lähdekoodin GIS-ohjelmalla. Luultavasti joudun tekemään sekä JPEG2000- että Rasterlite-versiot. Ja lisäksi superhelppoon WMS:ään täytyy tehdä tiffejä sellaisenaan hyödyntävä tileindex+mapfile -yhdistelmä. Tästä viimeisestä lienee OSM:ssa eniten hyötyä, sillä WMS:ää voi sitten käyttää suoraan OSM:ssa ja vielä mukavammin Merkaartorissa. Ja tileindex+mapfile toimiii myös posikin peruskarttarastereilla.

Maastotietokannan vektorit minä laittaisin varmaankin Spatialiteen. Jos tarkoituksena olisi saada nopein mahdollinen jakelu tehokäyttäjille niin sitten pitäisi värkätä PostgreSQL-dumppi, mutta se ei ole ollenkaan kätevä mihinkään muuhun käyttöön.

Net, jotka haluavat olla mukana jakamassa MML:n aineistoja Torrentin avulla: olkaa kuulolla OSM-FI IRC-kanavalla illalla ja/tai lukekaa tätä listaa.

Koetamme saada ensimmäiset aineistot jakeluun asap. Kun tuo MML:n palvelu tullee olemaan ylikuormassa joka tapauksessa.

Ei tullut aineistoja, joten torrentien rakentaminen myöhästyy 24 tuntia :frowning:

Hauska seurata, että homma toimii käytännössä vielä paljon paremmin kuin etukäteen kuvittelin. Nyt 6,5 tuntia maastotietokantatorrentin valmistumisen jälkeen se on ladattu jo 20 kertaa ja yli 30 latausta on menossa. Latausvauhti on paljon parempi kuin kuvittelin, joukossa on ilmeisesti väkeä jolla on kaistanleveyttä ulos selvästi enemmän kuin se 1 Mb/sek, minkä mukaan tein alustavia laskelmia. Ja oman latauksensa valmiiksi saaneilla näyttää olevan myös hyvä moraali pysytellä mukana jakamassa.

Tehkäähän muistiinpanoja ensimmäisten päivien aktiivisuudesta, tuloksista saa varmasti aikaan esitelmiä ja postereita ja miksei myös kirjallistakin julkaistavaa muuallekin kuin OSM-wikiin. En usko että vastaavista kokeiluista löytyy paljon aikaisempia esimerkkejä muualta maailmasta. Esimerkiksi latausten yhteismäärä päivittäin klo 11 antaa hyvää tietoa minkä perusteella voi laskea, olisiko vastaava kuorma tukkinut MML:n linjat. Juuri tällä hetkellä näyttää karkean arvion mukaan siltä, että tarvittaisiin yli 100 megan linja voittamaan torrenttimme. Itse en ehkä pääse näkemään kuinka tämä etenee ennen kuin maanantaina. Silloin onkin ehkä uusi 30 gigan maastokarttapaketti latausvuorossa.

Gispon investointi aineiston hankintaan ja seedboxiin on säästänyt paljon aikaa ja vaivaa, ja vaikka nyt jääkin arvoitukseksi, olisiko näiden aineistojen keruu MML:n sovelluksesta onnistunut talkootyönä, niin eipä tuo jää pahasti harmittamaan.

Nyt tiedän miten tämä ihan oikeasti tehdään. Meni siis muutama päivä, oikeasti tuo vie muutaman tunnin, kun puristetaan aikataulua kuntoon…

Jos nyt enää tulee koskaan tarvetta :wink:

Kun tässä saan vielä muut tukevat materiaalit kuntoon, niin rupean sitten huutelemaan tuonne muuallekin ja lataajia tulee taas lisää…