Sąvokos

TGIĮ

Teisės gauti informaciją ir duomenų pakartotinio naudojimo įstatymas.

Šis įstatymas įpareigoja valstybės ir savivaldybių institucijas ir joms pavaldžius subjektus atverti duomenis.

Kelios citatos iš įstatymo:

4 straipsnis

1. Institucijos ir valstybės valdomi subjektai privalo teikti pareiškėjams ar jų atstovams duomenis, įskaitant pakartotiniam naudojimui skirtus duomenis, išskyrus šio įstatymo ir kitų įstatymų nustatytus atvejus.

15 straipsnis

1. Visi institucijos ar valstybės valdomo subjekto duomenys turi būti inventorizuoti laikantis principo, kad duomenys gali būti skelbiami pakartotinai naudoti, jeigu tai neprieštarauja šiam ir kitiems įstatymams. Inventorizuotų duomenų sąrašas turi būti skelbiamas Lietuvos atvirų duomenų portale.

2. Institucijos ir valstybės valdomi subjektai turi sudaryti duomenų, dėl kurių yra pateiktos užklausos Lietuvos atvirų duomenų portale arba kurių pakartotinis naudojimas, institucijos ir valstybės valdomo subjekto vertinimu, gali kurti pridėtinę vertę, rinkinius ir juos skelbti šiame portale, jeigu tai neprieštarauja šiam ir kitiems įstatymams.

17 straipsnis

1. Lietuvos atvirų duomenų portalas yra valstybės informacinė sistema, skirta duomenų rinkiniams ir jų metaduomenims sisteminti ir skelbti naudojant vienodą metaduomenų aprašymo formatą, taip pat vieno langelio principu institucijų ir valstybės valdomų subjektų sudarytiems duomenų rinkiniams ir jų metaduomenims ieškoti, peržiūrėti, parsisiųsti, pareiškėjų užklausoms registruoti ir kitoms paslaugoms, susijusioms su šios informacinės sistemos paskirtimi, teikti.

5. Institucijos ir valstybės valdomi subjektai privalo užtikrinti, kad inventorizuotų duomenų sąrašai ir sudaryti duomenų rinkiniai Lietuvos atvirų duomenų portale bus surasti ir pasiekiami šio portalo tvarkytojo nustatyta tvarka ir priemonėmis.

18 straipsnis.

Pareiškėjo teisės gali būti ginamos šiais būdais:

1) pareiškėjas turi teisę apskųsti institucijos veiksmus, neveikimą ar administracinį sprendimą, taip pat institucijos vilkinimą atlikti jos kompetencijai šiuo įstatymu priskirtus veiksmus Viešojo administravimo įstatymo nustatyta tvarka;

2) pareiškėjas turi teisę apskųsti valstybės valdomo subjekto veiksmus ar neveikimą, taip pat valstybės valdomo subjekto vilkinimą atlikti jo kompetencijai šiuo įstatymu priskirtus veiksmus tam pačiam valstybės valdomam subjektui arba bendrosios kompetencijos teismui.

Europos sveikumo karkasas

Rekomendacijų rinkinys apie tai, kaip užtikrinti didesnį skaitmeninį sveikumą tarp Europos šalių.

Rekomendacijų sąrašas:

2. Publish the data you own as open data unless certain restrictions apply.

3. Ensure a level playing field for open source software and demonstrate active and fair consideration of using open source software, taking into account the total cost of ownership of the solution.

41. Establish procedures and processes to integrate the opening of data in your common business processes, working routines, and in the development of new information systems.

42. Publish open data in machine-readable, non-proprietary formats. Ensure that open data is accompanied by high quality, machine-readable metadata in non-proprietary formats, including a description of their content, the way data is collected and its level of quality and the licence terms under which it is made available. The use of common vocabularies for expressing metadata is recommended.

43. Communicate clearly the right to access and reuse open data. The legal regimes for facilitating access and reuse, such as licences, should be standardised as much as possible.

44. Put in place catalogues of public services, public data, and interoperability solutions and use common models for describing them.

45. Where useful and feasible to do so, use external information sources and services while developing European public services.

atvirų duomenų direktyva

2019 m. birželio 20 d. Europos Parlamento ir Tarybos direktyva (ES) 2019/1024 dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo.

duomenų valdymo aktas

2020 m. lapkričio 25 d. Europos Parlamento ir Tarybos reglamento (ES) pasiūlymas 2020/0340 dėl Europos duomenų valdymo (Duomenų valdymo aktas).

aplinkos kintamasis

Angliškai tai vadinama environment variables, tai yra operacinės sistemos aplinkos kintamieji.

Plačiau apie tai skaitykite Vikipedijoje.

ADP

Atvirų duomenų portalas, sudarytas iš atvirų duomenų katalogo ir duomenų saugyklos.

ADK

Lietuvos atvirų duomenų katalogas, prieinamas adresu data.gov.lt.

ADS

Atvirų duomenų saugykla, skirta pakartotinio panaudojimo duomenų publikavimui, valstybinė atvirų duomenų saugykla pasiekiama get.data.gov.lt adresu.

DSA

Duomenų struktūros aprašas yra lentelė, kurioje išsamiai aprašyta tam tikro duomenų šaltinio duomenų struktūra. DSA lentelę sudaro penkios dimensijos (duomenų rinkinys, resursas, bazė, modelis, savybė) ir dešimt metaduomenų stulpelių.

ADSA

DSA lentelė, kurioje aprašomi jau atverti ir viešai prieinami duomenys.

ŠDSA

DSA lentelė, kurioje aprašoma neatvertų, pirminio duomenų šaltinio duomenų struktūra.

didelės vertės duomenys
aukštos vertės duomenys

Duomenys apibrėžti atvirų duomenų direktyvos 5 skyriuje.

Aukštos vertės duomenų sritys yra šios:

  • Geoerdviniai duomenys

  • Aplinka ir žemės stebėjimai

  • Meteorologiniai duomenys

  • Statistika (demografiniai ir ekonominiai rodikliai)

  • Įmonės ir įmonių savininkai

  • Judumas

BDAR

2016 m. balandžio 27 d. Europos Parlamento ir Tarybos reglamentas (ES) 2016/679 dėl fizinių asmenų apsaugos tvarkant asmens duomenis ir dėl laisvo tokių duomenų judėjimo ir kuriuo panaikinama Direktyva 95/46/EB (Bendrasis duomenų apsaugos reglamentas).

duomenų serializavimo formatas

Duomenys gali būti serializuojami įvairiais formatais, pavyzdžiui YAML formatu:

type: project
title: Manifestas

JSON formatu:

{"type": "project", "title": "Manifestas"}

Turtle formatu:

@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
<http://atviriduomenys.lt> a foaf:Project;
    rdfs:label "Manifestas" .

MessagePack dvejetainiu formatu, kurio turinys pateiktas naudojant BASE64 koduotę:

gqR0eXBlp3Byb2plY3SkbmFtZapNYW5pZmVzdGFz

Visuose šiuose pavyzdžiuose yra pateikti tie patys duomenys, tačiau naudojami skirtingi duomenų serializavimo formatai, koduotės ir skirtingi žodynai.

brandos lygis

Duomenų brandos lygiai yra apibrėžti 5 ★ Open Data svetainėje. Viso yra penki brandos lygiai, tačiau papildomai verta įtraukti ir nulinį brandos lygį, kai duomenų poreikis yra, tačiau duomenys nekaupiami arba negali būti publikuojami dėl teisinių ar kitų apribojimų.

5 ★ Open Data svetainėje brandos lygia apibrėžti, kaip pavyzdį nurodant formatus. Nors formatus galima naudoti kaip pavyzdį labai abstrakčiai apibūdinant ką reiškia brandos lygiai, tačiau tikslus brandos lygis gali būti suteiktas tik atskiriems duomenų laukams, o ne formatui.

Duomenų brandos lygiai yra tokie:

0

Duomenys nekaupiami, tačiau poreikis tokiems duomenims yra. Gali būti ir tokių atvejų, kai duomenys yra kaupiami, tačiau dėl teisinių ar kitų priežasčių negali būti publikuojami.

1

Duomenys kaupiami ir publikuojami viešai, bet kokia forma ir bet kokiu formatu. Pavyzdžiui datos tipo laukas gali būti pateikiamas įvairiais formatais „Pirmadienis“, „2021 gegužės 10 d.“, „5/10/21“ ir pan. Kadangi šiuo atveju data gali būti užrašyta bet kokia forma ir bet kokiu tikslumu, nėra galimybės automatinėmis priemonėmis patikimai nuskaityti tokių duomenų.

2

Publikuojami duomenys turi aiškią, mašininiu būdu nuskaitomą struktūrą, tačiau pateikiami nestandartinių arba nuosavybiniu formatu. Pavyzdžiui datos tipo lauko duomenys pateikiami nestandartiniu formatu, tačiau visos reikšmės pateiktos naudojant tą patį formatą, „5/10/21“, „6/10/21“ ir pan. Šiuo atveju, automatiškai nuskaityti tokius duomenis įmanoma tik papildomai įgyvendinant duomenų nuskaitymo priemones, kuriose yra įgyvendintas būtent tokio nestandartinio formato duomenų skaitymas.

3

Duomenys pateikiami naudojant standartinį formatą. Lietuvos atvirų duomenų kontekste, standartiniai formatai yra apibrėžti duomenų struktūros aprašo specifikacijoje. Pavyzdžiui datos tipo lauko duomenys pateikiami standartiniu ISO 8601 formatu. Kadangi duomenys yra pateikti standartiniu formatu, pačio formato specifikacija yra atvira ir viešai publikuojama, o duomenų nuskaitymo priemonės tokį atvirą formatą palaiko, todėl tokių duomenų nuskaitymui nereikia įdėjo jokio papildomo darbo.

4

Kiekvienas publikuojamų duomenų objektas turi unikalų identifikatorių ir naudojant tokius unikalius objektų identifikatorius, skirtingų tipų objektai siejami tarpusavyje. Kartu su duomenimis pateikiami ir metaduomenys apie tai, kaip skirtingų tipų objektai siejasi tarpusavyje.

Pavyzdžiui miesto tipo objektui „Vilnius“ yra suteiktas unikalus identifikatorius 6868eca7-0ae1-4390-83d0-7af642a62863, o šalies tipo objekto „Lietuva“ duomenų lauko „sostinė“ reikšmė yra objekto „Vilnius“ unikalus identifikatorius 6868eca7-0ae1-4390-83d0-7af642a62863.

Turint tokį brandos lygį, duomenis galima ne tik nuskaityti, bet ir jungti tarpusavyje, o jungiant skirtingus duomenis tarpusavyje atsiveria daugiau galimybių juos naudoti įvairiuose taikymuose.

5

Kartu su publikuojamais duomenimis, pateikiami ir metaduomenys apie tai, kaip publikuojami duomenys siejasi su kitais viešaisiais duomenų žodynais (ontologijomis). Pavyzdžiui datos duomenų laukas yra susiejamas su „Dublin Core Metadata Initiative“ publikuojama ontologija, nurodant, kad datos lauko semantinė prasmė yra tokia pati, kaip apibrėžta dcterms:created ontologijoje. Šiuo atveju, nurodoma, kad datos laukas būtent yra tam tikro resurso sukūrimo data.

Kai duomenys yra susieti su išoriniais žodynais, atsiranda galimybė įgyvendinti tokias priemones, kurios veiktų universaliai, nepriklausomai nuo duomenų šaltinio ar duomenų kilmės.

kanoniniai duomenys

Kanoniniai duomenys yra tarsi duomenų etalonas, kuris nusako kokios duomenų reikšmės yra teisingos. Pavyzdžiui įmonės pavadinimas gali būti užrašomas įvairiausiomis formomis, pavyzdžiui:

Įmonės kodas

Įmonės pavadinimas

-

UAB "Duomesta"

-

UAB „Duomesta“

-

Duomesta

-

DUOMESTA

-

Uždaroji akcinė bendrovė Duomesta

-

Duomesta, UAB

-

DSTA UAB

Jei duomenų rinkinyje nėra pateiktas įmonės registracijos kodas, tada unikaliai identifikuoti įmonę yra gan sudėtinga.

Tačiau turint autoritetingus kanoninius duomenis:

Įmonės kodas

Įmones pavadinimas

111111111

UAB "Duomesta"

Užduotis unikaliai identifikuoti įmonę pasidaro paprastesnė. Todėl kanoniniai duomenys yra labai svarbūs.

kodinis pavadinimas

Pavadinimas, kuriam keliami tam tikri apribojimai.

manifestas

Atvirų duomenų manifestas yra DSA lentelių rinkinys, kuriuose aprašyti duomenų šaltiniai ir juose esančių duomenų struktūra.

Žodis manifestas yra kilęs iš programavimo srityje naudojamo termino Manifesto failas, kuriame pateikiami metaduomenys apie programinio paketo sandarą.

Duomenų kontekste, žodis manifestas turėtu būti suprantamas, kaip metaduomenų lentelė apie įvairiuose duomenų šaltiniuose publikuojamus duomenis.

metaduomenys

Duomenys apie duomenis yra vadinami metaduomenimis. Pavyzdžiui duomenų struktūros aprašas konkrečiam CSV duomenų failui gali būti vadinamas CSV failo metaduomenimis.

normalizavimas

Duomenų normalizavimas yra duomenų struktūros transformavimo procesas taikant taip vadinamas normalines formas, tam kad sumažinti duomenų pasikartojimą.

Plačiau apie tai skaitykite Vikipedijoje.

prieigos taškas

Prieigos taškas yra REST API terminas, nurodantis URL kelio dalį iki tam tikro resurso.

Plačiau skaitykite Vikipedijoje.

REST API

Representational State Transfer (REST) yra taisyklių ir rekomendacijų rinkinys sirtas web servisams kurti.

Plačiau skaitykite Vikipedijoje.

web servisas

Web servisas yra interneto paslauga skirta automatizuotiems robotams. Interneto svetainės dažniausiai yra skirtos žmonėms, tačiau web servisai yra skirti mašioms, kurios gali komunikuoti viena su kita.

Plačiau skaitykite Vikipedijoje.

YAML

YAML yra duomenų serializavimo formatas, kuris skirtas ne tik mašininiam skaitymui, bet su šio formato turiniu tiesiogiai gali dirbti ir žmogus. YAML formato pavyzdys:

container:
  name: value

YAML yra sukurtas JSON formatu pagrindu, siekant palengvinti darbą su JSON serializuotais duomenimis žmonėms. Analogiškas pavyzdys JSON formatu atrodo taip:

{"container": {"name": "value"}}
viešasis žodynas

Viešieji žodynai, dar vadinami ontologijomis, šie žodynai dažnai yra gerai dokumentuoti ir skelbiami viešai, jie yra skirti globaliam susietųjų duomenų tinkui kurti (angl. linked data).

sisteminis pavadinimas

Sisteminis pavadinimas yra naudojamas objektų identifikavimui ir yra naudojamas URL nuorodose ir visur kitur, kure reikia nurodyti ryšį su objektų, naudojamas to objekto sisteminis pavadinimas.

Sisteminis pavadinimas sudaromas tik iš lotyniškų raidžių ir -_/ simbolių.

pirminis duomenų šaltinis

Įstaigos ar kitos organizacijos pagrindinis duomenų šaltinis.

DCAT

Duomenų katalogo žodynas (angl. Data Catalog Vocabulary) yra standartas skirtas duomenų rinkiniams aprašyti. Aprašant duomenis DCAT standartu reikėŧų vadovautis DCAT-AP specifikacijomis.

DCAT-AP

DCAT-AP (DCAT Application Profile) yra specifikacija, detalizuojanti DCAT naudojima, nurodant kurios DCAT klasės ir savybės yra privalomos, kurios rekomenduojamos ir kaip jas naudoti.

dimensija

Dimensija yra metaduomenų, aprašomų DSA lentelėje, grupė. DSA lentelėje metaduomenys skirstomi į tokias dimensijas:

  • duomenų rinkinys

  • resursas

  • bazė

  • modelis

  • savybė

Kiekviena dimensija turi skirtingą metaduomenų detalumo lygį.

Plačiau apie dimensijas: Dimensijos.

duomenų rinkinys

Duomenų rinkinys apibrėžia turimus arba pageidaujamus duomenis, reikalingus konkrečios organizacijos, konkrečiai veiklai vykdyti.

Duomenų rinkinys gali būti registras, informacinės sistemos duomenų bazė, interneto svetainės duomenų bazė, skaičiuoklės lentelė, dokumentų katalogas arba duomenys, kurie dar nėra kaupiami, tačiau yra reikalingi tam tikrai veiklai vykdyti.

Duomenų rinkinio fizinė reprezentacija, tai yra patys duomenys yra vadinami distribucija. Duomenų rinkinyje gali būti daugiau nei viena distribucija, jei fiziškai duomenys yra suskaidyti pagal vietos, laiko, detalumo, struktūros elementus, natūralios kalbos ar kitus kriterijus.

Dažnai duomenų rinkinys painiojamas su distribucija. Duomenų rinkinys apibrėžia tam tikrą grupę duomenų, kurie nebūtinai fiziškai egzistuoja, tuo tarpu distribucija yra fiziniai duomenys įeinantys į duomenų rinkinio sudėtį.

Duomenų rinkiniai neskaidomi pagal vietos, laiko, detalumo, struktūros ar kitus kriterijus.

Plačiau apie tai, kaip duomenų rinkiniai aprašomi duomenų struktūros apraše skaitykite skyriuje Duomenų rinkinys.

Duomenų rinkinys atitinka dcat:Dataset apibrėžimą.

distribucija

Distribucija yra duomenų rinkinio fizinė reprezentacija. Vienas duomenų rinkinys gali būti sudarytas iš kelių distribucijų, tuos pačius duomenis pateikiant skirtingais formatais, suskaidant duomenis pagal laiko, vietos ar kitus kriterijus, tuos pačius duomenis pateikiant skirtingu detalumu arba pateikiant agreguotus duomenis įvairiais pjūviais.

Duomenų struktūros aprašo kontekste, distribucija yra tas pats, kas resource.

Distribucija atitinka dcat:Distribution apibrėžimą:

bazė

Bazė arba loginė klasė yra modelių grupė turinčių bendras savybes ir vienodą semantinę prasmę.

Dažnai skirtingų organizacijų veikloje naudojami duomenų rinkiniai turi vienodą semantinę prasmę. Pavyzdžiui, daugelis organizacijų turi naujienų duomenis. Norint visų organizacijų naujienų duomenis aprašyti vieningai, galima pasitelkti vieną bazę, arba vieną duomenų rinkinį, kurio struktūrą naudoja visi kiti rinkiniai. Tai bazė būtent ir būtų struktūros šablonas pagal kurį būtų sudaromos visi kitų analogiškų rinkinių struktūra.

Bazė yra tas pats, kas modelis arba tiksliau modelio šablonas.

Duomenų struktūros aprašo kontekste api bazę plačiau skaitykite skyriuje Modelio bazė.

modelis

Modelis yra gan plati sąvoka turinti daug prasmių, priklausomai nuo konteksto. Šioje dokumentacijoje, modelis yra duomenų struktūros aprašo dalis leidžianti aprašyti duomenis pateiktus įvairiais formatais.

Tiksli modelio prasmė priklauso nuo duomenų šaltinio, kurio duomenys yra aprašomi:

  • CSV failo atveju, modelis yra CSV faile esanti lentelė,

  • Excel failo atveju, modelis yra kiekviena lentelė (arba lapas) esanti Excel faile,

  • SQL duomenų bazių atveju, modelis yra viena duomenų bazės lentelė,

  • JSON dokumento atveju, modelis yra kiekvienas masyvas esantis JSON dokumente,

  • XML atveju, modelis yra kiekvienas elementų masyvas esantis XML faile.

Duomenų rinkiniai aprašo konkretaus autoriaus duomenis, skirtingi autoriai gali naudoti tuos pačius duomenis, todėl duomenys skirtinguose rinkiniuose gali dubliuotis. Tuo tarpu modeliai aprašo duomenis pagal jų semantinę prasmę, nepriklausomai nuo autoriaus, tai leidžia apjungti skirtingų autorių naudojamus duomenis, pagal jų semantinę prasmę, modelių pagalba.

DSA lentelėje atitinka model. Duomenų modelį atitinkanti fizinė reprezentacija nurodoma source stulpelyje. source gali būti duomenų bazės lentelė, CSV failas ar kita, priklauso nuo duomenų šaltinio tipo. Sąsaja su išoriniais žodynais pateikiama uri stulpelyje. Siejant su išoriniais žodynais, pateikiama nuoroda į rdfs:Class.

savybė

Duomenų modeliui priklausančių informacinių objektų savybė, pavyzdžiui miesto pavadinimas, šalis kuriai priklauso miestas. DSA lentelėje atitinka property. Atitinka rdfs:Property arba lentelės stulpelį.

subjektas

Subjektas lietuvių kalboje vadinamas veiksniu, duomenų kontekste įvardija objektą apie kurį eina kalba.

Tarkime saknyje „Namas turi stogą“ subjektas yra Namas, todėl, kad kalba eina apie namą.

objektas

Vienas duomenų įrašas sudarytas iš savybių ir savybėms priskirtų reikšmių. Informacinis objektas turi turėti unikalų identifikatorių. Atitinka rdfs:Resource arba lentelės vieną eilutę.

žodynas

Duomenų kontekste, žodynas yra susitarimas, kokiais pavadinimais vadinami objektai ir jų savybės. Dažniausiai kiekvienas duomenų rinkinys turi savo vidinį naudojamą žodyną, visas Lietuvos atvirų duomenų modelis turi savo vidinį žodyną, kuris suvienodina skirtingus duomenų rinkinių naudojamus žodynus. Yra viešieji žodynai, dar vadinami ontologijomis, kurie yra skelbiami viešai ir skirti globaliam susietųjų duomenų tinklui kurti.

Duomenų kontekste, žodynas yra tiesiog modelių ir savybių pavadinimų rinkinys. Skirtingi duomenų šaltiniai dažniausiai naudoja skirtingus žodynus, t.y. naudoja skirtingus modelių ir savybių pavadinimus.

Duomenų struktūros aprašas leidžia skirtinguose duomenų šaltiniuose naudojamus pavadinimus suvienodinti, taip, kad visi šaltiniai naudotų vieningą žodyną.

Vieningo žodyno sudarymas yra gan sudėtinga užduotis, todėl, DSA leidžia prie vieningo žodyno pereiti palaipsniui:

  • pirmiausia sudaromas vieno duomenų rinkinio žodynas,

  • kuris palaipsniui transformuojamas į Lietuvos vieningą žodyną,

  • o Lietuvos vieningas žodynas palaipsniui transformuojamas į globalų žodyną, nurodant sąsajas su išoriniais žodynais ir standartais.

Žodynai sudaromi pasitelkiant vardų erdves.

API

Programavimo sąsaja (angl. Application Programming Interface).

duomenų šaltinis

Resursas, kuriame saugomi duomenys. Toks resursas tampa duomenų šaltiniu, kai tokius duomenis norima pakartotinai panaudoti, tokiu atveju, iš pakartotinio panaudojimo perspektyvos toks resursas tampa duomenų šaltiniu.

ETL

Duomenų ištraukimas, transformavimas ir užkrovimas (angl. Extract Transform Load).

iteratorius

Tam tikra funkcija, kuri grąžina keletą lementų, tačiau ne visus iš karto, o po vieną.

URI

Vieningas resurso identifikatorius (angl. Uniform Resource Identifier).

POSIX

Universali operacinių sistemų sąsaja (angl. Portable Operating System Interface) - standartas apibrėžiantis operacinių sistemų sąsają, kad skirtingos operacinės sistemos būtų suderinamos tarpusavyje.

https://en.wikipedia.org/wiki/POSIX

DOS

MS-DOS.

reguliarioji išraiška

Simbolių seka apibrėžianti tam tikrą šabloną tekste (angl. Regular Expression).

JSON

Atviras duomenų formatas (angl. JavaScript Object Notation).

RDF

Duomenų modelis sudarytas iš subjekto, predikato ir objekto tripletų (angl. Resource Description Framework).

IVPK

Informacinės visuomenės plėtros komitetas.