Probleme - Date Deschise

În ceea ce privește digitalizarea administrației, România ocupă în mod constant printre ultimele poziții din punct de vedere al indicatorilor Digital Economy and Society Index (DESI). Potrivit datelor pe care le-am colectat în interviurile derulate cu experți în domeniu, România a avut o perioadă de creștere între anii 2013 și 2015 când a avut loc construirea infrastructurii de date deschise, ceea ce a plasat România în Global Open Data Index în primele 15 poziții din 90 de state. La finalul anului 2018, însă, România a coborât pe poziția 24, iar din punct de vedere al clasamentului DESI, țara noastră se situează constant pe ultimul sau penultimul loc. Aici am trecut în revistă toate blocajele depistate în domeniul datelor deschise în România.

Problem #1

The existing data are of very low quality

The quality of the data is very low and the minimum standards of formatting and coherence of the information are not respected. The minimum standards for the collection and delivery of public data contain a series of rules regarding the collection, consolidation and maintenance of information sets. The data should be presented in a way that is simple and easy to track, the format of the information in the tables must be kept consistent throughout the document, and the document must be delivered as a .csv, .xml or .json file in order to be processed by a computer. It is common for non-compliance with the agreed format of a data set to alter the information in it. For example, if the standard agreed in a document for the column dedicated to the calendar date is dd/mm/yy, any entry in the database in another format (such as dd/mm/yyyy) will affect the automatic analysis process of the information in the dataset). All these inconsistent practices lead to the perpetuation of a profoundly erroneous mechanism of collection and the difficulty of opening the data and transforming it into useful information. The lack of effective digital collection tools, in turn, contributes to the reduced data quality. If the platforms were configured in such a way as to introduce field limitations according to the standards, errors could be easily prevented. Without real penalties, compliance with data quality standards is often ignored, and the lack of specialists able to evaluate and fine-tune the errors leads to a perpetuation of an unsatisfactory state of the collected data.



Problema 1

Datele existente sunt la o calitate foarte redusă

Calitatea datelor este foarte redusă nerespectându-se standarde minimale de formatare și de coerență a informației. Standardele minimale în colectarea și livrarea datelor publice conțin o serie de reguli cu privire la colectare, consolidare și menținere a seturilor de informații. Datele ar trebui prezentate într-un mod simplu de urmărit pentru utilizatorul lor, formatul informațiilor prezentate în tabele trebuie să fie menținut consistent în întregul document, iar documentul trebuie livrat ca fișier de tip .csv, .xml sau .json pentru a putea fi procesat de un calculator. Este o situație frecventă ca nerespectarea formatului agreat al unui set de date să altereze informația din el. De exemplu, dacă standardul agreat într-un document, pentru coloana dedicată datei calendaristice este zz/ll/aa, orice intrare din baza de date în alt format (cum ar fi de tipul ll/zz/aaaa) va afecta procesul de analiză automată a informațiilor din setul de date). Toate aceste practici neconforme și inconsistente duc la perpetuarea unui mecanism profund eronat de colectare și îngreunarea procesului de deschidere a datelor și transformării lor în informații utile. Lipsa unor instrumente de colectare digitale performante contribuie, la rândul său, la calitatea redusă a datelor. Dacă platformele ar fi configurate de așa natură încât să introducă limitări în câmpuri conform cu standardele, erorile ar putea fi prevenite cu ușurință. Neavând penalizări reale, respectarea standardelor de calitate a datelor este adesea ignorată, iar lipsa unor specialiști capabili să evalueze și să amendeze greșelile duc la o perpetuare a unei stări nesatisfăcătoare a datelor colectate.  

Problema 2

Nu există experți în analiză de date la nivelul administrației publice  

La fel ca în cazul experților în elaborarea de acte normative, lipsa de resurse umane specializate în colectare și analiză de date din administrația publică este o realitate cu care se confruntă atât aparatul central cât și instituțiile locale, cele din urmă fiind foarte vulnerabile din această perspectivă. Gradul redus de competitivitate al statului român pe piața muncii, ca urmare a plafoanelor de salarizare, face ca acest tip de specialist să nu se îndrepte aproape niciodată către o funcție administrativă. Acest lucru are cel mai mare impact în calitatea datelor colectate, în coerența metodologiilor de colectare și analizare și în capacitatea instituțiilor de a publica date în format deschis. Potrivit interviurilor derulate în perioada de cercetare am constatat, de asemenea, și că există un blocaj și la nivelul pregătirii unor astfel de specialiști în rândul personalului prezent în instituții pentru că resursa umană este foarte volatilă, ceea ce înseamnă că este foarte dificil să întreții o continuitate în procesele de lucru cu datele.

Problema 3

Metodologiile de colectare, procesare, analizare și utilizare ale datelor adesea nu sunt corect concepute și implementate  

O consecință a lipsei experților în domeniu din administrația publică este, așa cum menționam anterior, o slabă calitate a metodologiilor de colectare și procesare a seturilor de date.

Problema 4

Lipsa de coerență în procesul de culegere a datelor  

Dacă privim situația la un nivel mai ridicat, constatăm o problemă în lipsa conectivității între instituții. Cu foarte puține excepții, fiecare instituție are propria taxonomie, ceea ce face aproape imposibilă corelarea de seturi complexe de date, implicit analizarea lor contextuală. Un exemplu în acest sens îl reprezintă datele colectate cu privire la fenomenul violenței domestice în România. În acest moment un caz de violență domestică nu poate fi urmărit între organisme precum Poliția Română, Institutul de Medicină Legală sau Direcția Generală de Asistență Socială și Protecție a Copilului, acestea fiind doar trei din numeroase potențiale puncte de contact ale unei victime cu sistemul. Ca urmare a faptului că formularele de colectare de informații și metodologiile de prelucrare sunt distincte, instituțiile - chiar dacă partajează date între ele - nu pot să consolideze informația cu ușurință. Din nefericire, situația este similară chiar și în interiorul aceleiași instituții cu multiple direcții care colectează individual date.  

Există și un alt fenomen care contribuie la această problemă majoră și anume serviciile software deficitare pe care le utilizează instituțiile pentru colectare și procesare de informații. Ca urmare a lipsei de standarde în construirea de soluții digitale pentru sectorul public, instrumentele pe care le are la dispoziție, în general, administrația publică nu sunt construite în așa fel încât să favorizeze deschiderea de date cel puțin inter-instituțional. Astfel că, instituțiile,  chiar dacă ar avea intenția de a automatiza aceste procese, sunt captive în contracte de dezvoltare și mentenanță care fac procesul unui extrem de dificil, dacă nu imposibil. În plus, absența unei gândiri strategice când vine vorba de construcția de sisteme care fac uz de seturi de date colectate automat sau manual, face ca pe termen lung fenomenul să se adâncească.

Problema 5

Lipsa unor standarde de livrare a datelor publice și a unor mecanisme de control al respectării lor  

Publicarea datelor publice este reglementată, în sensul existenței unei obligativități de deschidere a acestora, cu toate aceste standardele de livrare ale datelor sunt la nivel de ghid și de recomandare, ceea ce face ca respectarea lor să fie în unele cazuri opțională. Standardele de livrare spun că există trei modalități de publicare a datelor deschise - fie pe platformele proprii ale celor care le-au colectat, fie pe platformele unor terți (de exemplu date transmise de o instituție spre publicare spre data.gov.ro) și publicare prin intermediul unui serviciu API digital. Despre această ultimă modalitate în Ghidul de Publicare al Datelor Deschise din anul 2015 se scrie

”Pentru instituțiile care pun la dispoziție seturi de date prin intermediul unui serviciu API online, beneficiul este că pot furniza întotdeauna cele mai recente date utilizatorilor, în unele cazuri chiar în timp real. Dezavantajul este că furnizarea acestui serviciu de API online înseamnă costuri materiale și necesită expertiză tehnică mai avansată decât furnizarea unor fișiere care conțin seturi de date. (...) Pe de altă parte, publicarea datelor doar prin intermediul unui API online poate să nu fie suficientă din punct de vedere al accesului en-gros la date.”  

Complementară acestui blocaj este și lipsa mecanismelor de control care, chiar dacă ar fi definite și implementate, ele nu vor fi eficiente ca urmare a faptului că, așa cum spuneam, standardele de livrare au titlu de recomandare, nu de normă. Același Ghid cuprinde și metodologii de deschidere a datelor și de raportare, create în conformitate cu normele OGP, însoțite de exemple de date care pot fi deschise, dar în realitate, acestea nu sunt implementate ca urmare a lipsei de know-how și de consecințe majore ale nerespectării lor.

Problema 6

Lipsa unei infrastructuri tehnice de automatizare a livrării datelor  

Atât la nivelul administrației centrale cât și locale nu există capacitate de implementare a unei infrastructuri tehnice de automatizare a livrării datelor. Cea de-a treia modalitate de deschidere a datelor, menționată anterior, este prin intermediul unor servicii API online (set de funcțiuni și proceduri care permit conectarea la datele existente într-o aplicație) care să transmită informații automat în una sau mai multe direcții. Ceea ce ar însemna că, beneficiind de un astfel de serviciu și cu condiția ca un set de date să fie standardizat, publicarea sa în format de deschis în platforma proprie a unei instituții, respectiv transmiterea datelor automat către portalul național de date deschise și furnizarea acelorași informații într-un alt sistem care le poate corela cu alte seturi de date spre analiză și procesare, poate fi făcut simultan și în timp real. Din nefericire, construirea acestor mici servicii este individuală pentru seturi de date specifice și ulterior ele au nevoie de mentenanță minimală, două funcțiuni pe care, de obicei, administrația locală cel puțin nu le poate asigura în interiorul instituției. O soluție pentru această situație ar fi impunerea construirii de API-uri în orice produs software destinat administrației.  

Problema 7

Utilizarea foarte redusă a datelor disponibile la întregul lor potențial  

Rezultatul tuturor blocajelor semnalate până acum este o utilizare minimală a datelor disponibile. Ceea ce înseamnă că nu avem date suficiente pentru a face o analiză substanțială în multe dintre domeniile cheie din România, iar acolo unde avem date, nu avem certitudinea acurateții lor sau nu avem capacitatea de a putea analiza pattern-uri sau manifestări ale unor fenomene ca mai apoi să putem lua deciziile corecte de implementare sau legiferare.  

Problema 8

Datele nu sunt transformate în informații utile nici pentru instituții, nici pentru actorii din mediul privat și nici pentru publicul larg  

În cazurile fericite în care beneficiem de date private, semi-deschise sau deschise, apare un alt blocaj - cel în care acestea nu sunt traduse pentru a fi utile atât instituțiilor cât și publicului larg. Tot ca urmare a lipsei specialiștilor, la nivel instituțional, există o incapacitate de analiză a acestor date care să ajute orice actor în a-și diagnostica activitatea și a lua decizii informate. Pentru un public neavizat, un set de date, chiar dacă este complet și corect, nu transmite informații până când nu este simplificat și contextualizat. Un cetățean obișnuit nu are capacitatea de a consulta un tabel cu multiple variabile și a înțelege care este impactul indicat de acele date asupra vieții sale. La rândul său, un jurnalist care dorește să raporteze pe un subiect de interes comunitar sau larg are nevoie de un specialist care să-l ajute să analizeze seturile de date ca să poată trage concluziile corecte. Nu există la acest moment acele organisme care să aibă responsabilitatea de a transforma datele existente în informație utilă. O modalitate simplă de ”traducere” a datelor pentru publicul larg ar fi, de exemplu, o facilitate de vizualizare interactivă construită pentru a procesa seturile de date și a le reda într-un mod grafic reprezentativ.

Nu în ultimul rând, într-un spațiu cultural care nu încurajează luarea de decizii bazate pe hard facts, și în contextul în care puterea de decizie este aproape întotdeauna în mâinile oamenilor care au un interes sporit pentru menținerea propriei imagini în ochii publicului larg, utilizarea datelor la adevăratul lor potențial și conform cu metodologiile corecte nu este o prioritate de cele mai multe ori. O modalitate simplă de ”traducere” a datelor pentru publicul larg este o facilitate de vizualizare interactivă construită pentru a procesa seturile de date și a le reda într-un mod grafic reprezentativ.  

Problema 9

Gradul redus de încredere și lipsa colaborării dintre actori, atât la nivel instituțional cât și între stat și cetățeni, societate civilă sau mediul privat  

Ca urmare a situațiilor repetate în care seturile de date disponibile publicului larg nu au fost la calitatea necesară ca ele să devină utile, în timp a scăzut foarte mult nivelul de încredere dintre mediul privat și stat, cât și public sau societatea civilă și stat. Chiar dacă situația datelor la nivel local și național se îmbunătățește cu ajutorul tehnologiei și al voinței politice, va exista o perioadă îndelungată de acomodare și de restabilire a încrederii între entitățile active în sector din societate. Același fenomen se petrece și la nivel intern, însă, unde putem observa un grad redus de încredere inclusiv între instituții care, coroborat cu lipsa interesului pentru deschiderea datelor, conduc la situații în care datele nu ajung niciodată de la un actor instituțional la altul.

Problema 10

Nivel foarte redus al utilizării datelor deschise  

Dacă analizăm situația datelor care sunt colectate și deschise cu mari eforturi, uneori, de unele administrații vom constata ca nivelul de utilizare al acestor date este foarte scăzut. Atât din cauză că nu există încredere că datele sunt corecte și utilizabile, dat fiind istoricul datelor deschise în România, cât și pentru că este foarte dificil să le găsești. Un alt factor care contribuie la acest fenomen este faptul că cei care mențin seturile de date și cei care, în teorie, ar trebui să transforme datele în informații utile, nu au know-how-ul de analiză de date necesar pentru punerea în practică. Una dintre categoriile principale de utilizatori ai datelor deschise ar trebui să fie mass-media, care în acest moment nu face uz de datele existente, implicit

alte segmente de public care ar putea fi interesate de aceste seturi - companii, start-up-uri, publicul larg - nu află de existența lor, iar ele nu sunt folosite. Efectul este acela că, acele instituții care depun eforturi de a deschide informații public nu vor mai fi încurajate să continue sau să investească în extinderea numărului de seturi de date pe care le deschid.

Problema 11

Lipsa voinței politice de a crește gradul de deschidere a datelor publice în unele sectoare  

Nu în ultimul rând, situația curentă a datelor deschise în România, este direct legată și de interesul direct al actorilor instituționali de a deschide informații public. Chiar dacă principalul motiv îl reprezintă lipsa de capacitate (din punct de vedere al resursei umane specializate și al know-how-ului tehnic) de deschidere a datelor, multe dintre situații indică și o teamă de această practică pentru că datele ar putea releva performanțe scăzute sau situații critice cu care ne confruntăm. Nu putem omite nici lipsa unei înțelegeri sau ignorarea beneficiilor datelor deschise. Există și un alt factor, mai puțin frecvent, dar relevant, și anume necesitatea unor instituții de a se autofinanța, un exemplu în acest sens fiind Registrul Comerțului care oferă majoritatea datelor despre persoanele juridice din România contra cost.