Metodická dokumentace projektu: architektura systému I-COP – integrace datových zdrojů – implementace datových skladů
1.Obecná architektura systému I-COP
1.1. Datový sklad I-COP
Navržený systém je postaven na architektuře datového skladu, provozovaného uvnitř nemocnice. Komponenty systému jsou umístěny na infrastruktuře spravované nemocnicí a primární data nejsou přenášena jinam. Celý systém je postaven na zdarma dostupných technologiích, které nemocnici negenerují další vícenáklady na pořízení nebo provoz. Centrálním prvkem datového skladu je databáze, postavená na technologii MySQL. Dále se používají skripty a nástroje vytvořené v programovacích jazycích PHP nebo Java. Je podporován běh na operačních systémech Windows i Linux. Přesná specifikace požadavků na infrastrukturu je uvedena v příloze tohoto dokumentu.
Data sbíraná v tomto systému jsou zcela neosobní, tedy neobsahují identifikace žádných osob (pacientů, zaměstnanců nebo externích subjektů) ani žádné osobní nebo jiné citlivé údaje. Data se do systému předávají formou jednorázových exportů textových souborů dle zadaného datového rozhraní, zajištěný pracovníky nemocnice, nikoliv přímým přístupem do informačních systémů nebo jiných databází. Rozsah sbíraných dat je uveden v samostatné příloze. Přístup do nemocnice se řídí pravidly a bezpečnostní politikou nemocnice, dodavatel systému je povinen dodržovat veškeré požadavky na zabezpečení dat a informačních systémů nemocnice. Přístup do infrastruktury nemocnice je podmíněn platnou smlouvou mezi dodavatelem a nemocnicí a vytváří se pro předem definovaného pracovníka dodavatele. Technicky je obvykle chráněn pomocí VPN připojení a má vyhrazený přístup pouze k vybranému serveru s provozovaným systémem. Typická architektura řešení je zachycena následujícím diagramem:
Jednotlivé komponenty a datové zdroje, které jsou integrovány do podoby výstupů a analýz v rámci datového skladu, jsou zobrazeny na následujícím diagramu.
Klíčovým procesem je příprava požadovaných ekonomických a provozních dat. Zde je nutná součinnost s pracovníky příslušných oddělení nemocnice (ekonomické a personální) pro zajištění výstupů z těchto informačních systémů. Dále je nutná tvorba číselníku organizační struktury s typologií jednotlivých pracovišť a účetní osnovy s klasifikací účtů dle přiložených číselníků. S touto fází se předpokládá významná spolupráce s pracovníky dodavatele, kteří zajistí metodické podklady, školení a případně přímou podporu při přípravě výstupů.
Následuje fáze zpracování dodaných materiálů do podoby použitelné pro analýzy, včetně validací, čištění, doplnění a integraci předaných údajů (např. číselníky, referenční data atd). V poslední fázi se předpokládá příprava analýz a výstupů ze zpracovaných dat. Výstupy jsou ve formě dokumentů (analýzy vybraných oblastí), přímý přístup ke zpracovaným datům v datovém skladu nemocnice nebo pomocí nástroje pro jejich prohlížení (business intelligence nástroj).
1.2.Princip fungování sítě I-COP a nakládání s daty v projektu
Architektura systému I-COP je postavena na síti zapojených nemocnic Jihomoravského kraje. Ve vnitřní síti každé z nich je zprovozněna aplikace, která zajišťuje zpracování a nevratnou de-identifikaci nemocničních dat. Výsledným produktem je datový sklad, který obsahuje integrovaná nemocniční data do podoby vhodné pro další analytické zpracování.
Základním datovým zdrojem jsou administrativní data nemocnic, která tyto nemocnice vykazují zdravotním pojišťovnám, tzv. k-dávky, doplněné o případné další datové zdroje (nemocniční preskripce, PSČ bydliště pacientů). Nemocniční data jsou procesována na vlastním serveru každé partnerské nemocnice zvlášť, všechny nemocnice mají tedy pod kontrolou svá vlastní data. Spojování dat za účelem vzájemného srovnávání center projekt neumožňuje. Na zmíněném serveru také probíhá spojení administrativních dat onkologických pacientů s diagnostickými záznamy, které daná nemocnice hlásí do Národního onkologického registru (NOR). Tyto záznamy Národního onkologického registru (NOR) pacientů léčených v dané nemocnici jsou spojeny se záznamy o léčbě do jedné databáze uvnitř zdravotnického zařízení. Záznamy NOR jsou k nemocničním datům přiřazovány na základě šifry jejich rodných čísel, které vznikají v obou případech stejným způsobem. Všechny operace s daty se týkají výhradně záznamů pacientů léčených v dané nemocnici a probíhají výhradně na interních serverech dle bezpečnostních protokolů dané nemocnice.
Software I-COP, vyvinutý na Masarykově Univerzitě (MU), pod dohledem pověřeného IT experta nemocnice tato data v interní databázi nemocnice transformuje a provádí jejich anonymizaci (nevratnou de-identifikaci): čísla pojištěnců jsou nahrazena šifrou, vzniklou jednosměrnou hešovací funkcí (SHA) s tajným heslem (salt). Všechny ostatní osobní údaje v databázi pro analýzy jsou nevratně smazány. Výsledná de-identifikovaná data jsou přesunuta do oddělené části databáze, která je přístupná pověřenému pracovníkovi LF MU a ve které se již žádná osobní data nevyskytují. Veškeré analýzy jsou prováděny pouze nad anonymizovanými a agregovanými daty.
Veškerá práce s primárními daty, obsahujícími osobní údaje, probíhá v rámci servisu a údržby systému I-COP na serveru nemocnice. Systém je nastaven tak, aby přístup k osobním údajům měl pod kontrolou pouze a jedině pověřený pracovník nemocnice. Ve všech fázích procesu práce s daty je aplikována celá řada opatření (smluvních, organizačních i technických) pro zajištění bezpečnosti, zvláště u osobních dat, ale i všech ostatních citlivých nemocničních dat: šifrování přístupů, oddělené účty a přístupová práva, hesla pro šifrování čísel pojištěnců, bezpečné mazání atd. Přístupy do nemocnic jsou vždy řízeny bezpečnostní politikou každé jednotlivé nemocnice a jsou dodržovány její požadavky a standardy.
Ochrana primárních dat je zajištěna robustními mechanismy, mj. smluvně (včetně podmínky naprosté mlčenlivosti všech pracovníků dodavatele), jak je obvyklé v případech, kdy dodavatel spravuje a provozuje v nemocnici systém pracující s čísly pojištěnců, jako například nemocniční informační systém či jiné provozní systémy v nemocnicích. Nastavený model práce zde plně odpovídá tomuto plošně aplikovanému modelu. Osobní data nikdy neopouští server nemocnice a bezprostředně po jejich transformaci jsou pro analyticky využívanou databázi bezpečně a nevratně smazána.
Jelikož principem projektu je poskytovat nemocnicím zejména referenční srovnání formou předpřipravených reportů, jsou de-identifikovaná data nemocnice přenášena do referenčního datového skladu na serveru spravovaném LF MU. Na tomto serveru se nikdy nevyskytovala a nevyskytují žádná osobní data pacientů a záznamy slouží k poskytování agregovaných podkladů pro analytická zpracování referenčních hodnot pro všechny zapojené nemocnice. Na tento server jsou uplatňována interní pravidla LF MU pro zabezpečení citlivých dat, která jsou v souladu s certifikací ISO 27000. Také veškeré výstupy z tohoto datového skladu jsou řízeny a evidovány technickými prostředky. Ztotožnění identity jedince není z agregovaných referenčních dat možné.
Platí tedy, že žádná data, obsahující osobní údaje, neopouštějí za žádných okolností server nemocnice a LF MU přistupuje k tomu systému na základě uzavřené smlouvy analogicky k provozovatelům podobných informačních systémů v nemocnicích, za dodržení bezpečnostních požadavků nemocnice. Kompletní dokumentace systému I-COP je k dispozici jako samostatný dokument, kde je podrobně popsán princip, metody a opatření pro práci s daty a jejich ochranu.
1.3. Používané datové zdroje z nemocnice
Pro základní hodnocení nemocničních dat v oblasti onkologie jsou uvnitř nemocnic zpracovávány dva hlavní datové zdroje: data předávaná pojišťovnám (administrativní data nemocnice, „k-dávky“) a záznamy hlášené do Národního onkologického registru (NOR) o pacientech léčených v dané nemocnici. Dále jsou používány doplňující interní datové zdroje, jako jsou údaje o nemocničních preskripcích, data z nemocničního informačního systému s PSČ bydliště pacientů, různé číselníky apod. Jejich popis je popsán v následujících částech.
1.3.1. Administrativní data nemocnic
Nemocniční informační systémy (NIS) obsahují řadu cenných informací, jejich přímé a jednotné využití pro analýzy však bývá problematické. Různé nemocnice bohužel provozují rozdílné NIS, které obvykle neobsahují data ve strukturované podobě. Navíc data z NIS nejsou vždy snadno dostupná za rozumných nákladů pro jejich provozovatele. Proto projekt I-COP využívá jako zdroj administrativních dat interní výkazy plátcům zdravotní péče, tzv. k-dávky. Tyto výkazy jsou povinné, dostupné v nemocnici za několik let zpětně a zcela nezávislé na konkrétním NIS.
Technicky vzato jsou k-dávky obyčejné textové soubory (viz obrázek) s definovanou strukturou, která je dána metodikou a datovým rozhraním Všeobecné zdravotní pojišťovny (VZP). Tato struktura je ovšem proměnná v čase, s čímž je nutné počítat při jejich zpracování. V k-dávkách lze nalézt zejména údaje o provedených výkonech a o podaných přípravcích v rámci hospitalizační i ambulantní péče.
Struktura interně analyzovaných administrativních dat nemocnice je hierarchická. Na nejvyšší úrovni je tzv. hlavička dávky, která popisuje nemocnici a období, za která jsou data předávána. Pod ní jsou evidovány jednotlivé doklady – výkazy o formě poskytnuté péče pacientovi. Základními doklady jsou 01 – Vyúčtování výkonů v ambulantní péči, 02 – Vyúčtování výkonů v ústavní péči, 03 Zvlášť účtované léčivé přípravky a ZP, 06 – Poukaz na vyšetření a ošetření a 10 – Recept. Na nejnižší úrovni jsou pak jednotlivé řádky dokladů – konkrétní detailní údaje o poskytnuté péči, zejména provedené výkony a aplikovaná/vydaná léčiva a materiál.
Zpracovány jsou vždy doklady, které byly vykázány danou nemocnicí a případně její ústavní lékárnou. U ní platí, že jsou zde vykázány všechny recepty v této lékárně vydané. Mohou zde být proto recepty pacientů, které byly předepsány v jiném zdravotnickém zařízení (tyto jsou ze zpracování dále vyřazeny). Naopak, pokud si pacient nemocnice předepsaný recept vyzvedne v jiné lékárně, tuto informaci se z těchto dat nedozvíme. Pro tento účel je vhodnější datový zdroj nemocniční preskripce (viz část 1.2.3).
V zásadě lze konstatovat, že k-dávky popisují kompletně proces péče o konkrétního pacienta v daném zdravotnickém zařízení, byť spíše s ohledem na provozní stránku péče a se zanedbáním některých konkrétních detailů.
1.3.2. Záznamy národního onkologického registru hlášené nemocnicí
Národní onkologický registr je strukturovaná databáze, která tvoří jednu ze základních částí Národního zdravotního informačního systému. Do tohoto registru musí být ze zákona povinně zaznamenán každý nově diagnostikovaný novotvar v ČR již od roku 1976 (viz obrázek hlášenky NOR). Tato epidemiologická databáze obsahuje základní klinické parametry, jako diagnózu a stadium, které rozhodují o prognóze pacienta, jakožto i základní údaje o schématu jeho léčby.
Záznamy NOR pacientů léčených danou nemocnicí jsou interně napojeny k administrativním datům nemocnice a obohacují interní elektronickou zdravotnickou dokumentaci zejména o klinické stadium v době diagnózy. Každý záznam v NOR je v datovém skladu napojen na velké množství číselníků (pro pohlaví, diagnózy, léčebné modality apod.). Mezi základní údaje patří detailní údaje o diagnóze, rozsahu onemocnění (TNM a stadium), datum diagnózy, data zahájení léčebných modalit a jejich povaha.
Napojení dat NOR je metodickým příkladem využití centrálních dat a populačních statistik pro srovnávací analýzy uvnitř nemocnic.
1.3.3. Nemocniční preskripce
Nemocniční preskripce jsou záznamem o předepsání léčiva nebo zdravotnického materiálu pacientovi lékařem nemocnice. K jeho evidenci se obvykle používá samostatný modul NIS – evidence nemocničních preskripcí. Obsahuje údaje o všech receptech, které lékaři této nemocnice pacientům předepsali, bez ohledu na to zda a ve které lékárně si léčivo nebo materiál vyzvedli. V tomto případě tedy nedochází ke ztrátám dat o předepsaných léčivech, jak tomu hrozí v případě dokladů Recepty z datového rozhraní VZP (viz část 3.3.3).
1.4.Uživatelé a další subjekty v projektu I-COP a jejich role
Systém I-COP a jeho výstupy používají následující skupiny uživatelů:
1.4.1. I-COP tým
Vývojářský tým celého řešení datového skladu v roli věcného a technického správce systému. Zodpovídají za návrh, vývoj a údržbu celého systému, předávání dat oprávněným subjektům apod.
1.4.2. Analytický tým I-COP
Pracovníci LF MU, kteří mají přístup k předaným datům zapojených I-COP center a zodpovídají za provádění analytických výstupů z předaných dat. Data jsou jim předávána I-COP týmem buď jako standardizovaný export do statistického nástroje, ad-hoc definované exporty pro účely konkrétních analýz nebo je jim v některých případech zařízen přímý přístup do databáze k vybraným datovým tabulkám. Za data předaná analytickému týmu zodpovídá hlavní věcný správce systému I-COP. Předávaná data jsou vždy nevratně anonymizovaná, bez jakýchkoliv osobních údajů o pacientech.
Analytický tým I-COP plní požadavky oprávněných subjektů pro přístup k výstupům ze systému I-COP. Těmi jsou výhradně hlavní management a odborní garanti jednotlivých zapojených center a jimi pověření pracovníci nemocnice.
1.4.3. Pověřený IT pracovník nemocnice
Úkolem pověřeného IT pracovníka nemocnice je zajišťovat aktualizaci dat I-COP centra na základě dohody s I-COP týmem, obvykle jednou ročně. Získává data z informačních systémů nebo jiných oddělení nemocnice, zajišťuje jejich iniciální zpracování a de-identifikaci. Představuje hlavní kontaktní osobu pro I-COP tým na další specialisty v oblasti IT. Některé činnosti může delegovat na další spolupracovníky.
1.4.4. Vedoucí management a odborní garanti I-COP center
Nejvyšší vedení zapojených nemocnic a pověření zástupci pro projekt I-COP. Jsou oprávněni žádat o předání výstupů ze systému I-COP, ať již v podobě statistických přehledů, nebo analytických výstupů z nich. Schvalují využití anonymizovaných dat pro publikace.
1.4.5. Další role
Vedením LF MU je určen hlavní manažer projektu, který zajišťuje koordinaci zapojených center v rámci projektu a poskytuje jim metodickou podporu. Nepodílí se na předávání dat ani jejich analytickém hodnocení a nemá fyzický přístup k žádným komponentám systému I-COP.
Na straně zapojených nemocnic jsou definovány týmy provozovatelů systému (IT support), kteří zajišťují přístupy pro členy I-COP týmu, zajišťují výpočetní prostředí pro provoz I-COP Agent, aktualizace a zálohování, bezpečnostní politiku nemocnice atd.
2. Přístupy do nemocnic
Možnost přístupů do nemocnic přes zabezpečené komunikační kanály je pro fungování projektu klíčová.
2.1. Správa přístupů
Vzdálené přístupy jsou pověřeným pracovníkům dodavatele zřizovány pracovníky nemocnice na základě smlouvy o spolupráci mezi oběma institucemi. O zřízení přístupu pro konkrétní osobu žádá hlavní manažer projektu na straně LF MU, který předává zodpovědnému pracovníkovi nemocnice požadované kontaktní údaje osoby, pro niž se přístup zřizuje (jméno, email, telefon).
Vlastní proces zřízení přístupu a jeho technická implementace je čistě v kompetenci pracovníků nemocnice, kteří se řídí interními pravidly pro poskytování přístupů a jejich zabezpečení. Standardně je zabezpečený vzdálený přístup do nemocnice zajištěn pomocí specifikované VPN sítě. K jejímu zřízení bývá obvykle požadováno vyplnění protokolu o zřízení VPN, v některých případech i smlouva mezi institucemi. Na samotný server je pak přístup přes klienta Remote desktop (RDP na Windows Server) nebo SSH klienta (Linux Server).
Mohou být požadovány i další doplňující prvky ochrany, např. periodické obnovování žádostí o VPN přístup, pravidelná změna hesla na server aj.
2.2. Evidence přístupů pověřených pracovníků LF MU
Veškeré přístupové údaje, které byly pracovníkům dodavatele předány ze strany nemocnic, jsou ošetřeny v souladu s pravidly maximální ochrany citlivých údajů, odpovídající ISO 27000. Nikdy se nevyskytují zapsané v otevřené podobě přístupné jiným než oprávněným uživatelům. Jsou ukládány v bezpečném úložišti hesel, zabezpečeným hlavním heslem. Přístupové údaje jsou k dispozici pouze osobám, kterým byly pracovníky nemocnic předány.
V okamžiku, kdy jakákoliv osoba dodavatele v roli správce komponenty I-COP Agent s přístupy do nemocnic z projektu odejde nebo změní roli, jsou spolupracující centra o tomto faktu informována, všechny účty jsou jí zablokovány a změněna hesla k přístupům, které měla dotyčná osoba k dispozici.