Ummodelo de anonimização aplicado a prontuários eletrônicos 256 Os dados são registrados em EHRs em diferentes formas de dados estruturados, semiestruturados e não estruturados. As partes estruturadas geralmente consistem em informações codificadas e numéricas com registro de data e hora, incluindo dados demográficos dos pacientes, visitas clínicas, diagnósticos, biomarcadores, resultados laboratoriais, tratamentos e imunizações (Razzaque; Hamdan, 2021), enquanto as partes não estruturadas consistem em texto livre ou dados narrativos semiestruturados, imagens clínicas, etc. O texto livre emLNé amplamente utilizado para registrar detalhes sobre o históricomédico do paciente (Schwertner, 2020; Demner- -Fushman; Chapman; Mcdonald, 2009), pois captura a explicação do profissional da saúde em relação a condição do paciente, duração dos sintomas, hipóteses diagnósticas rejeitadas, preferências do paciente e experiência de tratamento. Esforços significativos foram feitos nos últimos anos para identificar e extrair automaticamente as principais informações clínicas (por exemplo, sintomas, diagnósticos e tratamentos) da narrativa de texto livre (Alfattni; Peek; Nenadic, 2020). No entanto, tais eventos clinicamente relevantes precisam ser colocados no contexto temporal para ajudar a entender a ordem cronológica dos procedimentos clínicos (Mate et al., 2019), facilitar e melhorar o diagnóstico, por exemplo, observando a ordememque os sintomas se desenvolvem (Choi et al., 2017) e tambémmelhorar o tratamento, por exemplo, anotando o tempo de tomar a medicação (Choi et al., 2016a). As grandes bases de dados em formato de prontuários eletrônicos em saúde, no entanto, muitas vezes não são acessíveis por vários motivos, incluindo o número limitado de casos para doenças novas ou raras; dificuldade na limpeza de dados e anotação, especialmente se coletados de fontes diferentes; e questões de governança que dificultam a aquisição de dados (Rasmy et al., 2021). Outro ponto que dificulta o acesso é em relação a Lei Geral de Proteção de Dados (LGPD), criada em 2018 no Brasil, que garante a proteção quanto ao uso dos dados sem justificativa, autorização e consenso ou anonimização dos dados do paciente. 4. ANONIMIZAÇÃO DE DADOS EM SAÚDE A anonimização de dados em saúde é umdos maiores desafios contemporâneos para a pesquisa médica e o desenvolvimento de sis-
RkJQdWJsaXNoZXIy MjEzNzYz