257 Diego Pinheiro da Silva, Blanda Helena de Mello, Marta Rosecler Bez e Sandro José Rigo temas inteligentes de apoio à decisão clínica. O prontuário eletrônico do paciente (EHR) contém informações altamente sensíveis, como dados demográficos, diagnósticos, resultados de exames e históricos terapêuticos, que são fundamentais tanto para o cuidado individual quanto para estudos populacionais. No entanto, segundo Ford et al. (2016) e Esteva et al. (2019) a possibilidade de reidentificação de pacientes a partir desses registros, mesmo após a remoção de identificadores diretos, impõe a necessidade de técnicas de anonimização. A anonimização consiste no processo de remoção da associação entre um conjunto de dados e o indivíduo ao qual ele pertence. De acordo com a ANPD (2023), em contextos médicos, essa tarefa é complexa porque envolve não apenas identificadores diretos, como nome, CPF ou endereço, mas também identificadores quase diretos, como idade, gênero, histórico clínico raro ou combinações de atributos, que podem possibilitar a reidentificação. Nesse sentido, uma das estratégias mais utilizadas é a pseudonimização, na qual os identificadores são substituídos por chaves ou códigos artificiais. Essa técnica pode ser reversível ou irreversível, dependendo do objetivo do estudo e do nível de segurança requerido (Lin et al., 2020). Além da pseudonimização, outros métodos vêm sendo explorados na literatura. A k-anonimidade, pesquisada desde 1998 por Samarati e Sweeney (1998), por exemplo, busca garantir que cada registro individual seja indistinguível de pelo menos outros k-1 registros em um conjunto de dados, reduzindo o risco de reidentificação. Machanavajjhala et al. (2007) propuseram a l-diversidade e o t-closeness, que surgiram como avanços dessa técnica, assegurando que, mesmo dentro de grupos anônimos, haja diversidade suficiente de atributos sensíveis para evitar inferências. Tais métodos têm sido aplicados em bases de dados médicos com relativo sucesso, embora apresentem limitações em cenários de grandes volumes de dados não estruturados, como os textos em linguagem natural presentes nos EHRs (Shickel et al., 2017). O avanço das técnicas de aprendizado profundo (Deep Learning) trouxe novas possibilidades para a anonimização de dados médicos. Modelos baseados em Processamento de Linguagem Natural (PLN) podem identificar automaticamente entidades sensíveis em textos clínicos, como nomes de pacientes, locais ou datas, substituindo-as por marcadores neutros ou tokens artificiais (Li et al.,
RkJQdWJsaXNoZXIy MjEzNzYz