Repositório de dados do Judiciário atinge 144 milhões de processos armazenados

Plataforma Codex integra o Programa Justiça 4.0, desenvolvido em parceria entre CNJ e PNUD

26 de July de 2023
Crédito: CNJ

A Plataforma Codex alcançou, em junho, 144 milhões de processos judiciais armazenados no repositório central do Conselho Nacional de Justiça (CNJ). A ferramenta é um dos projetos do Judiciário brasileiro de gerenciamento e processamento de dados judiciais, que possibilita a construção de conjuntos de dados (datasets) para o treinamento de modelos de Inteligência Artificial (IA). 

O projeto foi desenvolvido pelo Tribunal de Justiça de Rondônia (TJRO) e posteriormente nacionalizado em parceria com o CNJ. Em 2021, ele passou a integrar o Programa Justiça 4.0, resultado de parceria entre CNJ e PNUD, e os tribunais iniciaram a adesão à plataforma. Em 2022, o Conselho instituiu o Codex como ferramenta oficial de extração de dados dos sistemas de processo eletrônico.

“Em termos de estratégia de centralização e de construção de um repositório único de dados sobre o Judiciário, o Codex não tem semelhante em tamanho e complexidade no mundo”, ressalta juiz auxiliar da presidência do CNJ João Thiago Guerra.

“Ao possibilitar a construção de datasets qualificados, o Codex viabiliza a identificação de padrões e tendências nos dados. Isso promove a otimização dos recursos do CNJ e fomenta a construção de instituições mais transparentes e inclusivas, um dos objetivos da atuação do PNUD”, afirma a gerente de projeto Júlia Matravolgyi.

Em suma, o JusticeAI atua como uma poderosa ferramenta para impulsionar o desenvolvimento sustentável, promovendo a justiça, a igualdade e a transparência no sistema judicial, contribuindo diretamente para a realização do Objetivo de Desenvolvimento Sustentável 16.

De 6 fontes de dados e 4 milhões de processos judiciais carregados em 2021, o Codex chegou a 158 fontes de dados, de 92 tribunais e conselhos, em junho de 2023, totalizando 144 milhões de processos judiciais e 3,6 bilhões de documentos armazenados. “Nossa expectativa é chegar ao dobro disso com a integração de mais fontes de dados”, afirma o gerente técnico do projeto no Justiça 4.0, Marcelo Feijó.

Os números atualizados de implantação do Codex foram apresentados no Fórum Justiça e Inovação (Fiji), realizado em Brasília em 19 e 20 de junho. De acordo com o monitoramento do Justiça 4.0, 92 tribunais brasileiros e Conselhos — o que representa 99% do Judiciário — possuem, pelo menos, uma fonte de dados integrada ao Codex. 34 deles têm 70% dos seus dados processuais disponibilizados no repositório. 

 

Acesso a dados de qualidade

Um dos principais benefícios do Codex é gerar datasets para treinamento de IA de forma a atender as necessidades do Judiciário brasileiro no desenvolvimento dessa tecnologia. Com a ferramenta, o CNJ pode disponibilizar dados saneados e seguros aos tribunais, por meio de acesso local e por APIs, para que desenvolvam modelos de IA, a serem compartilhados na Plataforma Sinapses.

“Os dados estão disponíveis para serem trabalhados de forma colaborativa, padronizada, auditada, que é uma das grandes preocupações do desenvolvimento de IA, e de forma controlada, com acesso para quem é do Poder Judiciário”, explica o diretor de Tecnologia da Informação do CNJ, Thiago Vieira.

Especialista em IA do Justiça 4.0, Lucas Victorasso Jardim destaca a importância da qualidade dos dados para o desenvolvimento dos modelos. “Os dados são o embasamento dos algoritmos de IA. A performance dos algoritmos tende a melhorar em acurácia conforme se aumenta a quantidade de dados utilizados no treinamento”, explica.

Segundo o profissional, um conjunto de dados deve ter qualidades relativas a volume, diversidade e uniformidade, por exemplo. “A diversidade permite evitar vieses. Assim, temos que garantir uma base com diversidade adequada, que seja representativa da realidade”. Para Lucas Jardim, o potencial do Codex é grande pelo nível de curadoria e volume de dados. “Ele está em desenvolvimento e temos expectativa de crescer ainda mais”, afirma. 

 

Arquitetura e segurança

“A arquitetura do Codex permite normalizar e padronizar os dados para trabalhar com IA no formato de texto puro”, explica o analista de sistemas do CNJ Pablo Moreira. A ferramenta permite identificar o conteúdo do arquivo e fazer a extração do texto, converter imagem em texto e enviar os dados extraídos para o repositório central. 

A segurança desses dados também é uma das prioridades do Conselho, explica Moreira. “Estamos tratando, por vezes, de dados de processos sigilosos, com sigilo médico e segredo de Justiça, por exemplo. Foram criadas, dentro do Codex, ferramentas de segurança e auditoria que permitem saber quem acessa o dado e o que foi acessado.” 

Para o diretor de TI do CNJ, Thiago Vieira, torna-se evidente em projetos como o Codex e o Sinapses o conceito de colaboração, preconizado pela Plataforma Digital do Poder Judiciário (PDPJ-Br). “Há um grande volume de dados judiciais. Precisamos, agora, orquestrar e trabalhar colaborativamente para chegar nos resultados que queremos. O Judiciário brasileiro é enorme, então nossos resultados têm que ser proporcionais ao nosso tamanho e só alcançaremos isso por meio do trabalho colaborativo.”