Corpora

PetroGold (Souza e Freitas, 2022): treebank revisado manualmente que consiste de textos acadêmicos da área de petróleo e gás em português do Brasil.

CINTIL-UDep (Branco et al., 2022): banco de dependências do português, obtido pela fusão e conversão automática para UD dos corpora CINTIL-DependencyBank e CINTIL DependencyBank PREMIUM.

Porttinari (Duran et al., 2023; Pardo et al., 2021): treebank multigênero para o português do Brasil, com uma parcela manualmente revisada, constituído de textos jornalísticos e conteúdo gerado por usuário (user-generated content).

Bosque-UD (Rademaker et al., 2017): criado com base na conversão do Bosque, que faz parte da Floresta Sintática(c)tica, com variantes europeias (CETEMPúblico) e brasileiras (CETENFolha).

PUD (Zeman et al., 2017): parte dos treebanks criados para a avaliação conjunta realizada no CoNLL 2017 sobre análise multilíngue.

GSD (McDonald et al., 2013): traduzido do Google Universal Dependency Treebank v2.0.

Last updated