Harvard vai liberar uso de livros de domínio público para treinar IA
A Universidade de Harvard anunciou o lançamento de um vasto conjunto de dados com quase 1 milhão de livros de domínio público, disponíveis para treinar modelos de linguagem e outras ferramentas de IA. As informações são do WIRED.
O projeto, desenvolvido pela Institutional Data Initiative de Harvard com apoio da Microsoft e OpenAI, inclui livros digitalizados no âmbito do projeto Google Books, abrangendo uma ampla gama de gêneros e idiomas.
Esse banco de dados é cinco vezes maior que o famoso Books3 e visa democratizar o acesso a conteúdo de qualidade, normalmente restrito a grandes empresas de tecnologia. Greg Leppert, diretor da iniciativa, destacou que o projeto visa “nivelar o campo de jogo”, permitindo que pequenas empresas e pesquisadores tenham acesso a dados valiosos.
Leia mais:
Japão está criando regras para proteger mangás da IA
Prêmio Jabuti proíbe participação de obras criadas por inteligência artificial
Como arte de IA estragou um concurso de ilustrações para livros
Treino de IA e os direitos autorais
A Microsoft e a OpenAI apoiam a iniciativa como parte de sua crença em criar “pools de dados acessíveis” para o desenvolvimento de IA.
O lançamento ocorre em meio a uma crescente discussão legal sobre o uso de dados protegidos por direitos autorais para treinar IA, com ações judiciais que podem mudar a forma como os modelos são treinados no futuro.
Harvard, por sua vez, também está trabalhando em colaboração com a Biblioteca Pública de Boston para digitalizar artigos de jornais de domínio público e está aberta a futuras parcerias.
Além desse projeto, outras iniciativas de dados de domínio público estão surgindo, como o Common Corpus da startup francesa Pleias e o Source.Plus da Spawning, que visam fornecer conjuntos de dados de alta qualidade para treinar IA sem questões de direitos autorais.
Esses esforços destacam que é possível criar modelos de IA de alto desempenho utilizando apenas materiais de domínio público ou licenciado, sem a necessidade de usar dados protegidos por direitos autorais.
O post Harvard vai liberar uso de livros de domínio público para treinar IA apareceu primeiro em Olhar Digital.