Redação do Site Inovação Tecnológica - 01/03/2023
Respostas plagiadas
Alunos e cientistas podem querer pensar duas vezes antes de usar o ChatGPT ou similares para fazer sua próxima tarefa ou escrever seu próximo artigo científico.
Acontece que esses modelos de linguagem, que geram texto em resposta a solicitações do usuário, plagiam o conteúdo de onde aprenderam de várias maneiras.
"O plágio vem em diferentes sabores," disse Dongwon Lee, professor de ciências da informação e tecnologia da Universidade do Estado da Pensilvânia, nos EUA. "Queríamos ver se os modelos de linguagem não apenas copiam e colam, mas também recorrem a formas mais sofisticadas de plágio sem perceber."
Os pesquisadores se concentraram em identificar três formas de plágio: Literal, que consiste em copiar e colar diretamente o conteúdo; parafrasear, consistindo em reformular e reestruturar o conteúdo sem citar a fonte original; e ideia, ou usar a ideia principal de um texto sem a devida atribuição da autoria.
Para fazer tudo de forma automatizada, a equipe construiu um condutor, um software que analisa os dados manipulados por outro programa sem interferir neles. Os testes foram feitos usando o GPT-2, da OpenAI, porque os dados de treinamento desse modelo de linguagem estão disponíveis online, permitindo comparar textos gerados com os 8 milhões de documentos usados para pré-treinar o GPT-2.
A equipe ajustou três modelos de linguagem para se concentrar em documentos científicos, artigos acadêmicos relacionados à covid-19 e pedidos de patentes. Eles usaram um mecanismo de pesquisa de código aberto para recuperar os 10 principais documentos de treinamento mais semelhantes a cada texto gerado e modificaram um algoritmo de alinhamento de texto já disponível para detectar melhor as instâncias de plágio literal, paráfrase e ideia.
Três tipos de plágio
A equipe descobriu que os modelos de linguagem cometeram todos os três tipos de plágio e que, quanto maior o conjunto de dados e os parâmetros usados para treinar o modelo, mais frequentemente o plágio ocorreu.
Eles também observaram que os modelos de linguagem ajustados para cada tipo de documento reduziram o plágio literal, mas aumentaram as instâncias de paráfrase e plágio de ideias.
Além disso, eles identificaram instâncias do modelo de linguagem expondo informações privadas de indivíduos por meio de todas as três formas de plágio.
"As pessoas trabalham para construir grandes modelos de linguagem porque, quanto maior o modelo fica, as habilidades de geração [de texto] aumentam," disse Lee. "Ao mesmo tempo, eles estão colocando em risco a originalidade e a criatividade do conteúdo dentro do corpus de treinamento. Esta é uma descoberta importante."
Papagaio high-tech
Embora a grande maioria das revistas científicas já esteja banindo a citação de modelos de linguagem como o ChatGPT da lista de autores de artigos científicos, ainda não se sabe como as escolas poderão lidar com o problema.
Ou, talvez, essa seja outra questão que será relegada a segundo plano, assim como a preocupação com a privacidade pessoal sumiu das preocupações conforme as mídias sociais tomaram o mundo de assalto.
"Assim como fazemos com um papagaio, ensinamos os modelos de linguagem a imitar a escrita humana sem ensiná-los a não plagiar adequadamente", disse Lee. "Agora, é hora de ensiná-los a escrever corretamente, e ainda temos um longo caminho a percorrer."