Home JUEGOS Os desenvolvedores da Sony compartilham como o aprendizado de máquina pode melhorar...

Os desenvolvedores da Sony compartilham como o aprendizado de máquina pode melhorar o controle de qualidade

19
0


Durante uma palestra proferida no recente evento CEDEC em Yokohama, Japão, os líderes de desenvolvimento da Sony discutiram seus recentes esforços para implementar modelos de IA e aprendizado de máquina para melhorar a eficiência e a precisão no processo de controle de qualidade.

A palestra foi conduzida por pesquisadores de aprendizado de máquina do departamento de P&D de serviços de jogos da empresa, Hiroyuki Yabe e Yutaro Miynotauchi, ao lado de Nakahara Hiroki, um engenheiro de software focado em engenharia de controle de qualidade de software. O objetivo era orientar outros criadores sobre como a empresa integrou a IA ao processo de controle de qualidade usando hardware PS5 real, coletando apenas informações na tela e de áudio semelhantes às perguntas e respostas conduzidas por humanos, permitindo que os títulos fossem testados com mais regularidade e com maior eficiência.

Testes mais regulares desta forma, realizados de forma autônoma, permitiram que as equipes eliminassem mais bugs mais cedo, graças a testes mais regulares, já que os testes manuais só poderiam ser conduzidos algumas vezes por ciclo de desenvolvimento e um bug detectado tarde demais no desenvolvimento tem uma chance de impactar o lançamento.

Para esta palestra, a equipe compartilhou suas descobertas usando o software para automatizar as operações de controle de qualidade no título de lançamento do PlayStation 5, Astro’s Playroom. Isso foi notável porque um recurso importante que exigia extensos testes de controle de qualidade era a integração do progresso do jogo com funcionalidades de hardware, como os cartões de atividades do PS5, que podiam monitorar o progresso em objetivos específicos à medida que os jogadores avançavam em um nível.

Agente de repetição e agente de imitação

Ao pesquisar como integrar a tecnologia no processo de teste, a equipe tinha algumas condições que precisavam ser atendidas: qualquer sistema de teste não deveria depender de ferramentas específicas do jogo que precisariam então ser refeitas para uso em outros jogos – em outras palavras, os testes de IA para um jogo de tiro não devem depender de assistência de mira que não pode ser aplicada a um jogo de plataforma ou outro jogo de tiro, e assim por diante.

Também deve ser alcançável a um custo realista que faça com que tal automação valha a pena e também deve ser simples o suficiente para que mesmo aqueles sem experiência técnica possam criar um Agente de Imitação e executar a simulação de teste.

No caso do Astro’s Playroom, isso resultou na automação do controle de qualidade por meio do uso de dois sistemas de jogo automatizados separados: um Agente de Replay e um Agente de Imitação. O sistema anterior funcionava replicando combinações exatas de botões para garantir consistência e seria usado em circunstâncias selecionadas, como navegar na interface do jogo e nos menus de hardware do PS5, ou em momentos como passar de um ponto de spawn para uma transição de nível onde não há variáveis. pode impactar o movimento.

Enquanto isso, o Agente de Imitação reproduziria o jogo humano com variação. Ambos os sistemas foram alcançados conectando um PS5 a um PC onde as informações na tela poderiam ser enviadas ao módulo de aprendizagem antes que as entradas do controlador fossem enviadas de volta ao hardware.

Essas ferramentas também poderiam ser usadas em sequência: em um exemplo de vídeo, um agente de replay poderia ser usado para navegar na interface do Playroom do Astro ou passar do mundo central para um nível, antes que o Agente de Imitação assumisse o controle para jogar um nível. Normalmente, uma transição de cena seria usada para indicar essa mudança, como abrir o menu do Cartão de Atividades ao entrar em um nível para indicar uma transição entre os dois sistemas de maneira reproduzível.

Conforme explicado por Yabe, “Para o Agente de Imitação, criamos um modelo de aprendizado de máquina que poderia recriar a jogabilidade humana e usá-lo para testar seções do jogo que não poderiam ser reproduzidas com exatidão. vezes e carregá-lo no modelo. No caso do Astro’s Playroom, tivemos testadores reproduzindo cada seção cerca de dez. [to] 20 vezes para obter uma amostra representativa. Nós alimentaríamos esses dados no sistema de aprendizado de máquina e, a partir daí, os usaríamos para replicar a jogabilidade humana para testes adicionais.”

“Criamos um modelo de aprendizado de máquina que poderia recriar a jogabilidade humana e usá-lo para testar seções do jogo que não poderiam ser reproduzidas com exatidão”Hiroyuki Yabe

Isso permitiria então que a equipe testasse repetidamente essas seções para garantir que nenhum bug fosse esquecido. Esse tipo de aprendizado de máquina era necessário para testar áreas onde a reprodução exata das entradas seria impossível, como áreas onde os jogadores tinham controle livre sobre a câmera e o ponto de vista, ou cenas onde a IA inimiga poderia reagir às ações do jogador e atacá-lo de uma forma não. -definir padrão. Nesses cenários, a reprodução exata da entrada não produziria resultados úteis nem permitiria que uma máquina completasse o nível, pois esses fatores não são estáveis ​​em sessões repetidas.

Para auxiliar os modelos de aprendizado de máquina, outros sistemas de IA, como LoFTR (Detector-Free Local Feature Matching), seriam usados ​​para ajudar o sistema a reconhecer uma cena como sendo idêntica àquelas dentro do modelo, mesmo que coisas como ângulo da câmera e posição do jogador eram diferentes da entrada fornecida ao sistema. Em testes onde o modelo de teste automatizado reverteria entre o Agente de Repetição e o Agente de Imitação, tal conhecimento seria crucial para a compreensão do jogo quando ele atingisse uma cena de transição para alternar entre agentes úteis.

Como observou Yabe, “o modelo do agente mimético requer apenas as informações da tela do jogo como entrada. Quando as informações da tela do jogo são inseridas, elas são configuradas para gerar o estado do controlador no próximo quadro e executando [the recording model] a dez quadros por segundo, é capaz de determinar operações em tempo real. O agente de imitação tem como alvo todas as cenas às quais o agente de repetição não pode ser aplicado.”

Dito isto, alguma simplificação e orientação foram necessárias para garantir que o jogo pudesse realmente aprender os ambientes usando os dados de jogo fornecidos. Por exemplo, em vez de lidar com dados analógicos brutos, isto seria simplificado em nove quadrantes de movimento que poderiam ser geridos de forma mais eficaz pelo sistema. Ao recriar a brincadeira humana, o modelo também usaria a probabilidade para determinar o pressionamento de botões em um determinado momento a partir dos dados fornecidos.


Crédito da imagem: Entretenimento interativo da Sony

Refletindo o jogo humano

Outra observação foi a necessidade de integrar o Class Balance aos dados de treinamento para garantir maiores chances de sucesso, principalmente quando se trata de uma pequena amostra de aprendizagem como seria esperado nesses casos. Um modelo treinado indiscriminadamente em um conjunto genérico de dados pode ser tendencioso para resultados que levam a uma conclusão bem-sucedida, mas não refletem o jogo humano. Enquanto isso, tarefas pouco frequentes e de grande impacto, como coletar itens essenciais para o progresso que podem cair aleatoriamente ao derrotar um inimigo, são difíceis de serem adotadas pelo aprendizado de máquina. O Balance foi introduzido para priorizar tais tarefas e tornar viável que pudesse ser usado mesmo em tais circunstâncias.

Como explicou Yutaro Miyauchi, “não é incomum em jogos haver momentos em que é necessário pressionar um botão para pegar um item que caiu em um ponto aleatório, mas é essencial para o progresso. têm um grande impacto na capacidade de passar de um nível são difíceis para o aprendizado de máquina e é difícil criar um modelo para isso. Usamos o Class Balance para ajustar o grau de influência que o aprendizado tem em nosso modelo, de modo que é dado mais peso aos importantes. operações que aparecem com menos frequência, portanto são refletidas com mais força no modelo.”

Os modelos também o treinariam com dados que o ajudariam a aprender como sair de estados falidos (enfrentar paredes, por exemplo) e retornar ao jogo padrão, para garantir que pudesse refletir melhor o jogo humano e não se encontrar jogando de uma maneira não natural. não conduz a testes eficazes.

Num exemplo mostrado durante a palestra, as probabilidades de pressionar botões e movimentos analógicos foram mostradas com e sem equilíbrio nos resultados de aprendizagem, e os resultados mostraram diferenças marcantes. No modelo equilibrado, o movimento do Astro Bot através do nível refletia a maneira como um humano se moveria pelo mundo e poderia efetivamente passar por saltos ou saliências, enquanto o sistema desequilibrado correria constantemente contra paredes ou atingiria obstáculos em seu caminho, mesmo que eventualmente possa atingir seu objetivo (ou em muitos casos, não).


Ao inserir equilíbrio nos dados, o modelo não só pôde ser treinado de forma eficaz usando menos conjuntos de dados, como também foi capaz de se adaptar melhor ao mundo de um jogo e se adaptar rapidamente a novos jogos do mesmo gênero, criando um modelo base para gêneros selecionados que poderia ser aplicado em todos os títulos.

Embora o sistema continue a ser refinado, os pesquisadores notaram inúmeras vantagens e desvantagens no modelo durante sua experiência em testar o controle de qualidade automatizado ao longo do processo de desenvolvimento deste e de outros títulos. Usando dois jogos, jogo A e B, como exemplos, eles notaram que no jogo A, mesmo com extensos dados treinados de jogo humano de uma área do jogo, nem sempre seria possível para o agente encerrar o jogo usando os dados fornecidos. . Isto exigiria então a obtenção de dados novos ou adicionais que poderiam estender o tempo necessário para testar além do que poderia ter sido alcançado com testes manuais em humanos.

No entanto, no caso do jogo B, a recolha de dados humanos para o sistema automatizado poderia levar uma hora para produzir o teste humano equivalente a 50 horas, acelerando enormemente o controle de qualidade para reduzir globalmente o número de horas de trabalho necessárias para facilitar a automação para um número abaixo do que seria necessário para alcançar os mesmos resultados através de testes em humanos.

Além disso, como o sistema não era atualmente totalmente autossuficiente e não pode atuar com total autonomia no controle de qualidade, ele ainda requer, até certo ponto, a participação humana para obter resultados eficazes. Ao responder às perguntas do público após a palestra, Yabe admitiu que quando os parâmetros fossem alterados dentro de um nível, como a colocação de inimigos e plataformas, os dados anteriores de aprendizado de máquina não seriam mais eficazes. Neste ponto, um novo modelo de aprendizado de máquina precisaria ser criado, ou a área precisaria ser testada manualmente, limitando o modelo a seções de jogo com mais recursos completos.

Como o sistema não era totalmente autossuficiente e não pode atuar com total autonomia no controle de qualidade, ainda requer, até certo ponto, a participação humana para obter resultados eficazes

No geral, porém, o uso de testes automatizados permitiu à equipe melhorar a eficiência do processo de controle de qualidade em comparação com uma abordagem totalmente orientada por humanos. Este modelo de aprendizado de máquina não eliminou totalmente a necessidade de testadores humanos, mas permitiu testes mais frequentes durante o desenvolvimento para permitir a detecção precoce de bugs. Além disso, testes adicionais em mais títulos mostraram que o sistema continuou a ser refinado, com a expectativa de que o modelo possa continuar a melhorar ao longo do tempo.

Embora a utilização da aprendizagem automática para grandes modelos de linguagem e da IA ​​generativa tenha sido desprezada e enfrentado resistência tanto dentro como fora dos círculos de desenvolvimento, estes modelos utilizados noutros cenários proporcionam benefícios tangíveis para quem cria jogos. O uso desses modelos de IA não substituiu a necessidade de especialistas em controle de qualidade – nem todos os testes são mais rápidos com máquinas do que com controle de qualidade conduzido por humanos – mas, em vez disso, integrou ainda mais o processo de controle de qualidade no processo de desenvolvimento.

Em vez de deixar a correção de bugs e o controle de qualidade até o final do desenvolvimento, ponto em que alguns problemas complexos poderiam ser mais profundamente integrados à estrutura da programação do jogo devido à falta de detecção precoce, o controle de qualidade pode ser repetido durante todo o processo de desenvolvimento sempre que novos recursos e níveis estão completos.

O desenvolvimento de sistemas de aprendizado de máquina no processo de controle de qualidade torna a detecção precoce e a correção de bugs mais simplificadas e eficazes para os desenvolvedores, melhorando a qualidade e reduzindo o número de bugs em títulos enviados ao público, ao mesmo tempo em que usam ferramentas que outros desenvolvedores podem procurar. para emular desenvolvendo e implementando seus próprios módulos de aprendizado de máquina.





Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here