IA generativa está a ser utilizada para gerar texto explicativo a partir de vídeos

A NEC está a utilizar IA generativa e inteligência artificial de reconhecimento de vídeo para gerar automaticamente texto explicativo a partir de vídeos de condução, o que reduz para metade o tempo de geração de relatórios de acidentes

IA generativa está a ser utilizada para gerar texto explicativo a partir de vídeos

A NEC Corporation desenvolveu aquela que diz ser a primeira tecnologia a nível mundial que integra um modelo Large Language (LLM) de IA generativa e IA de reconhecimento de vídeo, de modo a produzir de forma automática vídeos mais curtos, com texto explicativo, a partir de vídeos longos.

Ao analisar vídeos de imagens de condução com esta tecnologia, é possível gerar automaticamente texto e vídeos mais curtos que explicam as circunstâncias de um acidente e como este ocorreu. Com base no texto e no vídeo, pode ser criado de forma automática um relatório de investigação do acidente, num formato adequado para pedidos de indemnização de seguros de não vida e instruções de segurança rodoviária. A NEC planeia disponibilizar uma versão experimental desta tecnologia em março de 2024.

Nos últimos anos, o vídeo tem sido cada vez mais utilizado para efeitos de gestão da segurança e eficiência operacional numa variedade de indústrias, incluindo transportes, logística, fabrico, construção e retalho. Contudo, é necessário alocar um grande número de horas para verificar manualmente vídeos longos e criar relatórios sobre potenciais acidentes e áreas a melhorar. Apesar de se ter tornado possível gerar um texto explicativo para imagens fixas através da IA generativa (imagem-para-texto), tem sido difícil aplicar essas tecnologias de imagem-para-texto a vídeos que contenham cenas complexas, constituídas por vários objetos e ambientes e que mudam ao longo do tempo.

A combinação de IA de reconhecimento de vídeo e LLM permite compreender cada cena de um vídeo. Especificamente, mais de cem algoritmos de IA de reconhecimento de vídeo são aplicados para reconhecer, de forma individual, os vários objetos e ambientes que compõem uma cena, tais como pessoas, carros, edifícios, animais, árvores e outros elementos naturais, e também o clima, assim como as alterações de todos esses elementos. Ao utilizar o LLM para analisar apenas os resultados do reconhecimento, os utilizadores podem encontrar a cena que procuram de forma mais eficiente do que ao analisar um vídeo inteiro, eliminando a necessidade de verificar repetidamente um vídeo.

Para melhorar a qualidade do texto gerado, o LLM é pré-ajustado utilizando amostras de vídeos de um domínio específico. Por exemplo, quando aplicado a vídeos de imagens de condução, vídeos relacionados com tráfego rodoviário são previamente analisados. Isto dá ao LLM a experiência necessária para compreender corretamente o que aconteceu no vídeo. Como resultado, é possível criar relatórios altamente fiáveis, enquanto se aborda a alucinação, que tem sido um problema em termos de precisão da IA generativa.

Esta tecnologia pode criar um vídeo de uma cena desejada e um texto explicativo em poucos segundos a partir de um vídeo com mais de uma hora de duração. Para o conseguir, a NEC integrou um LLM compacto e de elevado desempenho e um sistema de leitura de dados de alta velocidade desenvolvido pela própria empresa.

Em março de 2024, a NEC planeia começar a disponibilizar uma versão experimental desta tecnologia a companhias de seguros de não vida e fabricantes de automóveis para apoiar a preparação de relatórios de investigação de acidentes e outros documentos que utilizem vídeos de imagens de condução.

Tags

NOTÍCIAS RELACIONADAS

RECOMENDADO PELOS LEITORES

REVISTA DIGITAL

IT INSIGHT Nº 52 Novembro 2024

IT INSIGHT Nº 52 Novembro 2024

NEWSLETTER

Receba todas as novidades na sua caixa de correio!

O nosso website usa cookies para garantir uma melhor experiência de utilização.