LLM português anunciado por Luís Montenegro será apresentado no primeiro trimestre de 2025

“Amália”, o LLM português, é a primeira iniciativa divulgada no âmbito da Agenda Nacional de Inteligência Artificial

LLM português anunciado por Luís Montenegro será apresentado no primeiro trimestre de 2025

A ministra da Juventude e Modernização, Margarida Balseiro Lopes, e o ministro da Educação, Ciência e Inovação, Fernando Alexandre, realizaram esta sexta-feira (29 de novembro) uma reunião interministerial na sequência do anúncio do primeiro-ministro sobre o lançamento do primeiro modelo de linguagem em grande escala (LLM, na sigla em inglês) em língua portuguesa de Portugal.

Em comunicado, o ministério da Juventude e Modernização relembra que existem no mercado vários LLM estrangeiros que, na sua maioria, são desenvolvidos por empresas privadas e otimizados para processar e gerar texto em língua inglesa. Estes LLM apresentam “um desempenho menos positivo no processamento e geração de texto noutras línguas e, quando utilizados com dados sensíveis, reduzem a autonomia e soberania de dados, forçando que quem os utiliza tenha de partilhar os dados com estes fabricantes”.

Seguindo as iniciativas de vários países em desenvolver LLM próprios, é uma prioridade do governo português “o desenvolvimento e lançamento do primeiro LLM de língua portuguesa de Portugal”. Este LLM terá o nome de “Amália”, que significa “assistente multimodal automático de linguagem com inteligência artificial”. Esta iniciativa é a primeira divulgada no âmbito da Agenda Nacional de Inteligência Artificial que será apresenta de forma consolidada no primeiro trimestre de 2025. Esta é uma iniciativa do governo português que será liderada conjuntamente pela ministra da Juventude e Modernização, que tem competência delegada do primeiro-ministro relativamente à inteligência artificial, e pelo ministro da Educação, Ciência e Inovação.

O LLM português ‘Amália’ permitirá (i) contribuir para a preservação da soberania nacional, (ii) distinguir as diferentes variantes da língua portuguesa, (iii) reconhecer elementos da cultura e história de Portugal; (iv) permitir o controlo dos dados utilizados para a sua aprendizagem, e (v) assegurar condições de armazenamento e utilização de dados sensíveis, como é o caso da maioria dos dados da Administração Pública”, escreve, em comunicado, o ministério.

A execução operacional desta iniciativa será liderada pela Agência para a Modernização Administrativa – que será responsável pela gestão da iniciativa e por assegurar as condições necessárias para a futura disseminação do LLM por todos os seus potenciais utilizadores públicos e privados – e pela Fundação para a Ciência e Tecnologia – que será responsável por coordenar, junto dos centros de investigação, o treino e desenvolvimento do LLM, assegurar a infraestrutura necessária para o treino e alojamento do LLM, e pelo tratamento e curadoria dos dados que serão utilizados para este treino e desenvolvimento. Será com as infraestruturas e recursos humanos existentes nestas entidades que será possível executar uma iniciativa com objetivos e calendário ambiciosos. O treino e desenvolvimento do “Amália” será executado por um consórcio liderado pelos centros de investigação NOVA LINCS da Universidade Nova de Lisboa, Instituto de Telecomunicações e Instituto Superior Técnico, e integrará outros centros de investigação nacionais com “reconhecido mérito no âmbito da inteligência artificial”.

Esta iniciativa tem previsto um investimento de 5,5 milhões de euros e um calendário de trabalho e desenvolvimento de 18 meses, do qual resultará uma primeira versão multimodal do “Amália”. A este valor acresce o vasto investimento já realizado em infraestrutura de computação, projetos de desenvolvimento e recursos humanos especializados que contribuirão em grande medida para o desenvolvimento do LLM. O financiamento necessário à concretização do LLM Português é assegurado no âmbito do Plano de Recuperação e Resiliência (PRR) e será desenvolvido inteiramente por entidades públicas. O financiamento do projeto estará exclusivamente destinado às entidades públicas envolvidas no desenvolvimento do “Amália”.

Ao longo dos 18 meses, serão disponibilizadas várias versões do “Amália” à medida que forem desenvolvidas novas funcionalidades. No final do primeiro trimestre de 2025 será disponibilizada a versão beta, com a versão base a ser disponibilizada no final do terceiro trimestre de 2025. Por fim, a versão multimodal do “Amália” será disponibilizado no final do segundo trimestre de 2026.

Numa fase inicial, o “Amália” será criado através da conjugação dos esforços realizados no desenvolvimento do EuroLLM, do GlórIA e do v-Glória, será capaz de diferenciar as variantes da língua portuguesa e será treinado com dados do Arquivo.pt previamente curados. Esta versão beta do “Amália” conseguirá receber e interpretar instruções em formato de texto e responder com base no conhecimento adquirido, também em texto escrito em português de Portugal.

Até ao final do terceiro Trimestre de 2025, serão curados novos dados sobre a língua, a cultura e história de Portugal. Estes dados serão provenientes de fontes como o Arquivo.pt, e serão utilizados para treinar o “Amália” na sua versão base. Só nesta versão será possível gerar respostas fiáveis e precisas sobre estas temáticas, bem como responder a questões com total segurança e sem risco para o utilizador. Nesta altura, o “Amália” já poderá ser integrado noutras aplicações externas e utilizar dados dessas fontes para gerar respostas de texto.

Todas as versões desenvolvidas serão disponibilizadas de forma gratuita e em open source, para que seja utilizado por todos, incluindo Academia, centros de investigação, entidades públicas, empresas e cidadãos. Para além das versões do LLM, todos os dados que suportam o treino serão disponibilizados em dados abertos, criando assim uma infraestrutura nacional de Inteligência Artificial que potencia o ecossistema de inovação da Inteligência Artificial em Portugal. O LLM português poderá ser aplicado a diversos domínios de atividade, sendo necessário afiná-lo e treiná-lo com dados específicos dos sectores de atuação, como Educação, Saúde, Serviços Públicos, entre outros.

No final dos 18 meses do primeiro projeto de desenvolvimento do LLM, o “Amália” versão multimodal já será capaz de interpretar diversos formatos de dados, nomeadamente texto, imagem e vídeo.

O “Amália” estará disponível “para todos de forma aberta e gratuita, para que possam utilizá-lo para concretizar os seus projetos. Após este primeiro projeto, é lançado o repto a todos os utilizadores que partilhem as futuras evoluções do modelo e as coloquem ao serviço de todos os portugueses”, escreve o ministério da Juventude e Modernização.

Tags

RECOMENDADO PELOS LEITORES

REVISTA DIGITAL

IT INSIGHT Nº 52 Novembro 2024

IT INSIGHT Nº 52 Novembro 2024

NEWSLETTER

Receba todas as novidades na sua caixa de correio!

O nosso website usa cookies para garantir uma melhor experiência de utilização.