Hon Hai Research Institute lança um LLM em chinês tradicional com recursos de raciocínio
07.08.2025 - 18:03:01O FoxBrain foi desenvolvido com base na arquitetura Meta Llama 3.1 com parâmetros 70B. Na maioria das categorias do conjunto de dados de teste do TMMLU+, ele supera o Llama-3-Taiwan-70B da mesma escala, destacando-se principalmente em matemática e raciocínio lógico (para saber mais sobre o benchmark TMMLU+ do FoxBrain, consulte a Fig. 1). Seguem as especificações técnicas e as estratégias de treinamento do FoxBrain:
Estabeleceu métodos de aumento de dados e avaliação de qualidade em 24 categorias de tópicos usando tecnologia própria, gerando 98 bilhões de tokens de dados de pré-treinamento de alta qualidade para o chinês tradicionalTamanho da janela de contexto: 128 K tokensForam utilizadas 120 GPUs NVIDIA H100 para treinamento, com um custo computacional total de 2.688 dias de GPUFoi empregada uma arquitetura de treinamento paralelo de vários nós para proporcionar alto desempenho e estabilidadeFoi utilizada uma técnica exclusiva de Reflexão de Raciocínio Adaptativo para treinar o modelo em raciocínio autônomoNos resultados dos testes, o FoxBrain apresentou grandes melhorias em matemática em comparação com o modelo básico Meta Llama 3.1. Ele apresentou um progresso significativo em testes matemáticos em comparação com o Taiwan Llama, atualmente o melhor modelo chinês tradicional de grande porte, e superou os modelos atuais do Meta da mesma classe no quesito capacidade de raciocínio matemático. Embora ainda haja uma pequena lacuna no modelo de destilação do DeepSeek, seu desempenho já está muito próximo dos principais padrões internacionais.
O desenvolvimento do FoxBrain - desde a coleta, limpeza e ampliação de dados até o pré-treinamento contínuo, o ajuste fino supervisionado, o RLAIF e a reflexão do raciocínio adaptativo - ocorreu gradualmente por meio de pesquisa independente, alcançando benefícios que se aproximam dos modelos de IA de primeira linha, apesar dos limitados recursos computacionais. Essa pesquisa de grandes modelos de linguagem demonstra que o talento tecnológico de Taiwan pode competir com seus colegas internacionais no segmento de modelos de IA.
Embora o FoxBrain tenha sido originalmente projetado para aplicativos internos do grupo, no futuro, o Grupo continuará a trabalhar em conjunto com parceiros de tecnologia para expandir os aplicativos do FoxBrain, compartilhar suas informações de código aberto e promover a IA na fabricação, no gerenciamento da cadeia de suprimentos e na tomada de decisões inteligentes.
Durante o treinamento do modelo, a NVIDIA ofereceu suporte com o Supercomputador Taipei-1 e consultoria técnica, permitindo que o Hon Hai Research Institute concluísse com sucesso o pré-treinamento do modelo com o NVIDIA NeMo. O FoxBrain também será um importante mecanismo para promover a atualização das três principais plataformas da Foxconn: Manufatura inteligente. Veículos elétricos inteligentes. Cidade inteligente.
Os resultados do FoxBrain deverão ser divulgados pela primeira vez em uma grande conferência durante o NVIDIA GTC 2025 Session Talk "Do código aberto à IA generativa: criação, personalização e ampliação de modelos fundamentais" em 20 de março.
Sobre o Hon Hai Research Institute
O instituto possui cinco centros de pesquisa. Cada centro tem uma média de 40 profissionais de P&D de alta tecnologia, todos focados na pesquisa e no desenvolvimento de novas tecnologias, no fortalecimento da tecnologia da Foxconn e no fluxo de inovação de produtos, nas iniciativas para apoiar a transformação do Grupo de "músculos" para "cérebros" e no aumento da competitividade da estratégia "3+3" da Foxconn.
Sobre a Foxconn aqui.
View original content to download multimedia:https://www.prnewswire.com/br/comunicados-para-a-imprensa/hon-hai-research-institute-lanca-um-llm-em-chines-tradicional-com-recursos-de-raciocinio-302398250.html
FONTE Hon Hai Research Institute


