vLLM-MLX: inferência LLM nativa em Apple Silicon atinge 464 tok/s no M4 Max
vLLM-MLX permite rodar LLMs, modelos de visão, áudio e TTS nativamente em Macs com Apple Silicon, alcançando 464 tok/s n...
4 artigos encontrados
vLLM-MLX permite rodar LLMs, modelos de visão, áudio e TTS nativamente em Macs com Apple Silicon, alcançando 464 tok/s n...
Oumi é um framework open source que unifica fine-tuning, avaliação e deploy de LLMs e VLMs com suporte a técnicas como L...
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
UltraRAG v2 é um framework open-source que usa arquitetura MCP client-server para construir pipelines RAG complexos com...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .