翻身猫AI:鉴定AIGC生成内容的AI含量检测

比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU

[ 首页 ] > 栏目[ Llama ] > 文章[ 比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU ] 发布时间: 编号: 41421

英伟达的挑战者Groq登场!抛弃GPU,自研LPU!文本生成速度比眨眼还快!推理场景速度比英伟达GPU快10倍,但价格和耗电量都仅为后者十分之一

前言

本周AI圈的天是变了又变。

还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。

本周AI芯片创企Groq开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。

有网友震惊地说:它回复的速度比我眨眼还快《比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU》- 投稿作者:AI小分队 - 发布于:GetAI社区

不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。

拥有冠绝大模型响应速度的Groq却并未使用英伟达的GPU,而是自研了新型AI芯片—LPU(Language Processing Units)。

每秒500 tokens,写论文比你眨眼还快

LPU最突出的特点就是快。

根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。《比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU》- 投稿作者:AI小分队 - 发布于:GetAI社区

华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。

如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。《比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU》- 投稿作者:AI小分队 - 发布于:GetAI社区

还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。

结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。

Groq在速度上对其他AI模型的降维打击,让网友直呼,“AI推理界的美国队长来了”。《比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU》- 投稿作者:AI小分队 - 发布于:GetAI社区

LPU是英伟达GPU的挑战者?

再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。

根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:《比GPT-4快18倍,世界最快大模型Groq登场!自研LPU速度碾压英伟达GPU》- 投稿作者:AI小分队 - 发布于:GetAI社区

简单来说,对用户而言,最直观的体验就是“快”。

使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。

Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。

能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。

在去年底的采访中,公司创始人Ross表示,考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力:在12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。