今天我们将通过本篇文章与大家分享我们的最新AI产品公告和愿景,包括:Workers AI正式发布并提供更理想的定价,GPU硬件更新动态,我们与Hugging Face的合作伙伴关系进一步扩大,自带LoRA微调推理,Workers的Python支持,AI Gateway增加更多提供商,以及Vectorize元数据过滤等消息。
Workers AI正式发布
我们的Workers AI推理平台已正式发布。经过几个月的公测,我们改进了服务,提高了可靠性和性能,公布了定价,并在目录中增加了更多模型。
-提高性能和可靠性
通过Workers AI,我们的目标是使AI推理像Cloudflare网络的其余部分一样可靠易用。在幕后,我们已经升级了Workers AI中内置的负载平衡。现在,请求可以路由到更多城市中的更多GPU,且每个城市都知道AI推理的总可用容量。如果请求在当前城市必须排队,它可被路由到另一个位置,以便在高流量情况下更快地将结果返回给您。同时,我们已经提高了所有模型的速率限制,大多数LLM现在每分钟可处理300个请求,而不是测试期间的每分钟50个请求。较小的模型有每分钟1500-3000个请求的限制。请查看我们的开发人员文档,了解各个模型的速率限制。
-降低热门模型的成本
在Workers AI正式发布的同时,我们还公布了10个非测试版模型的定价计算器。我们希望Workers AI成为运行推理最经济、最便捷的解决方案之一,因此对我们的模型进行了一些优化,使它们更经济实惠。现在,与我们最初在3月1日公布的数据相比,Llama 2的运行成本降低了7倍多,Mistral 7B的运行成本降低了14倍多。我们希望继续成为AI推理的最佳平台,并将在可能的情况下继续向客户推出优化迭代。
提醒一下,我们从4月1日开始对Workers AI的非测试版模型计费,而测试版模型仍然是免费和无限制的。我们每天免费向所有客户提供10000个神经元。Workers Free用户在24小时内使用10000个神经元后将遇到严格速率限制,而Workers Paid用户每增加1000个神经元将产生0.011美元的费用。请阅读我们的Workers AI定价开发人员文档,了解有关定价的最新信息。
-全新仪表板和演练场
最后,我们改造了Workers AI仪表板和AI演练场。Cloudflare面板中的Workers AI页面现在可显示各个模型的使用分析,包括神经元计算,以帮助您更好地预测定价。AI演练场可让您快速测试和比较不同的模型,并配置提示词和参数。我们希望这些新工具能帮助开发人员开始在Workers AI上进行无缝构建——欢迎尝试!
在分布全球150多个城市的GPU上运行推理
2023年9月刚宣布推出Workers AI时,我们就开始在世界各地的数据中心部署GPU。我们计划兑现这一承诺,于2024年底前在几乎所有地方部署经过推理微调的GPU,使我们成为分布最广泛的云AI推理平台。目前,我们已在150多个城市部署了GPU,并将在今年陆续推出更多GPU。
我们还将在2024年第二季度推出配备GPU的下一代计算服务器。这意味着与前几代产品相比,下一代产品具有更高的性能、能效和可靠性。我们在2023年12月发表的一篇博客文章中提供了第12代计算服务器设计的预览,更多细节将陆续公布。通过第12代和未来计划推出的硬件,下一步是支持更大的机器学习模型,并在我们的平台上提供微调。这将使我们能够为生产工作负载实现更大的推理吞吐量、更低的延迟和更高的可用性,并扩大对微调等新型工作负载的支持。
Huggingface合作伙伴关系
我们很高兴能推进与Hugging Face之间的合作关系,致力于为我们的客户提供更优的开源技术。现在,您可以访问Hugging Face上一些最受欢迎的模型,如果该模型在我们的平台上可用,您只需轻松点击该模型便可在Workers AI上运行。
通过与Hugging Face的合作,我们的平台添加了4个模型。您现在可以访问改进了上下文窗口的全新Mistral 7B v0.2模型、Nous Research的Hermes 2 Pro微调版Mistral 7B、Google的Gemma 7B和来自OpenChat的Starling-LM-7B-beta微调版。目前,我们与Hugging Face合作管理着14个模型,用于在Cloudflare的Workers AI运行无服务器GPU推理-更多模型即将推出。这些模型均使用Hugging Face的技术通过TGI后端提供服务,我们与Hugging Face团队密切合作,共同策划、优化和部署了这些模型。
“我们很高兴能与Cloudflare合作,让开发人员更容易利用AI。对Hugging Face社区来说,通过全球GPU网络支持的无服务器API提供最流行的开放模型是一个非常棒的提议,我迫不及待想看看他们会用它构建什么。”
-Julien Chaumond,联合创始人兼首席技术官,Hugging Face
您可以在Hugging Face Collection中找到Workers AI支持的所有开放模型,“部署到Cloudflare Workers AI”按钮位于每个模型卡的顶部。
支持微调推理——自带LoRA
微调推理是用户呼声最高的Workers AI功能之一,现在我们离自带(BYO)LoRA又近了一步。研究人员利用流行的低阶适应(Low-Rank Adaptation)方法,找到了如何对一个模型根据手头的任务调整部分模型参数的方法,而不是重写所有模型参数(就像完全微调模型一样)。这意味着,无需付出完全微调模型的计算费用,您就可以获得微调模型的输出。
我们现在支持将经过训练的LoRA带到Workers AI,我们在运行时将LoRA适配器应用于基础模型,为您提供经过微调的推理,成本、大小和速度仅为完全微调模型的一小部分。未来,我们希望能够在我们的平台上直接支持微调任务和完全微调模型,但我们依然很高兴在这一阶段能够通过LoRA更进一步。
BYO LoRAs现已开放测试,适用于Gemma 2B和7B、Llama 2 7B和Mistral 7B模型,LoRA适配器大小不超过100MB,最高8阶,每个账户最多30个LoRA。一如既往,我们希望您在使用Workers AI和新的BYO LoRA功能时遵守我们的服务条款,包括模型许可条款中包含的任何模型特定使用限制。
用Python编写Workers
Python是世界上第二流行的编程语言(仅次于JavaScript),也是构建AI应用程序的首选语言。现在开始,在公测版中,您可以用Python编写Cloudflare Workers。Python Workers支持与Cloudflare资源的所有绑定,包括Vectorize、D1、KV、R2等。
LangChain是构建由LLM驱动的应用程序的最流行框架,就像Workers AI与langchain-js协作一样,Python LangChain库也能在Python Workers上运行,就像FastAPI等其他Python软件包一样。
用Python编写Workers与使用JavaScript编写Workers一样简单:
……只需在Wrangler.toml中指向一个.py文件即可进行配置:
无需额外的工具链或预编译步骤。Pyodide Python执行环境由Workers运行时直接提供,工作方式与JavaScript编写的Workers如出一辙。
AI Gateway现已支持Anthropic、Azure、AWS Bedrock、Google Vertex和Perplexity
我们的AI Gateway产品帮助开发人员更好地控制和观察他们的AI应用,提供分析、缓存、速率限制等功能。我们正继续为该产品添加更多供应商,包括最近加入的Anthropic、Google Vertex和Perplexity。我们在2023年12月推出了对Azure和Amazon Bedrock的支持,这意味着最流行的提供商现在都可以通过AI Gateway获得支持,包括Workers AI本身。
即将推出:持久日志(Persistent Logs)
在2024年第二季度,我们将推出持久日志,以便将日志(包括提示词和响应)推送到对象存储;自定义元数据,以便使用用户ID或其他标识符标记请求;机密管理,以便安全地管理应用程序的API密钥。
我们希望AI Gateway成为您的AI应用程序控制平面,允许开发人员动态评估并将请求路由到不同的模型和提供商。通过持久日志功能,我们希望让开发人员能够使用他们记录的数据一键微调模型,最终在我们的Workers AI平台上直接运行微调任务和微调模型。AI Gateway只是我们AI工具包中的产品之一,但我们对它能为在我们平台上开发的开发人员解锁的工作流程和用例感到兴奋,希望您也能为之兴奋。
Vectorize元数据过滤,正式版将支持百万向量索引
Vectorize是我们AI应用程序工具包的另一个组件。自2023年9月公测以来,Vectorize允许开发人员持久化嵌入(向量),例如从Workers AI文本嵌入模型生成的那些,并查询最接近的匹配,以支持相似性搜索或推荐等用例。如果没有向量数据库,模型输出会被遗忘而无法调用,除非投入额外成本并重新运行模型。
自Vectorize公测发布以来,我们增加了元数据过滤功能。元数据过滤让开发人员能够将向量搜索与任意元数据过滤结合起来,支持AI应用中的复杂查询。我们正全力以赴为Vectorize正式发布做准备,目标日期就在2024年6月,其中将包括对百万级索引的支持。
构建AI应用的最全面开发人员平台
在Cloudflare开发人员平台上,我们认为所有开发人员都应该能够快速构建和发布全栈应用,其中也包括AI体验。通过Workers AI正式版、Workers AI的Python支持、AI Gateway、Vectorize以及与Hugging Face的合作关系,扩大了在我们的平台上构建AI应用程序的可能性。