最好的开源AI模型:解释所有免费使用的选项

综合作者 / 花爷 / 2025-09-24 10:23
"
      自两年前公开推出以来,生成人工智能(Gen AI)取得了长足的进步。这项技术带来了革命性的应用程序,可以以令人印象

  

  

  自两年前公开推出以来,生成人工智能(Gen AI)取得了长足的进步。这项技术带来了革命性的应用程序,可以以令人印象深刻的准确性和创造力创建文本、图像和其他媒体。

  开源生成模型对于希望利用尖端人工智能技术而不产生高额许可费用或限制性商业政策的开发人员、研究人员和组织非常有价值。让我们了解更多。

  开源人工智能模型提供了几个优势,包括定制化、透明度和社区驱动的创新。这些模型允许用户根据特定需求定制它们,并从持续的增强中获益。此外,它们通常附带允许商业和非商业使用的许可证,这增强了它们在各种应用程序之间的可访问性和适应性。

  然而,开源解决方案并不总是最好的选择。在需要严格的法规遵从性、数据隐私和专门支持的行业中,专有模型通常表现更好。它们提供更强大的法律框架、专门的客户支持和针对行业需求量身定制的优化。闭源解决方案也可能在高度专业化的任务中表现出色,这要归功于为高性能和可靠性而设计的独特功能。

  当组织需要实时更新、高级安全性或专门功能时,专有模型可以提供更健壮和安全的解决方案,有效地平衡开放性与对质量和责任的严格要求。

  开源倡议组织(OSI)最近推出了开源人工智能定义(OSAID),以澄清什么是真正的开源人工智能。为了满足OSAID标准,模型必须在其设计和训练数据中完全透明,使用户能够自由地重新创建、调整和使用它。

  然而,一些流行的模型,包括meta的LLaMA和Stability AI的Stable Diffusion,都有许可限制或缺乏训练数据的透明度,因此无法完全遵守OSAID。

  作为OSAID验证过程的一部分,OSI评估了以下内容:

  兼容模型:Pythia (Eleuther AI), OLMo (AI2), Amber和CrystalCoder (LLM360),以及T5 (Google)。

  潜在的兼容模型:Bloom (BigScience)、Starcoder2 (BigCode)和Falcon (TII)可以通过对许可条款或透明度进行微小调整来满足OSAID标准。

  不一致的模型:骆驼(我ta)、Grok (X/Twitter)、Phi(微软)和Mixtral (Mistral)缺乏必要的透明度或强加限制性许可条款。

  meta LLaMA架构不符合OSAID,因为其限制性的研究许可和训练数据缺乏完全的透明度,限制了商业用途和可重复性。衍生模型,如Mistral的Mixtral和Vicuna团队的MiniGPT-4,继承了这些限制,将LLaMA的不遵守传播到其他项目中。

  除了基于llama的模型之外,其他广泛使用的体系结构也面临着类似的问题。例如,Stability Diffusion by Stability AI采用Creative ML OpenRAIL-M许可证,其中包括偏离OSAID无限制使用要求的道德限制。类似地,xAI的Grok结合了专有元素和使用限制,挑战了它与开源理想的一致性。

  这些例子强调了满足OSAID标准的难度,因为许多AI开发人员在开放获取与商业和道德考虑之间取得平衡。

  选择符合osaid的模型可以为组织提供透明度,法律安全性和完全可定制性,这对于负责任和灵活的人工智能使用至关重要。这些兼容的模型坚持道德实践,并受益于强大的社区支持,促进协作开发。

  相反,不兼容的模型可能会限制适应性,并且更多地依赖专有资源。对于那些优先考虑灵活性和与开源价值保持一致的组织来说,osaid兼容的模型是有利的。然而,当需要专有特性时,不兼容的模型仍然是有价值的。

  开源人工智能模型是在定义使用、修改和共享条件的许可下发布的。虽然一些许可证与传统的开源标准保持一致,但其他许可证则包含限制或道德准则,以防止完全遵守OSAID。主要许可证包括:

  Apache 2.0:允许自由使用、修改和分发的宽松许可证,以及专利授权。Apache 2.0是osi认可的,在开源项目中很受欢迎,它提供了灵活性和法律保护。

  麻省理工学院:另一个宽容的许可只需要重用属性。像Apache 2.0一样,MIT是osi认可的,被广泛采用,并且提供简单性和最小的限制。

  OpenRAIL-M:为人工智能应用程序设计的许可证,允许广泛使用,但施加道德准则以防止有害使用。OpenRAIL-M没有得到osi的批准,因为它包含了一些使用限制与OSI不受限制的自由原则相冲突。然而,旨在优先考虑人工智能中道德使用的开发人员非常重视这一点。

  CC冲锋队:知识共享许可协议允许自由使用,并要求衍生作品保持开源。虽然它鼓励开放协作,但它不是osi认可的,而且更常见仅用于…内容而不是代码,因为它对软件应用程序缺乏一些灵活性。

  CC BY-NC 4.0:一种知识共享许可协议,允许免费使用并注明出处,但限制商业应用。这个许可证,用于某些模型权重(如我)(即MusicGen和AudioGen),限制了这些模型在商业环境中的可用性并且不符合OSI的开源标准。

  定制的许可证:我们列表中的许多模型,如IBM的Granite和Nvidia的NeMo,都是在专有或定制许可下运行的。这些模型通常会施加特定的限制使用或修改传统的条件将开放源代码条款与商业目标保持一致,使它们不符合开放源代码原则。

  Research-o原来许可证:某些模型,比如我它的LLaMA和Codellama系列,可在6月只有在研究使用的条件下。这些许可证限制了学术或非商业目的的使用,并阻止了广泛的社区驱动项目,因为它们不符合OSI的开源标准。

  运行开源的Gen AI模型需要特定的硬件、软件环境,以及用于模型训练、微调和部署任务的工具集。拥有数十亿参数的高性能模型受益于强大的GPU设置,如Nvidia的A100或H100。

  基本环境通常包括Python和机器学习库,如PyTorch或TensorFlow。专门的工具集,包括hugs Face的Transformers库和Nvidia的NeMo,简化了微调和部署的过程。Docker有助于在不同的系统之间保持一致的环境,而Ollama允许在兼容的系统上本地执行大型语言模型。

  下面的图表重点介绍了管理开源人工智能模型的基本工具集、推荐硬件及其具体功能:

  工具集

  目的

  需求

  使用

  Python

  主编程环境

  N/A

  对于编写脚本和配置模型至关重要

  PyTorch

  模型训练和推理

  GPU(如Nvidia A100、H100)

  广泛使用的深度学习模型库

  TensorFlow

  模型训练和推理

  GPU(如Nvidia A100、H100)

  替代深度学习库

  拥抱脸变压器

  模型部署和微调

  GPU(首选)

  库,用于访问、微调和部署模型

  英伟达尼莫

  多模式模型支持和部署

  Nvidia gpu

  为Nvidia硬件和多模式任务优化

  码头工人

  环境一致性和部署

  支持gpu

  容器化模型以便于部署

  Ollama

  在本地运行大型语言模型

  macOS、Linux、Windows支持gpu

  在兼容系统上本地运行llm的平台

  LangChain

  用法学硕士构建应用程序

  Python 3.7 +

  框架,用于组合和部署llm驱动的应用程序

  LlamaIndex

  将llm与外部数据源连接起来

  Python 3.7 +

  集成llm与数据源的框架

  这种设置为有效管理Gen AI模型建立了一个强大的框架,从实验到生产就绪部署。每个工具集都具有独特的优势,使开发人员能够根据特定的项目需求定制他们的环境。

  选择正确的人工智能模型取决于几个因素,包括许可要求、期望的性能和特定的功能。虽然较大的模型倾向于提供更高的准确性和灵活性,但它们需要大量的计算资源。另一方面,较小的模型更适合资源受限的应用程序和设备。

  值得注意的是,这里列出的大多数模型,即使是那些具有传统开源许可证(如Apache 2.0或MIT)的模型,也不符合开源人工智能定义(OSAID)。这种差距主要是由于围绕训练数据透明度和使用限制的限制,OSAID强调这对于真正的开源人工智能至关重要。然而,某些模型,如Bloom和Falcon,显示出对其许可或透明度协议进行微小调整的潜力,并可能随着时间的推移实现完全合规。

  下表提供了领先的开源生成AI模型的有组织的概述,按类型、发布者和功能分类,以帮助您选择适合您需求的最佳选择,无论是完全透明的社区驱动模型还是具有特定功能和许可要求的高性能工具。

  语言模型在基于文本的应用程序(如聊天机器人、内容创建、翻译和摘要)中至关重要。他们是自然语言处理(NLP)的基础,并不断提高他们对语言结构和上下文的理解。

  值得注意的模型包括meta的LLaMA、EleutherAI的GPT-NeoX和Nvidia的NVLM 1.0系列,它们都以其在多语言、大规模和多模式任务方面的独特优势而闻名。

  发行人及型号

  参数的大小

  许可证

  突出了

  谷歌T5

  小到XXL

  Apache 2.0

  高性能语言模型,OSAID兼容

  EleutherAI皮提亚

  各种各样的

  Apache 2.0

  可解释性为重点,OSAID兼容

  艾伦人工智能研究所(AI2)

  各种各样的

  Apache 2.0

  开放语言研究模型,OSAID兼容

  BigScience开花

  176 b

  OpenRAIL-M

  多语言,但潜在的AI

  BigCode Starcoder2

  各种各样的

  Apache 2.0

  代码生成,OSAID潜能

  TII猎鹰

  7 b 40 b

  Apache 2.0

  高效和高性能,OSAID潜力

  AI21实验室Jamba系列

  迷你到大号

  自定义

  语言和聊天生成

  AI新加坡海狮

  7 b

  自定义

  语言和文化表征

  阿里巴巴qq系列

  7 b

  自定义

  双语模式(中文、英文)

  数据垛多利2.0

  12 b

  CC BY-SA 3.0

  开放数据集,商业用途

  EleutherAI GPT-J

  6 b

  Apache 2.0

  通用语言模型

  EleutherAI GPT-NeoX

  20 b

  麻省理工学院

  大规模文本生成

  谷歌Gemma 2

  2b 9b 27b

  Apache 2.0

  语言和代码生成

  IBM Granite系列

  3 b, 8 b

  自定义

  总结、分类、RAG

  我ta LLaMA 3.2

  1B到405B

  研究导向

  高级NLP,多语言

  微软Phi-3系列

  迷你至中号

  麻省理工学院

  推理,具有成本效益的

  Mistral AI Mixtral 8x22B

  8 x22b

  Apache 2.0

  稀疏模型,高效推理

  西北风AI西北风7B

  7 b

  Apache 2.0

  密集的多语言文本生成

  Nvidia NVLM 1.0系列

  72 b

  自定义

  高性能多模式法学硕士

  Rakuten RakutenAI系列

  7 b

  自定义

  多语言聊天,NLP

  新品Grok-1

  314 b

  Apache 2.0

  大规模语言模型

  图像生成模型根据文本提示创建高质量的视觉效果或艺术品,这对内容创建者、设计师和营销人员来说是非常宝贵的。

  Stability AI的Stable Diffusion因其灵活性和输出质量而被广泛采用,而DeepFloyd的IF则强调在理解语言的基础上生成逼真的视觉效果。

  发行人及型号

  参数的大小

  许可证

  突出了

  稳定性AI稳定扩散3.5

  2.5到8B

  OpenRAIL-M

  高质量图像合成

  DeepFloyd如果

  400M至4.3B

  自定义

  具有语言理解能力的逼真视觉效果

  OpenAI DALL-E 3

  不披露

  自定义

  最先进的文本到图像合成

  谷歌画像

  不披露

  自定义

  从文本生成高保真图像

  Midjourney

  不披露

  自定义

  艺术和风格化的图像生成

  Adobe萤火虫

  不披露

  自定义

  在Adobe产品中集成AI图像生成

  视觉模型分析图像和视频,支持对象检测、分割和从文本提示生成视觉。

  这些技术使多个行业受益,包括医疗保健、自动驾驶汽车和媒体。

  发行人及型号

  参数的大小

  许可证

  突出了

  我SAM 2.1

  38.9米至224.4米

  Apache 2.0

  视频编辑、分割

  NVIDIA的一致性

  不披露

  自定义

  字符有限公司跨视频的一致性拉美西斯

  英伟达VISTA-3D

  不披露

  自定义

  医学成像,解剖分割

  英伟达NV-DINOv2

  不披露

  非商业性

  图像嵌入生成

  谷歌DeepLab

  不披露

  Apache 2.0

  高质量语义图像分割

  微软佛罗伦萨

  0.77 0.23 b, b

  麻省理工学院

  计算机视觉的通用视觉模型

  OpenAI剪辑

  400米

  麻省理工学院

  文本和图像理解

  音频模型处理和生成音频数据,支持语音识别、文本到语音合成、音乐合成和音频增强。

  发行人及型号

  大小

  许可证

  突出了

  Coqui.ai TTS

  N/A

  MPL 2.0

  文本到语音合成,多语言支持

  ESPnet ESPnet

  N/A

  Apache 2.0

  端到端语音处理工具箱

  Facebook AI wav2vec 2.0

  英航小型(95米),大型(317米)

  Apache 2.0

  自监督语音识别

  拥抱脸变形(语音模型)

  各种各样的

  Apache 2.0

  ASR和TTS模型的集合

  洋红色MusicVAE

  N/A

  Apache 2.0

  音乐生成和插值

  我助教MusicGen

  N/A

  MIT / CC BY-NC 4.0

  从文本舞会生成音乐分

  我助教AudioGen

  N/A

  MIT / CC BY-NC 4.0

  从文本prom生成声音效果分

  我助教EnCodec

  N/A

  MIT / CC BY-NC 4.0

  高质量音频压缩

  Mozilla DeepSpeech

  N/A

  MPL 2.0

  端到端的语音转文本引擎

  NVIDIA NeMo(语音模型)

  各种各样的

  Apache 2.0

  针对Nvidia gpu优化的ASR和TTS模型

  OpenAI点唱机

  N/A

  麻省理工学院

  基于类型/艺术家条件的神经音乐生成

  OpenAI耳语

  39M到16b

  麻省理工学院

  多语言语音识别和翻译但又

  TensorFlow TFLite语音模型

  N/A

  Apache 2.0

  针对移动设备优化的语音识别模型

  多模态模型结合文本、图像、音频和其他数据类型,从各种输入创建内容。

  这些模型在需要语言、视觉和感官理解的应用中是有效的。

  模型名称

  参数的大小

  许可证

  突出了

  艾伦人工智能研究所(AI2) Molmo

  70 b, b

  Apache 2.0

  一个多模态人工智能模型,处理文本和视觉输入,osaid兼容

  我助教ImageBind

  N/A

  自定义

  集成六种数据类型:文本,图像,音频,深度,热,和IMU。

  我助教SeamlessM4T

  N/A

  自定义

  提供多语种翻译和翻译但服务。

  我塔灵LM

  N/A

  自定义

  结合文本和语音产生自然的声音输出。

  微软Florence-2

  0.77 0.23 b, b

  麻省理工学院

  熟练处理计算机视觉和语言任务。

  英伟达维拉

  N/A

  自定义

  有效地处理视觉语言任务。

  OpenAI剪辑

  400米

  麻省理工学院

  优秀的文本和图像理解能力。

  骆马队MiniGPT-4

  13 b

  Apache 2.0

  能够理解文本和图像。

  RAG模型将生成人工智能与信息检索相结合,允许它们将来自广泛数据集的相关数据纳入其响应中。

  发行人及型号

  参数的大小

  许可证

  突出了

  海湾BGE-M3

  N/A

  自定义

  密集和稀疏检索val优化

  IBM Granite 3.0系列

  3 b, 8 b

  自定义

  先进retrieval, summary, RAG

  Nvidia EmbedQA & ReRankQA

  1 b

  自定义

  多语言QA, gpu加速检索瓦尔

  专门模型针对特定领域(如编程、科学研究和医疗保健)进行了优化,提供了针对其领域量身定制的增强功能。

  发行人及型号

  参数的大小

  许可证

  突出了

  我Codellama系列

  7b, 13b, 34b

  自定义

  代码生成,多语言编程

  Mistral AI Mamba-Codestral

  7 b

  Apache 2.0

  专注于编码和多语言功能

  Mistral AI Mathstral

  7 b

  Apache 2.0

  擅长数学推理

  护栏模型通过检测和减轻偏见、不适当的内容和有害的反应,确保安全、负责任的产出。

  发行人及型号

  参数的大小

  许可证

  突出了

  NVIDIA NeMo护栏

  N/A

  Apache 2.0

  用于添加可编程护栏的开源工具包

  谷歌ShieldGemma

  2b 9b 27b

  自定义

  基于Gemma 2的安全分类器模型

  IBM Granite-Guardian

  8 b

  自定义

  检测不道德或有害的内容

  生成式人工智能的前景正在迅速发展,开源模型对于让所有人都能使用先进技术至关重要。这些模型允许定制和协作,打破了限制大公司人工智能开发的障碍。

  开发人员可以根据自己的需求定制解决方案,选择开源的Gen AI,为全球社区做出贡献,并加速技术进步。各种可用的模型-从语言和视觉到以安全为中心的设计-确保几乎任何应用程序的选择。

  支持开源人工智能社区对于促进道德和创新的人工智能发展、使单个项目受益以及负责任地推进技术发展至关重要。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读