Nvidia 悄然推出了一款新型人工智能模型,名为 Llama-3.1-Nemotron-70B-Instruct,表现出色,已经超越了 OpenAI 的 GPT-4和 Anthropic 的 Claude3.5,标志着人工智能领域竞争格局的重大变化。这款模型在知名 AI 平台 Hugging Face 上发布,虽然没有太大的宣传,但其卓越的性能迅速引起了业界的关注。
根据 Nvidia 的报告,这款新模型在多项基准测试中获得了最高分,包括在 Arena Hard 基准测试中得分85.0、在 AlpacaEval2LC 中得分57.6、以及在 GPT-4-Turbo MT-Bench 中得分8.98。这些分数让 Nvidia 在 AI 语言理解和生成方面迅速崛起,成为行业的新领导者。
Nvidia 一直以来以 GPU 而闻名,尤其是在推动 AI 系统发展方面。如今,他们不仅在硬件领域处于领先地位,还展示了在 AI 软件开发方面的强大能力。这次模型的发布也表明 Nvidia 正在进行战略扩展,挑战传统的语言模型开发模式。
Nvidia 通过使用强化学习从人类反馈(RLHF)技术,对 Meta 的开源 Llama3.1模型进行了改进。这种方法使得模型能更好地理解人类的偏好,进而提供更自然的回应。这款模型不仅性能优异,而且能够处理复杂查询,无需额外的提示或特定的标记。
为了支持企业探索 AI 解决方案,Nvidia 还提供了免费的托管推理服务,并且兼容 OpenAI 的 API 接口,使得先进的 AI 技术变得更易于获取,帮助各行各业的公司进行实验和实施。
尽管如此,Nvidia 也提醒用户,这款模型在数学或法律等特殊领域的应用上可能存在一定的风险,企业需谨慎使用,以防止错误或滥用。
随着 Nvidia 推出新模型,人工智能领域的竞争愈发激烈。这一发布标志着 AI 系统开发的竞争进入了一个新的阶段,Nvidia 的举动将迫使其他科技公司重新考虑他们的策略,并加速研发进程。
项目入口:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF
https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct/modelcard
详情请参阅我们的论文 https://arxiv.org/abs/2410.01257 - 作为预览,该模型可以在没有专门提示或额外推理标记的情况下,正确回答 "草莓中有多少个 r?
A sweet question!
Let’s count the “R”s in “strawberry”:
1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y
There are **3 “R”s** in the word “strawberry”.
Huggingface
此代码已在 Transformers v4.44.0、torrent v2.4.0 和 2 A100 80GB GPU 上进行了测试,但任何支持 meta-llama/Llama-3.1-70B-Instruct 的设置都应支持此型号。 如果遇到问题,可以考虑使用 pip install -U transformers。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry?"
messages = [{"role": "user", "content": prompt}]
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=4096, pad_token_id = tokenizer.eos_token_id)
generated_tokens =response_token_ids[:, len(tokenized_message['input_ids'][0]):]
generated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
print(generated_text)
# See response at top of model card
如果内存够大且 Intel/Amd 芯片够好, 也可以下载 bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF
标签:伟达,AI,模型,Instruct,Claude3.5,Nvidia,model,70B From: https://blog.csdn.net/weixin_41446370/article/details/143077630