首页 > 其他分享 >如何快速下载Huggingface上的超大模型,不用梯子,以Deepseek-R1为例子

如何快速下载Huggingface上的超大模型,不用梯子,以Deepseek-R1为例子

时间:2025-01-22 17:29:20浏览次数:3  
标签:R1 Deepseek Huggingface https wget aria2 hfd 下载

就在昨天DeepSeek-R1模型问世即爆火,37B的大模型,你想部署一下试试吗?我就想试试,毕竟本人有8卡A100可以玩。

首先我们需要从Huggingface下载模型权重,我在国内,文件太大了,下载不了。有方法,有教程,请仔细看。

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main  

下载工具:https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f

1. 安装下载工具。

# 设置镜像地址
export HF_ENDPOINT="https://hf-mirror.com"
# 创建模型下载存放路径
mkdir model_download
# 进入该目录
cd model_download
# 下载所需的脚本
wget 

https://gist.githubusercontent.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f/raw/3ed815fdcef9a30bd985772ab95ca57801c80bfa/hfd.sh
# 修改文件的执行权限
chmod a+x hfd.sh
# 注册执行命令
alias hfd="$PWD/hfd.sh"

2.  下载模型

hfd deepseek-ai/DeepSeek-R1 --tool wget

如果不指定参数 --tool wget,会报如下错误, 建议加上 --tool wget:

aria2c is not installed. Please install it first.

如果你想用aria2进行下载,难么你需要安装aria2。

sudo apt update

sudo apt install aria2

我分别都体验了,感觉aria2更好用。

标签:R1,Deepseek,Huggingface,https,wget,aria2,hfd,下载
From: https://blog.csdn.net/weixin_39806242/article/details/145297639

相关文章

  • 时代巨响——也谈DeepSeek从V3到R1
    过去的2024年AI大模型领域热搜不断,国内国外都是一样。从OpenAI发布了GPT-4o,到月之暗面成为国内大模型赛道估值最高的“独角兽”引发股权资本争议;从推理型模型和视觉模型的新秀竞出,到市场竞争加剧致使“百模大战”逐渐退潮。一年时间虽短,剧情跌宕起伏。这里想着重提及的有两......
  • 6. 马科维茨资产组合模型+AI金融智能体(DeepSeek-V3)识别政策意图方案(理论+Python实战
    目录0.承前1.幻方量化&DeepSeek1.1Whatis幻方量化1.2WhatisDeepSeek2.重写AI金融智能体函数3.汇总代码4.反思4.1不足之处4.2提升思路5.启后0.承前本篇博文是对上一篇文章,链接:5.马科维茨资产组合模型+AI金融智能体(qwen-max)+政策信息优化方案......
  • DeepSeek V3 两周使用总结
    2024年12月26日,杭州深度求索人工智能基础技术研究有限公司发布DeepSeek-V3大模型。官方宣称:(1)基于自研的MoE模型和671B参数,在14.8Ttoken上进行了预训练;(2)多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,在性能上与世界顶尖的闭源模型GPT-4o......
  • 随身 WiFi 的 R106 卡槽焊接与开孔:网络连接的新起点
    随身WiFi相关(程序+源码+工具+调试部署+开发环境)总共500多GB以上,文章末尾可获取,在最后面了。随身WiFi的R106已焊接卡槽并开好卡槽孔,说明该设备已经具备了使用特定SIM卡进行网络连接的基础条件。以下是关于此情况的一些分析和建议:优势方面使用便利性提升:开好卡槽孔后......
  • 微信 Callkit 扩大测试范围;DeepSeek-R1 模型发布,性能对标 OpenAI o1 正式版丨 RTE 开
     开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个......
  • NET8利用SemanticKernel对接DeepSeek
    1usingMarkdownSharp;2usingMicrosoft.Extensions.Hosting;3usingMicrosoft.SemanticKernel;4usingOpenAI;5usingOpenAI.Chat;6usingSystem.ClientModel;7usingSystem.Text;89varbuilder=Host.CreateApplicationBuilder(args);10//buil......
  • TensorFlow卷积神经网络识别CiFar10物品分类
     In [1]:importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttensorflowastffromsklearn.preprocessingimportStandardScaler In [2]:(x_train_all,y_train_all),(x_test,y_test)=tf.keras.datasets.ci......
  • 远铂DIY官网系统AI助手新增支持DeepSeek-V3 AI模型接口
            近日,量化巨头幻方量化的子公司深度求索(DeepSeek)发布了全新系列模型DeepSeek-V3,并同步开源。这一事件迅速引爆AI圈,DeepSeek-V3不仅霸榜开源模型,更在性能上与全球顶尖闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。    更令人瞩目的是,该模型的训练成本仅......
  • 手把手教你使用PySide6搭建AI聊天界面,使用DeepSeek大模型接口
    目录前言一、DeepSeek注册与使用二、安装环境三、界面设计四、后端实现1.QTextEdit输入控件实现2.API请求与响应处理3.消息显示与时间显示4.实现头像绘制和文本的绘制5.更换头像五、完整源码下载和使用方法总结前言随着深度学习和自然语言处理技术的不断进步,问答......
  • DeepSeek-V3 的 MoE 架构解析:细粒度专家与高效模型扩展
    DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著增加计算成本的......