订阅
纠错
加入自媒体

不再被GPU各种驱动绑架!一站式解决GPU问题

对于需要进行AI项目的同学,是不是经常艰难寻找支持各种版本的驱动,找到驱动又苦于各种不兼容。

现在,由于云计算技术的飞速发展,云GPU服务器已经解决了这种问题。让我们专心训练我们的大模型。

▉ 01.云GPU服务器?

何为云GPU服务器?

云GPU服务器,即基于云计算技术提供的,配备有图形处理器(GPU)的虚拟或物理服务器。

借用于云厂商的强大的资本力,我们可以免去购买GPU的高额成本,但也依然能够使用像A100的计算能力强,但颇为昂贵的GPU。就相当于我们只花了一杯奶茶钱,却享受到了五星级酒店餐厅待遇。

▉ 02.为什么要用GPU云服务器?

1、高性能计算:

GPU擅长并行处理,能够显著加速深度学习、机器学习和科学计算等任务,缩短模型训练和推理时间。

2、成本效益:

按需付费模式避免了前期高昂的硬件投资,同时可以根据需求动态调整资源,灵活应对工作负载变化。

3、灵活性和可访问性:

通过互联网随时随地访问,方便团队协作和远程工作,同时提供多种GPU配置选项,满足不同需求。

4、易于管理和维护:

提供自动化的管理和维护工具,如自动备份、监控和故障恢复,确保服务的高可用性和容错性

▉ 03. 如何使用云GPU服务器?

现在,我们就用我们的神器

使用阿里云GPU云服务加速您的AI项目!

在这里,我选择的云GPU服务器是阿里云GPU服务器,阿里云GPU背靠阿里,有丰富的云计算资源,网络连接也相当稳定,遇到服务器上面的问题都有相应的文档和团队帮你解决,最重要的是基本所有的细节都给你写好了,跟着做,都能做好。

1、基础准备

同学们可以根据自己的项目需求选择相应的配置

我自己的项目是选择NVIDIA T4 ,在阿里云这里都是随开随用

操作系统我们选择Ubuntu最新的版本

网络的带宽我选择固定带宽。

其他的都选择默认配置

在购买的时候我们要保证账户里的钱不少于100哦

在创建好之后我们需要添加一个安全组,让我们本地能连接服务器

将自己公网ip添加上去,不知道公网ip的可以在百度上搜索ip地址,第一个出来的就是

对自己的ip开放端口就行,其他的全部关掉

然后将自己云服务器添加到安全组

2、 配置环境

阿里云在这里给了我们文档支持,十分详细,这就是大厂的细致!

右键复制"GPU云服务器(EGS)-阿里云帮助中心"网址:

https://help.aliyun.com/zh/egs/

由于有些同学可能选择的是低配或者其他系统 这里就有多种安装方式,在这里我用GPU计算型实例linux系统为例

点击这个连接,接下来我们跟着文档一步一步的操作

2.1Tesla安装

输入对应的驱动与系统版本号

点击查找,然后再点击查看,最后复制下载链接,注意是复制链接不是直接下载

静待下载就好了

下载之后授权脚本 后面文件名替换为下载的文件名称哦

官方下载的是deb文件

dpkg-i nvidia-driver-local-repo-ubuntu2404-550.127.08_1.0-1_amd64.deb

复制密钥

密钥命令在上一个命令的最后一行

cp /var/nvidia-driver-local-repo-ubuntu2004-560.35.03/nvidia-driver-local-63C60622-keyring.gpg /usr/share/keyrings/

再次执行

dpkg -i nvidia-driver-local-repo-ubuntu2404-550.127.08_1.0-1_amd64.deb

修复依赖关系(如果没有问题忽略)

apt-get install -f

更新包列表

apt-get update

查看驱动是否存在

apt-cache search nvidia-driver-550(注意是你的驱动版本号哦 看你下载文件的名称)

安装驱动

apt-get install nvidia-driver-550

耐心等待安装

验证安装

nvidia-smi

这里的CUDA注意最高支持的版本哦,后面要用到!

恭喜你跨过了第一步难关

2.2CUDA安装

接下来我们安装CUDA

官方文档:"手动安装CUDA_GPU云服务器(EGS)-阿里云帮助中心"

https://help.aliyun.com/zh/egs/user-guide/install-cuda?spm=a2c4g.11186623.help-menu-155040.d_1_6.66393222O41Yb4&scm=20140722.H_2716280._.OR_help-T_cn#DAS%23zh-V_1

我们安装以前要知道我们的pytorch所需要的版本哦 在官方文档里寻找

这里推荐一个博主的文章

"一文理顺:pytorch、cuda版本,从此不再为兼容问题头疼!- 哔哩哔哩"

https://www.bilibili.com/opus/926860762897448993

找到版本后我们在"CUDA Toolkit Archive | NVIDIA Developer"下载驱动哦

https://developer.nvidia.com/cuda-toolkit-archive

粘贴两条命令开始

wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run

Chmod +x 文件名(下载的文件名,进行授权)

sh cuda_12.1.1_530.30.02_linux.run

到"continue"回车

然后输入"accept"

将driver上面的x去掉 按回车即可 然后到install回车

重启

reboot

添加到系统环境里面

echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh

source /etc/profile

测试是否成功

nvcc -V

2.3 conda安装

直接复制命令下载

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

授权

chmod +x Miniconda3-latest-Linux-x86_64.sh

运行

sh Miniconda3-latest-Linux-x86_64.sh

通过方向键直达下方输入"ENTER",然后根据提示出入

回车安装在默认路径 或者输入自定义路径然后回车

输入"yes"

激活环境

source ~/.bashrc

2.4 创建python环境

conda create -n 环境名称 python=3.10conda activate 环境名称

2.5 安装框架

访问 "PyTorch"官网 获取安装命令,为了兼容性避免出错,可以进到早前版本

我选择的是2.0.1版本复制安装命令

conda install pytorch==2.0.1torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia

import torchprint(torch.cuda.is_available())print(torch.cuda.device_count())

安装成功

2.6测速

我们就用一个视频转码给测个速,我上传的是66MB大小的视频,四秒钟就好了!

ffmpeg -hwaccel cuda -i input.mp4 -c:vh264_nvenc -preset fast output.avi

watch -n 1 nvidia-smi

3.使用阿里云GPU云服务加速你的AI项目

作为阿里云8年资深老用户,阿里云这块从ECS、域名、CDN....我都用过,可以说阿里云的服务非常好,有什么问题都可以很快解决,而且不管是新老用户都提供了十足的优惠,新用户有入门级产品免费试用,老用户不仅价格越用越优惠,参与定期活动还能实现折上折的。

▉ 04.我总结的阿里GPU云服务器主要优势:

首先第一个 便捷

对于很多同学不熟悉硬件的同学,显卡相关的配置还是十分苦恼,经常要通过BIOS去配置驱动,安装好驱动之后又是各种的不适配,感觉花了冤枉钱,但是采用云GPU服务器,我们便把这些困难都丢给云服务商,让他们去烦恼。我们只需要专注于我们的大模型就好了

第二个 舒适

没错,云GPU服务器就是用的舒适,采用本地硬件,又是高性能的,就好像停留在飞机场,噪声十分烦人。夏天,就像旁边是个暖光灯,热的直流汗水。采用GPU云服务器,这些脏活累活都丢给服务商。我们只需要像用空调一样,自己按一下遥控器就好了。

第三个 升级快,还便宜

现在大模型AI项目发展的越来越快,所需要的算力越来越吓人,淘汰率高的可怕,我们买一个显卡,过一年多就得升级,他还是个电老虎,功率高的可怕。就好像我们不光每次交使用费,还要隔一段时间交场地费。采用云GPU服务器就不会,我们升级只需要更换配置,数据那些存在快照里,一次性迁移过去就好了啥都不用管,而且我们只需要每次用的时候交钱就行。不用的时候关机存个快照备份就行了,下次还能接着用,而且价格还不贵。

       原文标题 : 不再被GPU各种驱动绑架!一站式解决GPU问题

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    云计算 猎头职位 更多
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号