99插插插,亚洲伦理中文在线,站长推荐一二三区欧美,青青草在线导航

×

新網(wǎng) > 云服務(wù)器 > 正文

GPU云服務(wù)器深度學習性能模型初探

作者：新網(wǎng)
來源：新網(wǎng)
瀏覽：100
2018-04-26 16:40:05

本文根據(jù)實測數(shù)據(jù)初步探討了在彈性GPU云服務(wù)器上深度學習的性能模型，希望可以幫助大家科學選擇GPU實例的規(guī)格。得益于GPU強大的計算能力，深度學習近年來在圖像處理、語音識別、自然語言處理等領(lǐng)域取得了重大突GPU服務(wù)器幾乎成了深度學習加速的標配。

本文根據(jù)實測數(shù)據(jù)初步探討了在彈性GPU 云服務(wù)器上深度學習的性能模型，希望可以幫助大家科學選擇GPU實例的規(guī)格。

一、背景

得益于GPU強大的計算能力，深度學習近年來在圖像處理、語音識別、自然語言處理等領(lǐng)域取得了重大突GPU服務(wù)器幾乎成了深度學習加速的標配。

如何提供一個合適的實例規(guī)格，從而以最高的性價比提供給深度學習客戶，是我們需要考慮的一個問題，本文試圖從CPU、內(nèi)存、磁盤這三個角度對單機GPU云服務(wù)器的深度學習訓(xùn)練和預(yù)測的性能模型做了初步的分析，希望能對實例規(guī)格的選擇提供一個科學的設(shè)計模型。

下面是我們使用主流的學習框架在NVIDIA GPU上做的一些深度學習的測試。涉及NVCaffe、MXNet主流深度學習框架，測試了多個經(jīng)典CNN網(wǎng)絡(luò)在圖像分類領(lǐng)域的訓(xùn)練和推理以及RNN網(wǎng)絡(luò)在自然語言處理領(lǐng)域的訓(xùn)練。

二、訓(xùn)練測試

我們使用NVCaffe、MXNet主流深度學習框架測試了圖像分類領(lǐng)域和自然語言處理領(lǐng)域的訓(xùn)練模型。

2.1 圖像分類

我們使用NVCaffe、MXNet測試了圖像分類領(lǐng)域的CNN網(wǎng)絡(luò)的單GPU模型訓(xùn)練。

NVCaffe和MXNet測試使用ImageNet ILSVRC2012數(shù)據(jù)集，訓(xùn)練圖片1281167張，包含1000個分類，每個分類包含1000張左右的圖片。

2.1.1 CPU+Memory

2.1.1.1 NVCaffe

NVCaffe是NVIDIA基于BVLC-Caffe針對NVIDIA GPU尤其是多GPU加速的開源深度學習框架。LMDB格式的ImageNet訓(xùn)練集大小為240GB ，驗證集大小為9.4GB。

我們使用NVcaffe對AlexNet、GoogLeNet、ResNet50、Vgg16四種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)做了圖像分類任務(wù)的模型訓(xùn)練測試。分別對比了不同vCPU和Memory配置下的訓(xùn)練性能。性能數(shù)據(jù)單位是Images/Second(每秒處理的圖像張數(shù))。圖中標注為10000指的是迭代次數(shù)10000次，其它都是測試迭代次數(shù)為1000次。

2.1.1.2 MXNet

MXNet的數(shù)據(jù)集使用RecordIO格式，ImageNet訓(xùn)練集 93GB ，驗證集 3.7GB。

我們使用網(wǎng)絡(luò)Inception-v3(GoogLeNet的升級版)做了圖像分類的訓(xùn)練測試。分別對比了不同vCPU和Memory配置下的訓(xùn)練性能。數(shù)據(jù)單位是Samples/Second(每秒處理的圖像張數(shù))。

2.1.2 磁盤IO

我們在阿里云GN5(P100)實例上使用NVCaffe測試了GoogLeNet網(wǎng)絡(luò)模型在NVMe SSD本地盤、SSD云盤和高效云盤上的訓(xùn)練性能，測試結(jié)果如下(性能數(shù)據(jù)單位是Images/Second)：

2.2 自然語言處理

我們使用MXNet測試了RNN網(wǎng)絡(luò)的LSTM模型的訓(xùn)練，使用PennTreeBank自然語言數(shù)據(jù)集。PennTreeBank數(shù)據(jù)集的文本語料庫包含近100萬個單詞，單詞表被限定在10000個單詞。分別對比了不同vCPU和Memory配置下的訓(xùn)練性能：

三、推理測試

3.1 圖像分類

我們使用NVCaffe測試了圖像分類領(lǐng)域的CNN網(wǎng)絡(luò)的模型推理。

測試使用ImageNet ILSVRC2012數(shù)據(jù)集，驗證測試圖片 50000張。

3.1.1 CPU+Memory

我們使用NVcaffe對AlexNet、GoogLeNet、ResNet50、VGG16四種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)做了圖像分類的推理測試。分別對比了不同vCPU和Memory配置下的訓(xùn)練性能。數(shù)據(jù)單位是Images/Second(每秒處理的圖像張數(shù))。

3.1.2 磁盤IO

我們使用NVCaffe測試了GoogLeNet網(wǎng)絡(luò)在NVMe SSD本地盤、SSD云盤和高效云盤上的圖像分類推理性能，測試結(jié)果如下(數(shù)據(jù)單位是Images/Second)：

四、數(shù)據(jù)預(yù)處理測試

在訓(xùn)練模型之前，往往要對訓(xùn)練數(shù)據(jù)集做數(shù)據(jù)預(yù)處理，統(tǒng)一數(shù)據(jù)格式，并做一定的歸一化處理。

我們使用NVCaffe對ImageNet ILSVRC2012數(shù)據(jù)集做了數(shù)據(jù)預(yù)處理的測試，分別對比了NVMe SSD本地盤、SSD云盤和高效云盤的數(shù)據(jù)預(yù)處理時間，數(shù)據(jù)單位是秒，數(shù)據(jù)如下：

五、數(shù)據(jù)分析

5.1 訓(xùn)練

5.1.1 圖像分類

從NVCaffe和MXNet的測試結(jié)果來看，圖像分類場景單純的訓(xùn)練階段對CPU要求不高，單GPU 只需要4vCPU就可以。而內(nèi)存需求則取決于深度學習框架、神經(jīng)網(wǎng)絡(luò)類型和訓(xùn)練數(shù)據(jù)集的大小：測試中發(fā)現(xiàn)NVCaffe隨著迭代次數(shù)的增多，內(nèi)存是不斷增大的，但是內(nèi)存需求增大到一定程度，對性能就不會有什么提升了，其中NVCaffe AlexNet網(wǎng)絡(luò)的訓(xùn)練，相比其它網(wǎng)絡(luò)對于內(nèi)存的消耗要大得多。相比之下MXNet的內(nèi)存占用則要小的多(這也是MXNet的一大優(yōu)勢)，93G預(yù)處理過的訓(xùn)練數(shù)據(jù)集訓(xùn)練過程中內(nèi)存占用不到5G。

對于磁盤IO性能，測試顯示訓(xùn)練階段NVMe SSD本地盤、SSD云盤性能基本接近，高效云盤上的性能略差1%。因此訓(xùn)練階段對IO性能的要求不高。

5.1.2 自然語言處理

從MXNet的測試結(jié)果來看，對于PennTreeBank這樣規(guī)模的數(shù)據(jù)集，2vCPU 1GB Mem就能滿足訓(xùn)練需求。由于自然語言處理的原始數(shù)據(jù)不像圖像分類一樣是大量高清圖片，自然語言處理的原始數(shù)據(jù)以文本文件為主，因此自然語言處理對內(nèi)存和顯存的要求都不高，從我們的測試來看，4vCPU 30GB 1GPU規(guī)格基本滿足訓(xùn)練階段需求。

5.2 推理

5.2.1 圖像分類

從NVCaffe的圖像分類推理測試來看，除AlexNet 2vCPU剛剛夠用外，其它網(wǎng)絡(luò)2vCPU對性能沒有影響，而9.4GB的驗證數(shù)據(jù)集推理過程中內(nèi)存占用大概是7GB左右，因此對大部分模型來看，2vCPU 30GB 1GPU規(guī)格基本滿足圖像分類推理的性能需求。

對于磁盤IO性能，推理性能NVMe SSD本地盤、SSD云盤很接近，但高效云盤差15%。因此推理階段至少應(yīng)該使用SSD云盤保證性能。

5.2.2 自然語言處理

對于自然語言處理，參考訓(xùn)練性能需求，我們應(yīng)該可以推測2vCPU 30GB 1GPU規(guī)格應(yīng)該也能滿足需求。

5.3 數(shù)據(jù)預(yù)處理

從NVCaffe對ImageNet ILSVRC2012數(shù)據(jù)集做數(shù)據(jù)預(yù)處理的測試來看，數(shù)據(jù)預(yù)處理階段是IO密集型，NVMe SSD本地盤比SSD云盤快25%，而SSD云盤比高效云盤快10%。

六、總結(jié)

深度學習框架眾多，神經(jīng)網(wǎng)絡(luò)類型也是種類繁多，我們選取了主流的框架和神經(jīng)網(wǎng)絡(luò)類型，嘗試對單機GPU云服務(wù)器的深度學習性能模型做了初步的分析，結(jié)論是：

深度學習訓(xùn)練階段是GPU運算密集型，對于CPU占用不大，而內(nèi)存的需求取決于深度學習框架、神經(jīng)網(wǎng)絡(luò)類型和訓(xùn)練數(shù)據(jù)集的大小;對磁盤IO性能不敏感，云盤基本能夠滿足需求。

深度學習推理階段對于CPU的占用更小，但是對于磁盤IO性能相對較敏感，因為推理階段對于延遲有一定的要求，更高的磁盤IO性能對于降低數(shù)據(jù)讀取的延時進而降低整體延遲有很大的幫助。

深度學習數(shù)據(jù)預(yù)處理階段是IO密集型階段，更高的磁盤IO性能能夠大大縮短數(shù)據(jù)預(yù)處理的時間。

上一篇：Nginx、Apache的工作原理以及Nginx為何比Apac...

下一篇：五大原則教你選對數(shù)據(jù)庫服務(wù)器

免責聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳，本網(wǎng)站不擁有所有權(quán)，也不承認相關(guān)法律責任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容，請發(fā)送郵件至：operations@xinnet.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

相關(guān)文章

推薦閱讀

免費咨詢獲取折扣

Loading

国内无码专区| 91精品国产蜜臀色欲| 美女在线观看无码| 西方av二区在线| 欧美三日本三级少妇三2024| 成人欧美日韩免费在线观看| 亚洲一二区精品自拍| 国产精品欧美第一二区| 男人的亚洲天堂日本精品| 久久精品国产麻豆| 午夜久午午夜| 国产日韩爱欲欧美| 热久久最新址| 午夜成人精品视频| 国产91AV免费在线观看| 免费三级片久久久久久久久| 亚洲有码一区二区| 痳豆成人Av免费观看| 日本人妻少夫| 亚洲日韩一区在线第一页| 欧美黑人双插一区二区| 91人人澡人人| 最新无码精品| 中文字幕亚韩丝袜| 欧美午夜福利国产成人一区| 国模吧日本一区二区| 久久久久久日本精品| 永久中文字幕在线| 午夜二级影院| 国产3级欧美3级| com日B三级国外视频播放| 色婷婷亚洲| 婷婷五月天激情四射综合上| 人人操在线国产| 亚洲成人A∨| 大型黄片小视频| 日本电影精品一区| 久久久国产视频97| 久久欧美亚洲1| 睡觉视频啊啊啊好爽好大操我| 12av不卡免费|

<nav id="3q0jp"></nav>