原標(biāo)題:亞馬遜云科技Inf2實(shí)例每瓦性能提高了50%
在2019年的亞馬遜云科技re:Invent上,亞馬遜云科技發(fā)布了Inferentia芯片和Inf1實(shí)例這兩個(gè)基礎(chǔ)設(shè)施。Inferentia是一種高性能機(jī)器學(xué)習(xí)推理芯片,由亞馬遜云科技定制設(shè)計(jì),其目的是提供具有成本效益的大規(guī)模低延遲預(yù)測(cè)。時(shí)隔四年,2023年4月亞馬遜云科技發(fā)布了Inferentia2芯片和Inf2實(shí)例,旨在為大型模型推理提供技術(shù)保障。
Inf2實(shí)例的應(yīng)用場(chǎng)景
使用亞馬遜云科技Inf2實(shí)例運(yùn)行流行的應(yīng)用程序,例如文本摘要、代碼生成、視頻和圖像生成、語(yǔ)音識(shí)別、個(gè)性化等。Inf2實(shí)例是Amazon EC2中的第一個(gè)推理優(yōu)化實(shí)例,引入了由NeuronLink(一種高速、非阻塞互連)支持的橫向擴(kuò)展分布式推理,F(xiàn)在可以在Inf2實(shí)例上跨多個(gè)加速器高效部署具有數(shù)千億個(gè)參數(shù)的模型。Inf2實(shí)例的吞吐量比其他類似的Amazon EC2實(shí)例高出三倍,延遲低八倍,性價(jià)比高出40%。為了實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo),與其他類似的Amazon EC2實(shí)例相比,Inf2實(shí)例的每瓦性能提高了50%。
使用Inf2實(shí)例運(yùn)行GPT-J-6B模型
GPT-J-6B是由一組名為EleutherAI的研究人員創(chuàng)建的開源自回歸語(yǔ)言模型。它是OpenAI的GPT-3 的替代方案之一,在聊天、摘要和問答等廣泛的自然語(yǔ)言任務(wù)中表現(xiàn)良好。
該模型由28層組成,模型維度為4096,前饋維度為16384。模型維度分為16個(gè)頭,每個(gè)頭的維度為256。旋轉(zhuǎn)位置嵌入(RoPE)應(yīng)用于每個(gè)頭的64個(gè)維度。使用與GPT-2/GPT-3相同的一組BPE,使用50257的標(biāo)記化詞匯訓(xùn)練模型。
GPT-J-6B基礎(chǔ)設(shè)施有60億個(gè)參數(shù),非常適合大語(yǔ)言模型(LLM)學(xué)習(xí)的入門版本,進(jìn)行文本生成測(cè)試。在部署過程中,用到了Neuron SDK和transformers-neuronx。transformers-neuronx是由AWS Neuron團(tuán)隊(duì)構(gòu)建的開源庫(kù),可幫助使用AWS Neuron SDK運(yùn)行轉(zhuǎn)換器解碼器推理工作流程。目前,它提供了GPT2、GPT-J和OPT模型類型的演示腳本,它們的前向函數(shù)在編譯過程中重新實(shí)現(xiàn),以進(jìn)行代碼分析和優(yōu)化,并且可以基于同一個(gè)庫(kù)實(shí)現(xiàn)其他模型架構(gòu)。AWS Neuron優(yōu)化的轉(zhuǎn)換器解碼器類已使用稱為PyHLO的語(yǔ)法在XLA HLO(高級(jí)操作)中重新實(shí)現(xiàn)。該庫(kù)還實(shí)現(xiàn)了張量并行(Tensor Parallelism),以跨多個(gè)NeuronCore對(duì)模型權(quán)重進(jìn)行分片。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問川北在線:http://dstuf.com/