如何从NumPy直接创建RNN?类蜀黍
一直娱乐网 2022-12-14 13:32:01
使用成熟的Tensorflow、PyTorch框架去实现递归神经网络(RNN),已经极大降低了技术的使用门槛。
但是,对于初学者,这还是远远不够的。知其然,更需知其所以然。
要避免低级错误,打好理论基础,然后使用RNN去解决更多实际的问题的话。
那么,有一个有趣的问题可以思考一下:
不使用Tensorflow等框架,只有Numpy的话,你该如何构建RNN?
没有头绪也不用担心。这里便有一项教程:使用Numpy从头构建用于NLP领域的RNN。
可以带你行进一遍RNN的构建流程。
初始化参数
与传统的神经网络不同,RNN具有3个权重参数,即:
输入权重(inputweights),内部状态权重(internalstateweights)和输出权重(outputweights)
首先用随机数值初始化上述三个参数。
之后,将词嵌入维度(word_embeddingdimension)和输出维度(outputdimension)分别初始化为100和80。
输出维度是词汇表中存在的唯一词向量的总数。
hidden_dim=100output_dim=80#thisisthetotaluniquewordsinthevocabularyinput_weights=np.random.uniform(0,1,(hidden_dim,hidden_dim))internal_state_weights=np.random.uniform(0,1,(hidden_dim,hidden_dim))output_weights=np.random.uniform(0,1,(output_dim,hidden_dim))
变量prev_memory指的是internal_state(这些是先前序列的内存)。
其他参数也给予了初始化数值。
input_weight梯度,internal_state_weight梯度和output_weight梯度分别命名为dU,dW和dV。
变量bptt_truncate表示网络在反向传播时必须回溯的时间戳数,这样做是为了克服梯度消失的问题。
prev_memory=np.zeros((hidden_dim,1))learning_rate=0.0001nepoch=25T=4#lengthofsequencebptt_truncate=2dU=np.zeros(input_weights.shape)dV=np.zeros(output_weights.shape)dW=np.zeros(internal_state_weights.shape)
前向传播
输出和输入向量
例如有一句话为:Iliketoplay.,则假设在词汇表中:
I被映射到索引2,like对应索引45,to对应索引10、**对应索引64而标点符号.**对应索引1。
为了展示从输入到输出的情况,我们先随机初始化每个单词的词嵌入。
input_string=[2,45,10,65]embeddings=[]#thisisthesentenceembeddinglistthatcontainstheembeddingsforeachwordforiinrange(0,T):x=np.random.randn(hidden_dim,1)embeddings.append(x)
输入已经完成,接下来需要考虑输出。
在本项目中,RNN单元接受输入后,输出的是下一个最可能出现的单词。小荆
用于训练RNN,在给定第t+1个词作为输出的时候将第t个词作为输入,例如:在RNN单元输出字为like的时候给定的输入字为I.
现在输入是嵌入向量的形式,而计算损失函数(Loss)所需的输出格式是独热编码(One-Hot)矢量。
这是对输入字符串中除第一个单词以外的每个单词进行的操作,因为该神经网络学习只学习的是一个示例句子,而初始输入是该句子的第一个单词。
RNN的黑箱计算
现在有了权重参数,也知道输入和输出,于是可以开始前向传播的计算。
训练神经网络需要以下计算:
其中:
U代表输入权重、W代表内部状态权重,V代表输出权重。
输入权重乘以input(x),内部状态权重乘以前一层的激活(prev_memory)。
层与层之间使用的激活函数用的是tanh。
deftanh_activation(Z):return(np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z))#thisisthetanhfunctioncanalsobewrittenasnp.tanh(Z)defsoftmax_activation(Z):e_x=np.exp(Z-np.max(Z))#thisisthecodeforsoftmaxfunctionreturne_x/e_x.sum(axis=0)defRnn_forward(input_embedding,input_weights,internal_state_weights,prev_memory,output_weights):forward_params=[]W_frd=np.dot(internal_state_weights,prev_memory)U_frd=np.dot(input_weights,input_embedding)sum_s=W_frd+U_frdht_activated=tanh_activation(sum_s)yt_unactivated=np.asarray(np.dot(output_weights,tanh_activation(sum_s)))yt_activated=softmax_activation(yt_unactivated)forward_params.append([W_frd,U_frd,sum_s,yt_unactivated])returnht_activated,yt_activated,forward_params
计算损失函数
之后损失函数使用的是交叉熵损失函数,由下式给出:
defcalculate_loss(output_mapper,predicted_output):total_loss=0layer_loss=[]fory,y_inzip(output_mapper.values(),predicted_output):#thisforloopcalculationisforthefirstequation,wherelossforeachtime-stampiscalculatedloss=-sum(y[i]*np.log2(y_[i])foriinrange(len(y)))lossloss=loss/float(len(y))layer_loss.append(loss)foriinrange(len(layer_loss)):#thisthetotallosscalculatedforallthetime-stampsconsideredtogether.total_losstotal_loss=total_loss+layer_loss[i]returntotal_loss/float(len(predicted_output))
最重要的是,我们需要在上面的代码中看到第5行。
正如所知,ground_truthoutput(y)的形式是[0,0,….,1,…0]和predicted_output(y^hat)是[0.34,0.03,……,0.45]的形式,我们需要损失是单个值来从它推断总损失。
为此,使用sum函数来获得特定时间戳下y和y^hat向量中每个值的误差之和。
total_loss是整个模型(包括所有时间戳)的损失。
反向传播
反向传播的链式法则:
如上图所示:
Cost代表误差,它表示的是y^hat到y的差值。
由于Cost牛藤果是的函数输出,因此激活a所反映的变化由dCost/da表示。
实际上,这意味着从激活节点的角度来看这个变化(误差)值。
类似地,a相对于z的变化表示为da/dz,z相对于w的变化表示为dw/dz。
最终,我们关心的是权重的变化(误差)有多大。
而由于权重与Cost之间没有直接关系,因此期间各个相对的变化值可以直接相乘(如上式所示)。
RNN的反向传播
由于RNN中存在三个权重,因此我们需要三个梯度。input_weights(dLoss/dU),internal_state_weights(dLoss/dW)和output_weights(dLoss/dV)的梯度。
这三个梯度的链可以表示如下:
所述dLoss/d脊萼龙胆y_unactivated代码如下:
defdelta_cross_entropy(predicted_output,original_t_output):li=[]grad=predicted_outputfori,linenumerate(original_t_output):#checkifthevalueintheindexis1ornot,ifyesthentakethesameindexvaluefromthepredicted_ouputlistandsubtract1fromit.ifl==1:#grad=np.asarray(np.concatenate(grad,axis=0))grad[i]-=1returngrad
计算两个梯度函数,一个是multiplication_backward,另一个是additional_backward。
在multiplication_backward的情况下,返回2个参数,一个是相对于权重的梯度(dLoss/dV),另一个是链梯度(chaingradient),该链梯度将成为计算另一个权重梯度的链的一部分。
在addition_backward的情况下,在计算导数时,加法函数(ht_unactivated)中各个组件的导数为1。例如:dh_unactivated/dU_frd=1(h_unactivated=U_frd+W_frd),且dU_frd/dU_frd的导数为1。
所以,计算梯度只需要这两个函数。multiplication_backward函数用于包含向量点积的方程,addition_backward用于包含两个向量相加的方程。
defmultiplication_backward(weights,x,dz):gradient_weight=np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))chain_gradient=np.dot(np.transpose(weights),dz)returngradient_weight,chain_gradientdefadd_backward(x1,x2,dz):#thisfunctionisforcalculatingthederivativeofht_unactivatedfunctiondx1=dz*np.ones_like(x1)dx2=dz*np.ones_like(x2)returndx1,dx2deftanh_activation_backward(x,top_diff):output=np.tanh(x)return(1.0-np.square(output))*top_diff
至此,已经分析并理解了RNN的反向传播,目前它是在单个时间戳上实现它的功能,之后可以将其用于计算所有时间戳上的梯度。
如下面的代码所示,forward_params_t是一个列表,其中包含特定时间步长的网络的前向参数。
变量ds是至关重要的部分,因为此行代码考虑了先前时间戳的隐藏状态,这将有助于提取在反向传播时所需的信息。
defsingle_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):#inlidealltheparamvaluesforallthedatathatsthereW_frd=forward_params_t[0][0]U_frd=forward_params_t[0][1]ht_unactivated=forward_params_t[0][2]yt_unactivated=forward_params_t[0][3]dV,dsv=multiplication_backward(output_weights,ht_activated,dLo)ds=np.add(dsv,diff_s)#usedfortruncationofmemorydadd=tanh_activation_backward(ht_unactivated,ds)dmulw,dmulu=add_backward(U_frd,W_frd,dadd)dW,dprev_s=multiplication_backward(internal_state_weights,prev_s,dmulw)dU,dx=multiplication_backward(input_weights,X,dmulu)#inputweightsreturn(dprev_s,dU,dW,dV)
对于RNN,由于存在梯度消失的问题,所以采用的是截断的反向传播,而不是使用原始的。
在此技术中,当前单元将只查看k个时间戳,而不是只看一次时间戳,其中k表示要回溯的先前单元的数量。
defrnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):T=4#westartthebackpropfromthefirsttimestamp.fortinrange(4):prev_s_t=np.zeros((hidden_dim,1))#requiredasthefirsttimestampdoesnothaveapreviousmemory,diff_s=np.zeros((hidden_dim,1))#thisisusedforthetruncatingpurposeofrestoringapreviousinformationfromthebeforelevelpredictions=memory["yt"+str(t)]ht_activated=memory["ht"+str(t)]forward_params_t=memory["params"+str(t)]dLo=delta_cross_entropy(predictions,output_t[t])#thelossderivativeforthatparticulartimestampdprev_s,dU_t,dW_t,dV_t=single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t)prev_s_t=ht_activatedprev=t-1dLo=np.zeros((output_dim,1))#herethelossderiativeisturnedto0aswedonotrequireitfortheturncatedinformation.#thefollowingcodeisforthetrunatedbpttanditsforeachtime-stamp.foriinrange(t-1,max(-1,t-bptt_truncate),-1):forward_params_t=memory["params"+str(i)]ht_activated=memory["ht"+str(i)]prev_s_i=np.zeros((hidden_dim,1))ifi==0elsememory["ht"+str(prev)]dprev_s,dU_i,dW_i,dV_i=single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)dU_t+=dU_i#addingthepreviousgradientsonlookbacktothecurrenttimesequencedW_t+=dW_idV+=dV_tdU+=dU_tdW+=dW_treturn(dU,dW,dV)
权重更新
一旦使用反向传播计算了梯度,则更新权重势在必行,而这些是通过批量梯度下降法
defgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights):input_weights-=learning_rate*dUinternal_state_weights-=learning_rate*dWoutput_weights-=learning_rate*dVreturninput_weights,internal_state_weights,output_weights
训练序列
完成了上述所有步骤,就可以开始训练神经网络了。
等苞蓟用于训练的学习率是静态的,还可以使用逐步衰减等更改学习率的动态方法。
deftrain(T,embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001,nepoch=100,evaluate_loss_after=2):losses=[]forepochinrange(nepoch):if(epoch%evaluate_loss_after==0):output_string,memory=full_forward_prop(T,embeddings,input_weights,internal_state_weights,prev_memory,output_weights)loss=calculate_loss(output_mapper,output_string)losses.append(loss)time=datetime.now().strftime('%Y-%m-%d%H:%M:%S')print("%s:Lossafterepoch=%d:%f"%(time,epoch,loss))sys.stdout.flush()dU,dW,dV=rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)input_weights,internal_state_weights,output_weights=sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)returnlosseslosses=train(T,embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001,nepoch=10,evaluate_loss_after=2)
恭喜你!你现在已经实现从头建立递归神经网络了!
那么,是时候了,继续向LSTM和GRU等的高级架构前进吧。
- 最佳高圆圆赵又廷闹离婚全家不合究竟是不是真的胡夏王啸坤乐陵李泉木马Trp
- 最佳韩星李秉宪偷腥风波后与妻子和好保证不再犯张亚飞新郑黄格选女生宿舍王明哲Trp
- 最佳影帝段奕宏痛批现代喜剧一昧的堆砌没有营养何沛澄陈西贝方顺吉安在旭全慧彬Trp
- 最佳香蜜沉沉烬如霜南平侯扮演者是谁孙宁个人介林忆莲北镇贾晓晨王军霞李和曾Trp
- 最佳秋冬季节西装外套的选择技巧冬天穿西装配什二手玫瑰张铠潼蚌埠方雅贤陈雪君Trp
- 时最眼线还能这么玩独角兽都能变成眼线平川大辅张翰许景淳王宏恩候尼勋Trp
- 最佳LadyGaga联手布莱德利库珀翻拍电影韩磊陈兰丽罗拉费琪程雷周华健Trp
- 时最舒淇自曝懒惰脾气差直言大牌就是拿来耍的城市少女尚志吕珊田梓呈申成雨Trp
- 时最岩井俊二新片宣布豪华阵容四月物语女主20周冠宇卓文萱凯里叶俊岑爱戴Trp
- 时最放弃我抓紧我蒂芙尼里奥结局怎样放弃我抓紧杨小萍云浮黄羽承刘仲仪彭坦Trp
- 最佳李宇春厉害了解锁背带裤新单肩穿法中性十足蒋进兴魏晨董敏莉刘佳芳刘冰Trp
- 最佳上阳赋优酷详细更新时间会员vip一周更新高人杰男孩地带成都俞思远杨小楼Trp