Ë
    ºrœh—~  ã                   óè  — d Z ddlZddlmZmZ ddlZddlZddlmZ ddlm	Z	 ddl
mZmZ ddlmZ dd	lmZmZ dd
lmZ ddlmZmZ ddlmZ ddlmZmZ ddlmZ  ej<                  e«      Z  G d„ dejB                  «      Z" G d„ dejF                  «      Z$ G d„ dejF                  «      Z% G d„ de«      Z&e G d„ de«      «       Z'e G d„ de'«      «       Z( ed¬«       G d„ de'e«      «       Z)g d ¢Z*y)!zPyTorch XGLM model.é    N)ÚOptionalÚUnion)Únné   )ÚACT2FN)ÚCacheÚEncoderDecoderCache)ÚGenerationMixin)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)ÚGradientCheckpointingLayer)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentions)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú
XGLMConfigc            
       ó`   ‡ — e Zd ZdZd	dedededee   fˆ fd„Zdej                  fˆ fd„Z
ˆ xZS )
ÚXGLMScaledWordEmbeddingz\
    This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
    Únum_embeddingsÚembedding_dimÚpadding_idxÚembed_scalec                 ó6   •— t         ‰|   |||«       || _        y ©N)ÚsuperÚ__init__r   )Úselfr   r   r   r   Ú	__class__s        €úy/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/transformers/models/xglm/modeling_xglm.pyr   z XGLMScaledWordEmbedding.__init__,   s   ø€ Ü‰Ñ˜¨¸ÔDØ&ˆÕó    Ú	input_idsc                 ó<   •— t         ‰|   |«      | j                  z  S r   )r   Úforwardr   )r   r#   r    s     €r!   r%   zXGLMScaledWordEmbedding.forward0   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r"   )ç      ð?)Ú__name__Ú
__module__Ú__qualname__Ú__doc__Úintr   Úfloatr   ÚtorchÚTensorr%   Ú__classcell__©r    s   @r!   r   r   '   sE   ø„ ññ' sð '¸3ð 'ÈSð 'Ð_gÐhmÑ_nõ 'ð= §¡÷ =ñ =r"   r   c            	       óÎ   ‡ — e Zd ZdZddededee   fˆ fd„Zddededee   fd„Zeddededee   fd„«       Z	 e
j                  «       dd	ee
j                     d
efd„«       Zˆ xZS )Ú!XGLMSinusoidalPositionalEmbeddingzDThis module produces sinusoidal positional embeddings of any length.Únum_positionsr   r   c                 óŒ   •— t         ‰|   «        d| _        || _        || _        | j                  || j                  z   ||«       y )Né   )r   r   Úoffsetr   r   Úmake_weights)r   r3   r   r   r    s       €r!   r   z*XGLMSinusoidalPositionalEmbedding.__init__7   s@   ø€ Ü‰ÑÔØˆŒØ*ˆÔØ&ˆÔØ×Ñ˜-¨$¯+©+Ñ5°}ÀkÕRr"   r   c                 óà   — | j                  |||«      }t        | d«      r;|j                  | j                  j                  | j                  j
                  ¬«      }| j                  d|d¬«       y )NÚweights©ÚdtypeÚdeviceF)Ú
persistent)Úget_embeddingÚhasattrÚtor9   r;   r<   Úregister_buffer)r   r   r   r   Úemb_weightss        r!   r7   z.XGLMSinusoidalPositionalEmbedding.make_weights>   s[   € Ø×(Ñ(¨¸ÈÓTˆÜ4˜Ô#à%Ÿ.™.¨t¯|©|×/AÑ/AÈ$Ï,É,×J]ÑJ]˜.Ó^ˆKà×Ñ˜Y¨ÀÐÕFr"   c                 óâ  — |dz  }t        j                  d«      |dz
  z  }t        j                  t        j                  |t        j
                  ¬«      j                  «       | z  «      }t        j                  | t        j
                  ¬«      j                  «       j                  d«      |j                  d«      z  }t        j                  t        j                  |«      t        j                  |«      gd¬«      j                  | d«      }|dz  dk(  r-t        j                  |t        j                  | d«      gd¬«      }|	d||dd…f<   |j                  t        j                  «       «      S )	zÊ
        Build sinusoidal embeddings.

        This matches the implementation in tensor2tensor, but differs slightly from the description in Section 3.5 of
        "Attention Is All You Need".
        r5   i'  r   )r;   r   ©ÚdiméÿÿÿÿN)ÚmathÚlogr-   ÚexpÚarangeÚint64r,   Ú	unsqueezeÚcatÚsinÚcosÚviewÚzerosr@   Úget_default_dtype)r   r   r   Úhalf_dimÚembs        r!   r>   z/XGLMSinusoidalPositionalEmbedding.get_embeddingF   s  € ð ! AÑ%ˆÜh‰hu‹o ¨A¡Ñ.ˆÜi‰iœŸ™ X´U·[±[ÔA×GÑGÓIÈSÈDÑPÓQˆÜl‰l˜>´·±Ô=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜi‰iœŸ™ 3›¬¯©°3«Ð8¸aÔ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ò!ä—)‘)˜S¤%§+¡+¨n¸aÓ"@ÐAÀqÔIˆCØÐ"Ø"#ˆCšQÑàv‰v”e×-Ñ-Ó/Ó0Ð0r"   Úposition_idsÚpast_key_values_lengthc                 ó¢  — |j                  «       \  }}|| j                  z  }d|z   |z   }|| j                  j                  d«      kD  r'| j                  || j                  | j
                  «       | j                  j                  d|j                  d«      «      j                  ||| j                  j                  d   «      j                  «       S )Nr5   r   rF   )
Úsizer6   r9   r7   r   r   Úindex_selectrP   ÚshapeÚdetach)r   rU   rV   ÚbszÚseq_lenÚmax_poss         r!   r%   z)XGLMSinusoidalPositionalEmbedding.forward[   sµ   € à#×(Ñ(Ó*‰ˆˆWØ˜Ÿ™Ñ#ˆð g‘+Ð 6Ñ6ˆØT—\‘\×&Ñ& qÓ)Ò)Ø×Ñ˜g t×'9Ñ'9¸4×;KÑ;KÔLà|‰|×(Ñ(¨¨L×,=Ñ,=¸bÓ,AÓB×GÑGÈÈWÐVZ×VbÑVb×VhÑVhÐikÑVlÓm×tÑtÓvÐvr"   r   )Nr   )r'   r(   r)   r*   r+   r   r   r7   Ústaticmethodr>   r-   Úno_gradr.   r%   r/   r0   s   @r!   r2   r2   4   s´   ø„ ÙNñS cð S¸#ð SÈHÐUXÉMõ SñG¨3ð G¸sð GÐQYÐZ]ÑQ^ó Gð ñ1 cð 1¸#ð 1ÈHÐUXÉMò 1ó ð1ð( €U‡]]ƒ_ñ	w H¨U¯\©\Ñ$:ð 	wÐ[^ò 	wó ô	wr"   r2   c                   óp  ‡ — e Zd ZdZ	 	 	 	 ddededee   dee   dee   dee   fˆ fd„Z	 	 	 	 	 	 dd	e	j                  d
ee	j                     dee   dee	j                     dee	j                     dedee	j                     dee	j                  ee	j                     eee	j                        f   fd„Zˆ xZS )ÚXGLMAttentionz=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚbiasÚ	layer_idxc                 óü  •— t         ‰|   «        || _        || _        || _        ||z  | _        | j
                  |z  | j                  k7  rt        d| j                  › d|› d«      ‚| j
                  dz  | _        || _        || _	        t        j                  |||¬«      | _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        y )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©rg   )r   r   rc   rd   re   Úhead_dimÚ
ValueErrorÚscalingrf   rh   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r   rc   rd   re   rf   rg   rh   r    s          €r!   r   zXGLMAttention.__init__k   sÝ   ø€ ô 	‰ÑÔØ"ˆŒØ"ˆŒØˆŒØ! YÑ.ˆŒàM‰M˜IÑ%¨$¯.©.Ò8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ˆŒØ"ˆŒä—i‘i 	¨9¸4Ô@ˆŒÜ—i‘i 	¨9¸4Ô@ˆŒÜ—i‘i 	¨9¸4Ô@ˆŒÜŸ	™	 )¨Y¸TÔBˆr"   Úhidden_statesÚkey_value_statesÚpast_key_valueÚattention_maskÚlayer_head_maskÚoutput_attentionsÚcache_positionÚreturnc                 óB  — |du}|j                  «       \  }	}
}|r|j                  d   n|
}| j                  |«      | j                  z  }|St	        |t
        «      rA|j                  j                  | j                  «      }|r|j                  }n|j                  }n|}|r|n|}|rK|IrGj                  | j                     j                  }|j                  | j                     j                  }nÄ| j                  |«      }| j                  |«      }|j!                  |	|d| j"                  «      j%                  dd«      }|j!                  |	|d| j"                  «      j%                  dd«      }|D|s|nd}j'                  ||| j                  d|i«      \  }}|rd|j                  | j                  <   |	| j(                  z  d| j"                  f}|j!                  |	|
| j(                  | j"                  «      j%                  dd«      } |j*                  |Ž } |j*                  |Ž } |j*                  |Ž }|j                  d«      }t-        j.                  ||j%                  dd«      «      }|j                  «       |	| j(                  z  |
|fk7  r/t1        d|	| j(                  z  |
|f› d|j                  «       › «      ‚|×|j                  «       |	d|
|fk7  r#t1        d	|	d|
|f› d|j                  «       › «      ‚|j!                  |	| j(                  |
|«      |z   }t-        j2                  |t-        j4                  t-        j6                  |j8                  «      j:                  |j<                  ¬
«      «      }|j!                  |	| j(                  z  |
|«      }|j8                  t,        j>                  k(  rNt@        jB                  jE                  |dt,        jF                  ¬«      jI                  t,        j>                  «      }n!t@        jB                  jE                  |d¬«      }|›|j                  «       | j(                  fk7  r*t1        d| j(                  f› d|j                  «       › «      ‚|j!                  dddd«      |j!                  |	| j(                  |
|«      z  }|j!                  |	| j(                  z  |
|«      }|r?|j!                  |	| j(                  |
|«      }|j!                  |	| j(                  z  |
|«      }nd}t@        jB                  jK                  || jJ                  | jL                  ¬«      }t-        j.                  ||«      }|j                  «       |	| j(                  z  |
| j"                  fk7  r7t1        d|	| j(                  |
| j"                  f› d|j                  «       › «      ‚|j!                  |	| j(                  |
| j"                  «      }|j%                  dd«      }|j+                  |	|
| jN                  «      }| jQ                  |«      }||fS )z#Input shape: Batch x Time x ChannelNr   rF   r5   ry   Tz$Attention weights should be of size z	, but is z!Attention mask should be of size )r<   )rE   r;   rD   z/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should be of size ))rX   rZ   rq   rm   Ú
isinstancer	   Ú
is_updatedÚgetrh   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesro   rp   rP   rk   Ú	transposeÚupdaterd   Úreshaper-   Úbmmrl   ÚmaxÚtensorÚfinfor;   Úminr<   Úfloat16r   Ú
functionalÚsoftmaxÚfloat32r@   re   r~   rc   rr   )r   rs   rt   ru   rv   rw   rx   ry   Úis_cross_attentionr\   Útgt_lenÚ_Úsrc_lenÚquery_statesr€   Úcurr_past_key_valueÚcurrent_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                           r!   r%   zXGLMAttention.forwardˆ   sÊ  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆˆWaÙ/AÐ"×(Ñ(¨Ò+Àwˆð —{‘{ =Ó1°D·L±LÑ@ˆàÐ%Ü˜.Ô*=Ô>Ø+×6Ñ6×:Ñ:¸4¿>¹>ÓJ
Ù%à*8×*NÑ*NÑ'à*8×*MÑ*MÑ'à&4Ð#á-?Ñ)À]ˆÙ .Ð"<Áà,×3Ñ3°D·N±NÑC×HÑHˆJØ.×5Ñ5°d·n±nÑE×LÑL‰LàŸ™ ^Ó4ˆJØŸ;™; ~Ó6ˆLØ#Ÿ™¨¨g°r¸4¿=¹=ÓI×SÑSÐTUÐWXÓYˆJØ'×,Ñ,¨S°'¸2¸t¿}¹}ÓM×WÑWÐXYÐ[\Ó]ˆLàÐ)á7I¡ÈtØ+>×+EÑ+EØ ¨d¯n©nÐ?OÐQ_Ð>`ó,Ñ(
˜Lñ &Ø@DN×-Ñ-¨d¯n©nÑ=à˜DŸN™NÑ*¨B°·±Ð>ˆ
Ø#×(Ñ(¨¨g°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØ+|×+Ñ+¨ZÐ8ˆØ'Z×'Ñ'¨Ð4ˆ
Ø+|×+Ñ+¨ZÐ8ˆà—/‘/ !Ó$ˆÜ—y‘y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¨¯©Ñ#7¸À'Ð"JÒJÜØ6¸¸d¿n¹nÑ8LÈgÐW^Ð7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ð%Ø×"Ñ"Ó$¨¨a°¸'Ð(BÒBÜ Ø7¸¸aÀÈ'Ð8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S°$·.±.À'È7ÓSÐVdÑdˆLÜ Ÿ9™9ØœeŸl™l¬5¯;©;°|×7IÑ7IÓ+J×+NÑ+NÐWc×WjÑWjÔkóˆLð (×,Ñ,¨S°4·>±>Ñ-AÀ7ÈGÓTˆLð ×Ñ¤§¡Ò.ÜŸ=™=×0Ñ0°À2ÌUÏ]É]Ð0Ó[×^Ñ^Ô_d×_lÑ_lÓm‰LäŸ=™=×0Ñ0°À2Ð0ÓFˆLàÐ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ò:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQTÐVZ×VdÑVdÐfmÐovÓ?wÑwˆLØ'×,Ñ,¨S°4·>±>Ñ-AÀ7ÈGÓTˆLáð
 %1×$5Ñ$5°c¸4¿>¹>È7ÐT[Ó$\Ð!Ø0×5Ñ5°c¸D¿N¹NÑ6JÈGÐU\Ó]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ó`ˆ
ä—i‘i 
¨LÓ9ˆà×ÑÓ #¨¯©Ñ"6¸ÀÇÁÐ!OÒOÜØ2°C¸¿¹ÈÐRV×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¨D¯N©N¸GÀTÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¨w¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1Ð1Ð1r"   )ç        FTN)NNNNFN)r'   r(   r)   r*   r+   r   r,   Úboolr   r-   r.   r   Útupler%   r/   r0   s   @r!   rb   rb   h   s.  ø„ ÙGð $'Ø%*Ø#Ø$(ñCàðCð ðCð ˜%‘ð	Cð
 ˜T‘NðCð t‰nðCð ˜D‘>õCð@ 48Ø*.Ø15Ø26Ø"'Ø15ñ|2à—|‘|ð|2ð # 5§<¡<Ñ0ð|2ð ! ™ð	|2ð
 ! §¡Ñ.ð|2ð " %§,¡,Ñ/ð|2ð  ð|2ð ! §¡Ñ.ð|2ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷|2r"   rb   c                   óD  ‡ — e Zd Zddefˆ fd„Z	 	 	 	 	 	 	 	 	 ddej                  deej                     deej                     deej                     deej                     deej                     d	ee   d
ee	   dee	   deej                     dej                  fd„Z
ˆ xZS )ÚXGLMDecoderLayerÚconfigc                 ó0  •— t         ‰|   «        |j                  | _        t	        | j                  |j
                  |j                  d|¬«      | _        |j                  | _        t        |j                     | _        |j                  | _        |j                  rWt	        | j                  |j
                  |j                  d|¬«      | _        t        j                   | j                  «      | _        t        j                   | j                  «      | _        t        j&                  | j                  |j(                  «      | _        t        j&                  |j(                  | j                  «      | _        t        j                   | j                  «      | _        y )NT)rc   rd   re   rf   rh   )r   r   Úd_modelrc   rb   Úattention_headsÚattention_dropoutÚ	self_attnre   r   Úactivation_functionÚactivation_fnÚactivation_dropoutÚadd_cross_attentionÚencoder_attnr   Ú	LayerNormÚencoder_attn_layer_normÚself_attn_layer_normrn   Úffn_dimÚfc1Úfc2Úfinal_layer_norm)r   r¦   rh   r    s      €r!   r   zXGLMDecoderLayer.__init__  s  ø€ Ü‰ÑÔØŸ™ˆŒä&Ø—n‘nØ×,Ñ,Ø×,Ñ,ØØô
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔà×%Ò%Ü -ØŸ.™.Ø ×0Ñ0Ø×0Ñ0ØØ#ô!ˆDÔô ,.¯<©<¸¿¹Ó+GˆDÔ(ä$&§L¡L°·±Ó$@ˆÔ!Ü—9‘9˜TŸ^™^¨V¯^©^Ó<ˆŒÜ—9‘9˜VŸ^™^¨T¯^©^Ó<ˆŒÜ "§¡¨T¯^©^Ó <ˆÕr"   rs   rv   Úencoder_hidden_statesÚencoder_attention_maskrw   Úcross_attn_layer_head_maskru   rx   Ú	use_cachery   rz   c           	      ó2  — |}| j                  |«      }| j                  ||||||
¬«      \  }}t        j                  j	                  || j                  | j
                  ¬«      }||z   }d}|i|}| j                  |«      }| j                  |||||||
¬«      \  }}t        j                  j	                  || j                  | j
                  ¬«      }||z   }|}| j                  |«      }| j                  | j                  |«      «      }t        j                  j	                  || j                  | j
                  ¬«      }| j                  |«      }t        j                  j	                  || j                  | j
                  ¬«      }||z   }|f}|r|||fz  }|S )a  
        Args:
            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
            attention_mask (`torch.FloatTensor`): attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            encoder_hidden_states (`torch.FloatTensor`):
                cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
            encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
                `(encoder_attention_heads,)`.
            cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
                size `(decoder_attention_heads,)`.
            past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
        )rs   ru   rv   rw   rx   ry   r|   N)rs   rt   rv   rw   ru   rx   ry   )r³   r«   r   r   re   r~   r²   r°   r·   r­   rµ   r®   r¶   )r   rs   rv   r¸   r¹   rw   rº   ru   rx   r»   ry   ÚresidualÚself_attn_weightsÚcross_attn_weightsÚoutputss                  r!   r%   zXGLMDecoderLayer.forward'  sµ  € ð> !ˆØ×1Ñ1°-Ó@ˆð ,0¯>©>Ø'Ø)Ø)Ø+Ø/Ø)ð ,:ó ,
Ñ(ˆÐ(ô Ÿ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-ÓdˆØ  =Ñ0ˆð "ÐØ Ð,Ø$ˆHØ ×8Ñ8¸ÓGˆMà04×0AÑ0AØ+Ø!6Ø5Ø :Ø-Ø"3Ø-ð 1Bó 1Ñ-ˆMÐ-ô ŸM™M×1Ñ1°-À4Ç<Á<ÐZ^×ZgÑZgÐ1ÓhˆMØ$ }Ñ4ˆMð !ˆØ×-Ñ-¨mÓ<ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m¸t×?VÑ?VÐae×anÑanÐ-ÓoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-ÓdˆØ  =Ñ0ˆà Ð"ˆáØÐ)Ð+=Ð>Ñ>ˆGàˆr"   r   )	NNNNNNFTN)r'   r(   r)   r   r   r-   r.   r   r   r¢   r%   r/   r0   s   @r!   r¥   r¥     sô   ø„ ñ=˜zõ =ðD 26Ø8<Ø9=Ø26Ø=AØ*.Ø,1Ø$(Ø15ñNà—|‘|ðNð ! §¡Ñ.ðNð  (¨¯©Ñ5ð	Nð
 !)¨¯©Ñ 6ðNð " %§,¡,Ñ/ðNð %-¨U¯\©\Ñ$:ðNð ! ™ðNð $ D™>ðNð ˜D‘>ðNð ! §¡Ñ.ðNð 
‰÷Nr"   r¥   c                   ó,   — e Zd ZU eed<   dZdZdgZd„ Zy)ÚXGLMPreTrainedModelr¦   ÚmodelTr¥   c                 ó  — | j                   j                  }t        |t        j                  «      rY|j
                  j                  j                  d|¬«       |j                  %|j                  j                  j                  «        y y t        |t        j                  «      rf|j
                  j                  j                  d|¬«       |j                  2|j
                  j                  |j                     j                  «        y y y )Nr¡   )ÚmeanÚstd)r¦   Úinit_stdr   r   rn   ÚweightÚdataÚnormal_rg   Úzero_Ú	Embeddingr   )r   ÚmodulerÆ   s      r!   Ú_init_weightsz!XGLMPreTrainedModel._init_weights  sÃ   € Øk‰k×"Ñ"ˆÜfœbŸi™iÔ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ô9Ø{‰{Ð&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡Ô-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ô9Ø×!Ñ!Ð-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r"   N)	r'   r(   r)   r   Ú__annotations__Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesrÎ   © r"   r!   rÂ   rÂ   x  s"   … àÓØÐØ&*Ð#Ø+Ð,Ðó	?r"   rÂ   c            "       óö  ‡ — e Zd Zddedeej                     fˆ fd„Ze	 	 	 	 	 	 	 	 	 	 	 	 	 	 ddee	j                     dee	j                     dee	j                     dee	j                     dee	j                     d	ee	j                     d
ee	j                     deee	j                        dee	j                     dee   dee   dee   dee   dee	j                     deee	j                     ef   fd„«       Zˆ xZS )Ú	XGLMModelr¦   Úembed_tokensc           	      óê  •— t         ‰|   |«       |j                  | _        |j                  | _        |j                  | _        |j                  | _        |j                  rt        j                  |j                  «      nd}||| _        n2t        |j                  |j                  | j
                  |¬«      | _        t        |j                  |j                  |j                  «      | _        t#        j$                  t'        |j(                  «      D cg c]  }t+        ||¬«      ‘Œ c}«      | _        t#        j.                  |j                  «      | _        d| _        | j5                  «        yc c}w )zZ
        embed_tokens (`nn.Embedding`, *optional*):
            output embeddings
        r&   N)r   )rh   F)r   r   re   Ú	layerdropÚpad_token_idr   Úmax_position_embeddingsÚmax_target_positionsÚscale_embeddingrG   Úsqrtr¨   rÖ   r   Ú
vocab_sizer2   Úembed_positionsr   Ú
ModuleListÚrangeÚ
num_layersr¥   r„   r±   Ú
layer_normÚgradient_checkpointingÚ	post_init)r   r¦   rÖ   r   Úir    s        €r!   r   zXGLMModel.__init__  s  ø€ ô
 	‰Ñ˜Ô Ø—~‘~ˆŒØ×)Ñ)ˆŒØ!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø39×3IÒ3I”d—i‘i §¡Ô/ÈsˆàÐ#Ø ,ˆDÕä 7Ø×!Ñ! 6§>¡>°4×3CÑ3CÐQ\ô!ˆDÔô  AØ×*Ñ*ØN‰NØ×Ñó 
ˆÔô
 —m‘mÔTYÐZ`×ZkÑZkÓTlÖ$mÈqÔ%5°fÈÖ%JÒ$mÓnˆŒÜŸ,™, v§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %ns   ÄE0r#   rv   rU   r¸   r¹   Ú	head_maskÚcross_attn_head_maskÚpast_key_valuesÚinputs_embedsr»   rx   Úoutput_hidden_statesÚreturn_dictry   rz   c                 óª  — ||n| j                   j                  }||n| j                   j                  }|
|
n| j                   j                  }
||n| j                   j                  }||	t        d«      ‚|8| j                  ||«       |j                  «       }|j                  d|d   «      }n!|	|	j                  «       dd }nt        d«      ‚|	€| j                  |«      }	| j                  r%| j                  r|
rt        j                  d«       d}
d}|
r<t        |t        «      s,d}t        j                  d«       t!        j"                  |«      }||j%                  «       nd	}t'        |||	|«      }|€Vt)        j*                  ||d   |z   t(        j,                  ||j.                  n|	j.                  ¬
«      }|j1                  d	«      }||t3        ||	j4                  |d   ¬«      }|	| j7                  ||«      j9                  |	j.                  «      z   }t:        j<                  j?                  |tA        | j>                  «      | j                  ¬«      }|rdnd}|rdnd}|r|dnd}tC        ||gddg«      D ]j  \  }}|€Œ	|j                  «       d	   tE        | jF                  «      k7  sŒ3t        d|› dtE        | jF                  «      › d|j                  «       d	   › d«      ‚ tI        | jF                  «      D ]{  \  }}|r||fz  }| j                  r%t)        jJ                  g «      }|| jL                  k  rŒ? ||||||||   nd|||   nd|||
|¬«
      }|d	   }|sŒg||d   fz  }|€Œs||d   fz  }Œ} | jO                  |«      }|r||fz  }|r|jQ                  «       }|stS        d„ |||||fD «       «      S tU        |||||¬«      S )aÿ  
        encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
            the decoder.
        encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
            Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
            selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
            Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

            - 1 indicates the head is **not masked**,
            - 0 indicates the head is **masked**.
        NzDYou cannot specify both input_ids and inputs_embeds at the same timerF   z5You have to specify either input_ids or inputs_embedsz_`use_cache = True` is incompatible with gradient checkpointing`. Setting `use_cache = False`...FTzìPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.r   r:   )r”   r|   rÓ   rç   rè   zThe `z` should be specified for z layers, but it is for ú.)r¹   rw   rº   ru   rx   r»   ry   r   r5   c              3   ó$   K  — | ]  }||–— Œ
 y ­wr   rÓ   )Ú.0Úvs     r!   ú	<genexpr>z$XGLMModel.forward.<locals>.<genexpr>F  s   è ø€ ò àØ=ô ñùs   ‚)Úlast_hidden_stateré   rs   Ú
attentionsÚcross_attentions)+r¦   rx   rë   r»   Úuse_return_dictrl   Ú%warn_if_padding_and_no_attention_maskrX   rP   rÖ   rä   r~   ÚloggerÚwarning_oncer   r   r	   Úfrom_legacy_cacheÚget_seq_lengthr   r-   rJ   Úlongr<   rL   r   r;   rß   r@   r   r   re   r,   ÚzipÚlenr„   Ú	enumerateÚrandrØ   rã   Úto_legacy_cacher£   r   )r   r#   rv   rU   r¸   r¹   rç   rè   ré   rê   r»   rx   rë   rì   ry   Úinput_shapeÚreturn_legacy_cacherV   rs   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚ	attn_maskÚ	mask_nameÚidxÚdecoder_layerÚdropout_probabilityÚlayer_outputss                               r!   r%   zXGLMModel.forward¬  sj  € ðH 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð "+Ð!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ð  ]Ð%>ÜÐcÓdÐdØÐ"Ø×6Ñ6°yÀ.ÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÐ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUàÐ Ø ×-Ñ-¨iÓ8ˆMà×&Ò&¨4¯=ª=ÙÜ×#Ñ#Øuôð "	ð $ÐÙœZ¨¼Ô?Ø"&ÐÜ×Ñð\ôô
 2×CÑCÀOÓTˆOàETÐE` ×!?Ñ!?Ô!AÐfgÐÜ:Ø˜K¨Ð8Nó
ˆð ÐÜ Ÿ<™<Ø&Ø˜B‘Ð"8Ñ8Ü—j‘jØ+4Ð+@y×'Ò'Àm×FZÑFZô	ˆLð (×1Ñ1°!Ó4ˆLð !Ð,Ð1GÐ1Sä%?Ø&¨×(;Ñ(;À[ÐQSÁ_ô&Ð"ð &¨×(<Ñ(<¸\ÐKaÓ(b×(eÑ(eØ× Ñ ó)
ñ 
ˆô Ÿ™×-Ñ-¨m¼uÀTÇ\Á\Ó?RÐ]a×]jÑ]jÐ-Ókˆñ #7™B¸DÐÙ0™°dˆÙ&7Ð<QÐ<]™rÐdhÐô %(¨Ð4HÐ(IÈKÐYoÐKpÓ$qò 	Ñ ˆIyØÑ$Ø—>‘>Ó# AÑ&¬#¨d¯k©kÓ*:Ó:Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ð	ô #,¨D¯K©KÓ"8ò 	@ÑˆCá#Ø! mÐ%5Ñ5Ð!Ø}Š}Ü&+§j¡j°£nÐ#Ø&¨¯©Ò7Øá)ØØØ%Ø'=Ø3<Ð3H ¨3¢ÈdØI]ÐIiÐ,@ÀÒ,EÐosØ.Ø"3Ø#Ø-ôˆMð *¨!Ñ,ˆMâ Ø =°Ñ#3Ð"5Ñ5à(Ñ4Ø(¨]¸1Ñ-=Ð,?Ñ?Ñ(ð7	@ð: Ÿ™¨Ó6ˆñ  Ø -Ð!1Ñ1ÐáØ-×=Ñ=Ó?ˆOáÜñ à'¨Ð:KÈ^Ð]qÐrôó ð ô
 9Ø+Ø+Ø+Ø%Ø1ô
ð 	
r"   r   )NNNNNNNNNNNNNN)r'   r(   r)   r   r   r   rÌ   r   r   r-   r.   ÚlistÚFloatTensorr¢   r   r£   r   r%   r/   r0   s   @r!   rÕ   rÕ   ‹  s‰  ø„ ñ˜zð ¸À"Ç,Á,Ñ9Oõ ð> ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø$(Ø,0Ø/3Ø&*Ø15ñd
à˜EŸL™LÑ)ðd
ð ! §¡Ñ.ðd
ð ˜uŸ|™|Ñ,ð	d
ð
  (¨¯©Ñ5ðd
ð !)¨¯©Ñ 6ðd
ð ˜EŸL™LÑ)ðd
ð ' u§|¡|Ñ4ðd
ð " $ u×'8Ñ'8Ñ"9Ñ:ðd
ð   §¡Ñ-ðd
ð ˜D‘>ðd
ð $ D™>ðd
ð ' t™nðd
ð ˜d‘^ðd
ð ! §¡Ñ.ðd
ð  
ˆuU—\‘\Ñ"Ð$MÐMÑ	Nò!d
ó ôd
r"   rÕ   z‡
    The XGLM Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc            $       óú  ‡ — e Zd ZdZdgZˆ fd„Ze	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 ddeej                     deej                     deej                     deej                     deej                     d	eej                     d
eej                     dee
ej                        deej                     deej                     dee   dee   dee   dee   deej                     deeej                     ef   f d„«       Zˆ xZS )ÚXGLMForCausalLMrÃ   zlm_head.weightc                 óÆ   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  d¬«      | _        | j                  «        y )NFrj   )
r   r   rÕ   rÃ   r   rn   Úhidden_sizerÞ   Úlm_headrå   )r   r¦   r    s     €r!   r   zXGLMForCausalLM.__init__^  sH   ø€ Ü‰Ñ˜Ô Ü˜vÓ&ˆŒ
Ü—y‘y ×!3Ñ!3°V×5FÑ5FÈUÔSˆŒð 	‰Õr"   r#   rv   rU   r¸   r¹   rç   rè   ré   rê   Úlabelsr»   rx   rë   rì   ry   rz   c                 ó&  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }| j	                  |||||||||	|||||¬«      }| j                  |d   «      }d}|
? | j                  ||
f| j                   j                  | j                   j                  dœ|¤Ž}|s|f|dd z   }||f|z   S |S t        |||j                  |j                  |j                  |j                  ¬«      S )a£  
        encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
            the decoder.
        encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
            Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
            selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
            Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

            - 1 indicates the head is **not masked**,
            - 0 indicates the head is **masked**.
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
        N)r#   rv   rU   r¸   r¹   rç   rè   ré   rê   r»   rx   rë   rì   ry   r   )rÞ   rÙ   r   )ÚlossÚlogitsré   rs   rô   rõ   )r¦   rx   rë   rö   rÃ   r  Úloss_functionrÞ   rÙ   r   ré   rs   rô   rõ   )r   r#   rv   rU   r¸   r¹   rç   rè   ré   rê   r  r»   rx   rë   rì   ry   ÚkwargsrÀ   r  r  Úoutputs                        r!   r%   zXGLMForCausalLM.forwardf  sY  € ðV 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*ØØ)Ø%Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#Ø)ð ó 
ˆð" —‘˜g a™jÓ)ˆàˆØÐØ%4×%Ñ%ØØðð  Ÿ;™;×1Ñ1Ø!Ÿ[™[×5Ñ5ñ	ð
 ñˆDñ ØY ¨¨ Ñ,ˆFØ'+Ð'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ô
ð 	
r"   )NNNNNNNNNNNNNNN)r'   r(   r)   rÐ   Ú_tied_weights_keysr   r   r   r-   r.   r  r  r¢   r   r£   r   r%   r/   r0   s   @r!   r  r  T  sš  ø„ ð  ÐØ*Ð+Ðôð ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø)-Ø$(Ø,0Ø/3Ø&*Ø15ñ!Y
à˜EŸL™LÑ)ðY
ð ! §¡Ñ.ðY
ð ˜uŸ|™|Ñ,ð	Y
ð
  (¨¯©Ñ5ðY
ð !)¨¯©Ñ 6ðY
ð ˜EŸL™LÑ)ðY
ð ' u§|¡|Ñ4ðY
ð " $ u×'8Ñ'8Ñ"9Ñ:ðY
ð   §¡Ñ-ðY
ð ˜Ÿ™Ñ&ðY
ð ˜D‘>ðY
ð $ D™>ðY
ð ' t™nðY
ð ˜d‘^ðY
ð  ! §¡Ñ.ð!Y
ð$ 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fò%Y
ó ôY
r"   r  )r  rÕ   rÂ   )+r*   rG   Útypingr   r   r-   Útorch.utils.checkpointr   Úactivationsr   Úcache_utilsr   r	   Ú
generationr
   Úmodeling_attn_mask_utilsr   r   Úmodeling_layersr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_xglmr   Ú
get_loggerr'   rø   rÌ   r   ÚModuler2   rb   r¥   rÂ   rÕ   r  Ú__all__rÓ   r"   r!   ú<module>r+     sý   ðñ ã ß "ã Û Ý å !ß 5Ý )ß eÝ 9ß lÝ -ß ,Ý *ð 
ˆ×	Ñ	˜HÓ	%€ô
=˜bŸl™lô 
=ô1w¨¯	©	ô 1wôh\2B—I‘Iô \2ô~nÐ1ô nðb ô?˜/ó ?ó ð?ð$ ôE
Ð#ó E
ó ðE
ñP ðôôf
Ð)¨?ó f
óðf
òR Br"   