Ë
    ¹rœh„  ã                   ó$  — d Z ddlZddlmZmZ ddlZddlmc mZ	 ddl
ZddlmZ ddlmZ ddlmZ ddlmZmZ dd	lmZ dd
lmZmZ ddlmZ ddlmZmZ ddlmZ  ej<                  e«      Z  G d„ dejB                  «      Z" G d„ dejB                  «      Z# G d„ dejB                  «      Z$ G d„ dejB                  «      Z% G d„ dejB                  «      Z& G d„ dejB                  «      Z' G d„ dejB                  «      Z( G d„ dejB                  «      Z) G d„ d ejB                  «      Z* G d!„ d"ejB                  «      Z+ G d#„ d$ejB                  «      Z,e G d%„ d&e«      «       Z-e G d'„ d(e-«      «       Z. ed)¬*«       G d+„ d,e-e«      «       Z/g d-¢Z0y).zPyTorch CPMAnté    N)ÚOptionalÚUnion)Únn)ÚCrossEntropyLossé   )ÚACT2FN)ÚCacheÚDynamicCache)ÚGenerationMixin)ÚBaseModelOutputWithPastÚCausalLMOutputWithPast)ÚPreTrainedModel)Úauto_docstringÚloggingé   )ÚCpmAntConfigc                   óH   ‡ — e Zd ZdZdefˆ fd„Zdej                  fd„Zˆ xZ	S )ÚCpmAntLayerNormz~
    We use Root Mean Square (RMS) Layer Normalization, please see https://huggingface.co/papers/1910.07467 for details."
    Úconfigc                 óÔ   •— t         ‰|   «        |j                  | _        |j                  | _        t        j                  t        j                  |j                  «      «      | _	        y ©N)
ÚsuperÚ__init__ÚepsÚhidden_sizeÚdim_normr   Ú	ParameterÚtorchÚemptyÚweight©Úselfr   Ú	__class__s     €ú}/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/transformers/models/cpmant/modeling_cpmant.pyr   zCpmAntLayerNorm.__init__+   sE   ø€ Ü‰ÑÔà—:‘:ˆŒØ×*Ñ*ˆŒÜ—l‘l¤5§;¡;¨v×/AÑ/AÓ#BÓCˆó    Úhidden_statesc                 óp  — |j                  d«      | j                  k7  rt        d«      ‚|j                  }|j	                  t
        j                  «      j                  d«      j                  dd¬«      }|t        j                  || j                  z   «      z  j	                  |«      | j                  z  }|S )úf
        Args:
            hidden_states (`torch.Tensor` of shape `(batch, seq_len, dim_in)`)
        éÿÿÿÿz'hidden_states.size(-1) != self.dim_normé   T)ÚdimÚkeepdim)Úsizer   ÚAssertionErrorÚdtypeÚtor   Úfloat32ÚpowÚmeanÚrsqrtr   r    )r"   r&   Ú	old_dtypeÚvariances       r$   ÚforwardzCpmAntLayerNorm.forward2   sš   € ð
 ×Ñ˜bÓ! T§]¡]Ò2Ü Ð!JÓKÐKØ!×'Ñ'ˆ	Ø ×#Ñ#¤E§M¡MÓ2×6Ñ6°qÓ9×>Ñ>À2ÈtÐ>ÓTˆØ&¬¯©°XÀÇÁÑ5HÓ)IÑI×MÑMÈiÓXÐ[_×[fÑ[fÑfˆØÐr%   )
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   r   r   ÚTensorr7   Ú__classcell__©r#   s   @r$   r   r   &   s&   ø„ ñðD˜|õ Dð
 U§\¡\÷ 
r%   r   c                   óÔ   ‡ — e Zd Zddefˆ fd„Z	 	 	 	 ddej                  dej                  dej                  dej                  dee	   dee
   d	ee	   d
eej                     fd„Zˆ xZS )ÚCpmAntAttentionr   c                 óV  •— t         ‰|   «        |j                  | _        |j                  | _        |j                  | _        || _        t        j                  | j                  | j
                  | j                  z  d¬«      | _
        t        j                  | j                  | j
                  | j                  z  d¬«      | _        t        j                  | j                  | j
                  | j                  z  d¬«      | _        t        j                  | j
                  | j                  z  | j                  d¬«      | _        t        j                  j                  d¬«      | _        |j"                  0t        j                  j%                  |j"                  ¬«      | _        y d | _        y )NF©Úbiasr)   ©r+   )Úp)r   r   r   Ú	dim_modelÚnum_attention_headsÚ	num_headsÚdim_headÚ	layer_idxr   ÚLinearÚ	project_qÚ	project_kÚ	project_vÚattention_outr   ÚSoftmaxÚsoftmaxÚ	dropout_pÚDropoutÚdropout©r"   r   rJ   r#   s      €r$   r   zCpmAntAttention.__init__@   s  ø€ Ü‰ÑÔØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™ˆŒØ"ˆŒäŸ™ 4§>¡>°4·>±>ÀDÇMÁMÑ3QÐX]Ô^ˆŒÜŸ™ 4§>¡>°4·>±>ÀDÇMÁMÑ3QÐX]Ô^ˆŒÜŸ™ 4§>¡>°4·>±>ÀDÇMÁMÑ3QÐX]Ô^ˆŒäŸY™Y t§~¡~¸¿¹Ñ'EÀtÇ~Á~Ð\aÔbˆÔä—x‘x×'Ñ'¨BÐ'Ó/ˆŒà×ÑÐ'Ü Ÿ8™8×+Ñ+¨f×.>Ñ.>Ð+Ó?ˆDLàˆDLr%   Úhidden_qÚ	hidden_kvÚattention_maskÚposition_biasÚoutput_attentionsÚpast_key_valuesÚ	use_cacheÚcache_positionc	           	      ó†  — |j                  d«      }	|j                  d«      }
|j                  d«      }| j                  |«      }| j                  |«      }| j                  |«      }|j	                  |	|
| j
                  | j                  «      j                  dddd«      }|j	                  |	|| j
                  | j                  «      j                  dddd«      }|j	                  |	|| j
                  | j                  «      j                  dddd«      }|4|j                  ||| j                  d|i«      \  }}|j                  d«      }t        j                  ||j                  dd«      «      t        j                  | j                  «      z  }||z   }t        j                  ||j	                  |	d|
|«      t        j                   d	«      k(  t        j"                  t%        d
«      |j&                  |j(                  ¬«      «      }| j+                  |«      }t        j                  ||j	                  |	d|
|«      t        j                   d	«      k(  t        j"                  d|j&                  |j(                  ¬«      «      }|r|}nd}| j,                  | j-                  |«      }t        j                  ||«      }|j	                  |	| j
                  |
| j                  «      j                  dddd«      }|j/                  «       j	                  |	|
| j
                  | j                  z  «      }| j1                  |«      }||fS )a€  
        Args:
            hidden_q (`torch.Tensor`):
                Input of transformer block(self-attention block). It can be the raw embedding of a batch of sequences.
            hidden_kv (`torch.Tensor` of shape `(batch, len_k, dim_model)`)):
                Tensor *key_value* and *query* of shape `(batch, len_k, dim_model)`
            attention_mask (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
                Avoid invalid areas to participate in the calculation of self-attention.
            position_bias (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
                Provide positional information to self-attention block.
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers.
            past_key_values (`tuple[torch.Tensor, torch.Tensor]`, *optional*):
                Cached past key and value projection states.
            use_cache (`bool`, *optional*):
                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
                (see `past_key_values`).
        r   r   r*   r   Nr]   éþÿÿÿr)   Fz-inf)Údevicer/   )r-   rL   rM   rN   ÚviewrH   rI   ÚpermuteÚupdaterJ   r   ÚmatmulÚ	transposeÚmathÚsqrtÚmasked_fillÚtensorÚscalar_tensorÚfloatr`   r/   rQ   rT   Ú
contiguousrO   )r"   rV   rW   rX   rY   rZ   r[   r\   r]   Ú
batch_sizeÚlen_qÚlen_kÚqueryÚkeyÚvalueÚscoreÚattn_weightss                    r$   r7   zCpmAntAttention.forwardT   s½  € ð: —]‘] 1Ó%ˆ
Ø—‘˜aÓ ˆØ—‘˜qÓ!ˆà—‘˜xÓ(ˆØn‰n˜YÓ'ˆØ—‘˜yÓ)ˆà—
‘
˜: u¨d¯n©n¸d¿m¹mÓL×TÑTÐUVÐXYÐ[\Ð^_Ó`ˆØh‰hz 5¨$¯.©.¸$¿-¹-ÓH×PÑPÐQRÐTUÐWXÐZ[Ó\ˆØ—
‘
˜: u¨d¯n©n¸d¿m¹mÓL×TÑTÐUVÐXYÐ[\Ð^_Ó`ˆàÐ&Ø(×/Ñ/°°U¸D¿N¹NÐM]Ð_mÐLnÓo‰JˆCØ—H‘H˜R“LˆEô —‘˜U C§M¡M°"°bÓ$9Ó:¼T¿Y¹YÀtÇ}Á}Ó=UÑUˆØ˜Ñ%ˆä×!Ñ!ØØ×Ñ 
¨A¨u°eÓ<ÄÇÁÈUÓ@SÑSÜ×Ñ¤ f£°e·l±lÈ%Ï+É+ÔVó
ˆð
 —‘˜UÓ#ˆä×!Ñ!ØØ×Ñ 
¨A¨u°eÓ<ÄÇÁÈUÓ@SÑSÜ×Ñ ¨%¯,©,¸e¿k¹kÔJó
ˆñ
 Ø ‰LàˆLà<‰<Ð#Ø—L‘L Ó'ˆEô —‘˜U EÓ*ˆà—
‘
˜: t§~¡~°u¸d¿m¹mÓL×TÑTÐUVÐXYÐ[\Ð^_Ó`ˆØ× Ñ Ó"×'Ñ'¨
°E¸4¿>¹>ÈDÏMÉMÑ;YÓZˆà×"Ñ" 5Ó)ˆàlÐ"Ð"r%   r   )FNNN)r8   r9   r:   r   r   r   r<   Ú
BoolTensorr   Úboolr	   r7   r=   r>   s   @r$   r@   r@   ?   s    ø„ ñ ˜|õ  ð4 -2Ø+/Ø$(Ø15ñM#à—,‘,ðM#ð —<‘<ðM#ð ×(Ñ(ð	M#ð
 —|‘|ðM#ð $ D™>ðM#ð " %™ðM#ð ˜D‘>ðM#ð ! §¡Ñ.÷M#r%   r@   c                   óÄ   ‡ — e Zd Zddefˆ fd„Z	 	 	 	 	 ddej                  dej                  deej                     dee   dee	   dee   d	eej                     fd
„Z
ˆ xZS )ÚCpmAntSelfAttentionBlockr   c                 óê   •— t         ‰|   «        t        |«      | _        t	        ||¬«      | _        |j                  r/t        j                  j                  |j                  «      | _
        y d | _
        y ©N)rJ   )r   r   r   Úlayernorm_before_attentionr@   Úself_attentionrR   r   r   rS   rT   rU   s      €r$   r   z!CpmAntSelfAttentionBlock.__init__¥   sV   ø€ Ü‰ÑÔÜ*9¸&Ó*AˆÔ'Ü-¨fÀ	ÔJˆÔØ×ÒÜ Ÿ8™8×+Ñ+¨F×,<Ñ,<Ó=ˆDLàˆDLr%   r&   rX   rY   rZ   r[   r\   r]   c           
      ó¦   — | j                  |«      }| j                  ||||||||«      \  }}	| j                  | j                  |«      }||z   }||	fS )a  
        Args:
            hidden_states (`torch.Tensor` of shape `(batch, len_seq, dim_model)`):
                Input of transformer block(self-attention block). It can be the raw embedding of a batch of sequences.
            attention_mask (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
                Avoid invalid areas to participate in the calculation of self-attention.
            position_bias (`torch.Tensor` of shape `(batch, len_seq, len_seq)`):
                Provide positional information to self-attention block.
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers.
            past_key_values (`Tuple(torch.FloatTensor)`, *optional*):
                Cached past key and value projection states.
            use_cache (`bool`, *optional*):
                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
                (see `past_key_values`).
        )r{   r|   rT   )
r"   r&   rX   rY   rZ   r[   r\   r]   Úoutputsrt   s
             r$   r7   z CpmAntSelfAttentionBlock.forward®   sp   € ð4 ×1Ñ1°-Ó@ˆØ $× 3Ñ 3ØØØØØØØØó	!
Ñˆð <‰<Ð#Ø—l‘l 7Ó+ˆGØ%¨Ñ/ˆà˜lÐ*Ð*r%   r   ©NFNNN©r8   r9   r:   r   r   r   r<   r   rv   r	   r7   r=   r>   s   @r$   rx   rx   ¤   s   ø„ ñ ˜|õ  ð 15Ø,1Ø+/Ø$(Ø15ñ*+à—|‘|ð*+ð Ÿ™ð*+ð   §¡Ñ-ð	*+ð
 $ D™>ð*+ð " %™ð*+ð ˜D‘>ð*+ð ! §¡Ñ.÷*+r%   rx   c                   óD   ‡ — e Zd Zdefˆ fd„Zdej                  fd„Zˆ xZS )ÚCpmAntDenseGatedACTr   c                 ó,  •— t         ‰|   «        t        j                  |j                  |j
                  d¬«      | _        t        j                  |j                  |j
                  d¬«      | _        t        j                  j                  «       | _
        y ©NFrB   )r   r   r   rK   r   Údim_ffÚw_0Úw_1r   ÚGELUÚactr!   s     €r$   r   zCpmAntDenseGatedACT.__init__Ü   s[   ø€ Ü‰ÑÔÜ—9‘9˜V×/Ñ/°·±ÀUÔKˆŒÜ—9‘9˜V×/Ñ/°·±ÀUÔKˆŒÜ—8‘8—=‘=“?ˆr%   r&   c                 ór   — | j                  | j                  |«      «      }| j                  |«      }||z  }|S )z¼Transform an input tensor from one feature space to another via a nonlinear operation

        Args:
            hidden_states (`torch.Tensor` of shape `(batch, seq_len, dim_in)`)
        )r‰   r†   r‡   )r"   r&   Ú
gate_scores      r$   r7   zCpmAntDenseGatedACT.forwardâ   s9   € ð —X‘X˜dŸh™h }Ó5Ó6ˆ
ØŸ™ Ó/ˆà" ]Ñ2ˆØÐr%   ©	r8   r9   r:   r   r   r   r<   r7   r=   r>   s   @r$   r‚   r‚   Û   s   ø„ ð#˜|õ #ð
 U§\¡\÷ 
r%   r‚   c                   óD   ‡ — e Zd Zdefˆ fd„Zdej                  fd„Zˆ xZS )ÚCpmAntFeedForwardr   c                 ó(  •— t         ‰|   «        t        |«      | _        |j                  /t
        j                  j                  |j                  «      | _        nd | _        t        j                  |j                  |j                  d¬«      | _        y r„   )r   r   r‚   Úw_inrR   r   r   rS   rT   rK   r…   r   Úw_outr!   s     €r$   r   zCpmAntFeedForward.__init__ð   sg   ø€ Ü‰ÑÔÜ'¨Ó/ˆŒ	Ø×ÑÐ'Ü Ÿ8™8×+Ñ+¨F×,<Ñ,<Ó=ˆDLàˆDŒLä—Y‘Y˜vŸ}™}¨f×.@Ñ.@ÀuÔMˆ
r%   r&   c                 ó„   — | j                  |«      }| j                  | j                  |«      }| j                  |«      }|S )r(   )r   rT   r‘   ©r"   r&   s     r$   r7   zCpmAntFeedForward.forwardú   s>   € ð
 Ÿ	™	 -Ó0ˆà<‰<Ð#Ø ŸL™L¨Ó7ˆMàŸ
™
 =Ó1ˆàÐr%   rŒ   r>   s   @r$   rŽ   rŽ   ï   s!   ø„ ðN˜|õ Nð U§\¡\÷ r%   rŽ   c                   óD   ‡ — e Zd Zdefˆ fd„Zdej                  fd„Zˆ xZS )ÚCpmAntFFNBlockr   c                 óæ   •— t         ‰|   «        t        |«      | _        t	        |«      | _        |j                  r/t        j                  j                  |j                  «      | _
        y d | _
        y r   )r   r   r   Úlayernorm_before_ffnrŽ   ÚffnrR   r   r   rS   rT   r!   s     €r$   r   zCpmAntFFNBlock.__init__
  sS   ø€ Ü‰ÑÔÜ$3°FÓ$;ˆÔ!Ü$ VÓ,ˆŒØ×ÒÜ Ÿ8™8×+Ñ+¨F×,<Ñ,<Ó=ˆDLàˆDLr%   r&   c                 óŽ   — | j                  |«      }| j                  |«      }| j                  | j                  |«      }||z   }|S )z£
        Args:
            hidden_states (`torch.Tensor` of shape `(batch, len_seq, dim_model)`):
                Hidden states before feed forward layer.
        )r—   r˜   rT   )r"   r&   Ú
ln_outputsr~   s       r$   r7   zCpmAntFFNBlock.forward  sJ   € ð ×.Ñ.¨}Ó=ˆ
Ø—(‘(˜:Ó&ˆØ<‰<Ð#Ø—l‘l 7Ó+ˆGØ%¨Ñ/ˆØÐr%   rŒ   r>   s   @r$   r•   r•   	  s    ø„ ð ˜|õ  ðà—|‘|÷r%   r•   c                   óÄ   ‡ — e Zd Zddefˆ fd„Z	 	 	 	 	 ddej                  dej                  deej                     dee   dee	   dee   d	eej                     fd
„Z
ˆ xZS )ÚCpmAntTransformerBlockr   c                 óf   •— t         ‰|   «        t        ||¬«      | _        t	        |«      | _        y rz   )r   r   rx   Úself_attr•   r˜   rU   s      €r$   r   zCpmAntTransformerBlock.__init__%  s(   ø€ Ü‰ÑÔÜ0°À9ÔMˆŒÜ! &Ó)ˆr%   r&   rX   rY   rZ   r[   r\   r]   c           	      ób   — | j                  |||||||¬«      \  }}| j                  |«      }||fS )a¤  
        Args:
            hidden_states (`torch.Tensor`):
                Input to the layer of shape `(batch, seq_len, dim_model)`
            attention_mask (`torch.Tensor`):
                Avoid invalid areas to participate in the calculation of shape `(batch, seq_len, seq_len)`
            position_bias (`torch.Tensor`):
                Provides position information to attention mechanism of shape `(num_heads, seq_len, seq_len)`
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers.
            past_key_values (`tuple[torch.Tensor, torch.Tensor])`, *optional*):
                Cached past key and value projection states
            use_cache (`bool`, *optional*):
                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
                (see `past_key_values`).
        )rX   rY   rZ   r[   r\   r]   )rž   r˜   )	r"   r&   rX   rY   rZ   r[   r\   r]   rt   s	            r$   r7   zCpmAntTransformerBlock.forward*  sL   € ð4 '+§m¡mØØ)Ø'Ø/Ø+ØØ)ð '4ó '
Ñ#ˆ|ð Ÿ™ Ó/ˆØ˜lÐ*Ð*r%   r   r   r€   r>   s   @r$   rœ   rœ   $  s   ø„ ñ*˜|õ *ð 15Ø,1Ø+/Ø$(Ø15ñ%+à—|‘|ð%+ð Ÿ™ð%+ð   §¡Ñ-ð	%+ð
 $ D™>ð%+ð " %™ð%+ð ˜D‘>ð%+ð ! §¡Ñ.÷%+r%   rœ   c                   óÆ   ‡ — e Zd Zdefˆ fd„Z	 	 	 	 	 ddej                  dej                  dej                  dee   dee   dee	   d	ee   d
eej                     fd„Z
ˆ xZS )ÚCpmAntEncoderr   c           	      óú   •— t         ‰|   «        |j                  | _        t	        j
                  t        | j                  «      D cg c]  }t        ||¬«      ‘Œ c}«      | _        t        |«      | _
        y c c}w rz   )r   r   Únum_hidden_layersÚ
num_layersr   Ú
ModuleListÚrangerœ   Úlayersr   Úoutput_layernorm)r"   r   Úir#   s      €r$   r   zCpmAntEncoder.__init__S  s_   ø€ Ü‰ÑÔØ ×2Ñ2ˆŒÜ—m‘mÔZ_Ð`d×`oÑ`oÓZpÖ$qÐUVÔ%;¸FÈaÖ%PÒ$qÓrˆŒä /°Ó 7ˆÕùò %rs   ÁA8r&   rX   rY   rZ   Úoutput_hidden_statesr[   r\   Úcache_postionc	           	      óØ   — |rdnd}	|rdnd}
t        | j                  «      D ])  \  }}|r|	|fz  }	 |||||||¬«      }|\  }}|sŒ$|
|fz  }
Œ+ | j                  |«      }|r|	|fz  }	||	|
fS )a%  
        Args:
            hidden_states (`torch.Tensor`):
                Input to the layer of shape `(batch, seq_len, dim_model)`
            attention_mask (`torch.Tensor`):
                Avoid invalid areas to participate in the calculation of shape `(batch, seq_len, seq_len)`
            position_bias (`torch.Tensor`):
                Provides position information to attention mechanism of shape `(num_heads, seq_len, seq_len)`
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers.
            output_hidden_states (`bool`, *optional*):
                Whether or not to return the hidden states of all layers.
            past_key_values (`tuple[torch.Tensor, torch.Tensor])`, *optional*):
                Cached past key and value projection states
            use_cache (`bool`, *optional*):
                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
                (see `past_key_values`).
        © N)rZ   r[   r\   )Ú	enumerater§   r¨   )r"   r&   rX   rY   rZ   rª   r[   r\   r«   Úall_hidden_statesÚall_self_attnsr©   ÚlayerÚlayer_outputsrt   s                  r$   r7   zCpmAntEncoder.forwardZ  s¬   € ñ: #7™B¸DÐÙ0™°dˆä! $§+¡+Ó.ò 	2‰HˆAˆuÙ#Ø! mÐ%5Ñ5Ð!Ù!ØØØØ"3Ø /Ø#ôˆMð +8Ñ'ˆM˜<Ú Ø < /Ñ1‘ð	2ð ×-Ñ-¨mÓ<ˆáØ -Ð!1Ñ1ÐàÐ/°Ð?Ð?r%   )NNNNNr€   r>   s   @r$   r¡   r¡   R  s¡   ø„ ð8˜|õ 8ð -1Ø/3Ø+/Ø$(Ø04ñ4@à—|‘|ð4@ð Ÿ™ð4@ð —|‘|ð	4@ð
 $ D™>ð4@ð ' t™nð4@ð " %™ð4@ð ˜D‘>ð4@ð   §¡Ñ-÷4@r%   r¡   c                   óV   ‡ — e Zd Zˆ fd„Zdej
                  dej
                  fd„Zˆ xZS )ÚCpmAntIntermediatec                 ó  •— t         ‰|   «        t        j                  |j                  |j
                  «      | _        t        |j                  t        «      rt        |j                     | _        y |j                  | _        y r   )r   r   r   rK   r   Úintermediate_sizeÚdenseÚ
isinstanceÚ
hidden_actÚstrr   Úintermediate_act_fnr!   s     €r$   r   zCpmAntIntermediate.__init__“  s]   ø€ Ü‰ÑÔÜ—Y‘Y˜v×1Ñ1°6×3KÑ3KÓLˆŒ
Üf×'Ñ'¬Ô-Ü'-¨f×.?Ñ.?Ñ'@ˆDÕ$à'-×'8Ñ'8ˆDÕ$r%   r&   Úreturnc                 óJ   — | j                  |«      }| j                  |«      }|S r   )r·   r»   r“   s     r$   r7   zCpmAntIntermediate.forward›  s&   € ØŸ
™
 =Ó1ˆØ×0Ñ0°Ó?ˆØÐr%   ©r8   r9   r:   r   r   r<   r7   r=   r>   s   @r$   r´   r´   ’  s#   ø„ ô9ð U§\¡\ð °e·l±l÷ r%   r´   c                   óš   ‡ — e Zd Zdefˆ fd„Zdej                  dej                  dej                  dej                  fd„Zd„ Zd
d	„Z	ˆ xZ
S )ÚCpmAntSegmentPositionEmbeddingr   c                 ób  •— t         ‰|   «        |j                  | _        |j                  | _        |j                  | _        |j                  | _	        t        j                  t        j                  |j                  |j                  z  |j                  z   |j                  «      «      | _        y r   )r   r   rG   rH   Úposition_bias_num_bucketsÚnum_bucketsÚposition_bias_max_distanceÚmax_distanceÚsegment_typesÚnum_segmentsr   r   r   r   Úrelative_attention_biasr!   s     €r$   r   z'CpmAntSegmentPositionEmbedding.__init__¢  sŠ   ø€ Ü‰ÑÔà×3Ñ3ˆŒØ!×;Ñ;ˆÔØ"×=Ñ=ˆÔØ"×0Ñ0ˆÔä')§|¡|ÜK‰KØ×$Ñ$ v×';Ñ';Ñ;¸f×>^Ñ>^Ñ^Ø×*Ñ*óó(
ˆÕ$r%   Úkey_posÚ	query_posÚkey_segmentÚquery_segmentc           	      ó0  — t        j                  «       5  |j                  d«      }|j                  d«      }|j                  d«      }|j                  d«      |j                  d«      k7  r0t        d|j                  d«      › d|j                  d«      › d«      ‚||j                  d«      k7  s||j                  d«      k7  r!t        d|› d|j                  d«      › d«      ‚||j                  d«      k7  r!t        d|› d|j                  d«      › d«      ‚|j	                  |d|«      }|j	                  ||d«      }|j	                  |d|«      }|j	                  ||d«      }| j                  ||«      }|| j                  z   }| j                  t        j                  |t         j                  |j                  ¬	«      d d d …f   t        j                  |t         j                  |j                  ¬	«      d d …d f   z
  | j                  | j                  ¬
«      }	t        j                  ||k(  |	d d d …d d …f   |«      }d d d «       t        j                  | j                  «      }
|
j!                  dddd«      j#                  «       }
|
S # 1 sw Y   ŒMxY w)Nr   r   z>key_pos.size(0) should be equal to query_pos.size(0), but got z and ú!z7keylen should be equal to key_segment.size(1), but got z;querylen should be equal to query_segment.size(1), but got r)   ©r/   r`   )rÃ   rÅ   r   r*   )r   Úno_gradr-   r.   ra   Ú!_segment_relative_position_bucketrÃ   Ú_position_bucketÚarangeÚint32r`   rÅ   ÚwhereÚFÚ	embeddingrÈ   rb   rl   )r"   rÉ   rÊ   rË   rÌ   ÚbatchÚkeylenÚquerylenÚrelative_position_bucketÚabsolute_position_bucketÚembedss              r$   r7   z&CpmAntSegmentPositionEmbedding.forward±  s•  € ô ]‰]‹_ñ %	Ø—L‘L “OˆEØ—\‘\ !“_ˆFØ —~‘~ aÓ(ˆHà|‰|˜A‹ )§.¡.°Ó"3Ò3Ü$ØTÐU\×UaÑUaÐbcÓUdÐTeÐejÐkt×kyÑkyÐz{Ók|Ðj}Ð}~Ðóð ð ˜×)Ñ)¨!Ó,Ò,°¸M×<NÑ<NÈqÓ<QÒ0QÜ$ØMÈfÈXÐUZÐ[f×[kÑ[kÐlmÓ[nÐZoÐopÐqóð ð ˜=×-Ñ-¨aÓ0Ò0Ü$ØQÐRZÐQ[Ð[`Ðan×asÑasÐtuÓavÐ`wÐwxÐyóð ð —l‘l 5¨"¨fÓ5ˆGØ!Ÿ™ u¨h¸Ó;ˆIØ%×*Ñ*¨5°"°fÓ=ˆKØ)×.Ñ.¨u°hÀÓCˆMà'+×'MÑ'MÈmÐ]hÓ'iÐ$Ø'?À$×BRÑBRÑ'RÐ$ð (,×'<Ñ'<Ü—‘˜V¬5¯;©;Ð?W×?^Ñ?^Ô_Ð`dÒfgÐ`gÑhÜ—,‘,˜x¬u¯{©{ÐC[×CbÑCbÔcÒdeÐgkÐdkÑlñmà ×,Ñ,Ø!×.Ñ.ð	 (=ó (Ð$ô (-§{¡{Ø Ñ-Ø(¨ªq²!¨Ñ4Ø(ó(Ð$÷C%	ôP —‘Ð5°t×7SÑ7SÓTˆà—‘  1 a¨Ó+×6Ñ6Ó8ˆØˆ÷W%	ð %	ús   •H+JÊJc                 ó&   — || j                   z  |z   S r   )rÇ   )r"   rÌ   rË   s      r$   rÑ   z@CpmAntSegmentPositionEmbedding._segment_relative_position_bucketå  s   € Ø˜t×0Ñ0Ñ0°;Ñ>Ð>r%   c                 ó.  — d}|dz  }|dkD  j                  t        j                  «      |z  }t        j                  |«      }|dz  }||k  }|t        j                  |j                  «       |z  «      t        j                  ||z  «      z  ||z
  z  j                  t        j                  «      z   }t        j                  |t        j                  ||dz
  «      «      }|t        j                  ||j                  t        j                  «      |«      z  }|S )Nr   r*   r   )
r0   r   rÔ   ÚabsÚlogrk   rf   ÚminÚ	full_likerÕ   )r"   Úrelative_positionrÃ   rÅ   Úrelative_bucketsÚ	max_exactÚis_smallÚrelative_postion_if_larges           r$   rÒ   z/CpmAntSegmentPositionEmbedding._position_bucketè  s  € ØÐà˜ÑˆØ-°Ñ1×5Ñ5´e·k±kÓBÀ[ÑPÐÜ!ŸI™IÐ&7Ó8ÐØ 1Ñ$ˆ	Ø$ yÑ0ˆØ$-ÜI‰IÐ'×-Ñ-Ó/°)Ñ;Ó<Üh‰h| iÑ/Ó0ñ1à˜YÑ&ñ(÷ ‰"ŒU[‰[‹/ñ	%Ð!ô
 %*§I¡IØ%ÜO‰OÐ5°{ÀQ±ÓGó%
Ð!ð 	œEŸK™K¨Ð2C×2FÑ2FÄuÇ{Á{Ó2SÐUnÓoÑoÐØÐr%   )é    é€   )r8   r9   r:   r   r   r   r<   r7   rÑ   rÒ   r=   r>   s   @r$   rÀ   rÀ   ¡  sU   ø„ ð
˜|õ 
ð2à—‘ð2ð —<‘<ð2ð —\‘\ð	2ð
 —|‘|ó2òh?÷ r%   rÀ   c                   ón   ‡ — e Zd Zˆ fd„Zdej
                  dej
                  dej
                  fd„Zˆ xZS )ÚCpmAntOutputc                 ó(  •— t         ‰|   «        t        j                  |j                  |j
                  «      | _        t        j                  |j
                  |j                  ¬«      | _        t        j                  |j                  «      | _        y )N)r   )r   r   r   rK   r¶   r   r·   Ú	LayerNormÚlayer_norm_epsrS   Úhidden_dropout_probrT   r!   s     €r$   r   zCpmAntOutput.__init__ÿ  s`   ø€ Ü‰ÑÔÜ—Y‘Y˜v×7Ñ7¸×9KÑ9KÓLˆŒ
ÜŸ™ f×&8Ñ&8¸f×>SÑ>SÔTˆŒÜ—z‘z &×"<Ñ"<Ó=ˆr%   r&   Úinput_tensorr¼   c                 ór   — | j                  |«      }| j                  |«      }| j                  ||z   «      }|S r   )r·   rT   rî   )r"   r&   rñ   s      r$   r7   zCpmAntOutput.forward  s7   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆØŸ™ }°|Ñ'CÓDˆØÐr%   r¾   r>   s   @r$   rì   rì   þ  s1   ø„ ô>ð U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ r%   rì   c                   ó"   — e Zd ZU eed<   dZd„ Zy)ÚCpmAntPreTrainedModelr   Úcpmantc                 ó  — t        |t        j                  «      rm|j                  j                  j                  d| j                  j                  ¬«       |j                  %|j                  j                  j                  «        yyt        |t        j                  «      rz|j                  j                  j                  d| j                  j                  ¬«       |j                  2|j                  j                  |j                     j                  «        yyt        |t        j                  «      rJ|j                  j                  j                  «        |j                  j                  j                  d«       yt        |t        «      r&|j                  j                  j                  d«       yt        |t        «      r<|j                   j                  j                  d| j                  j                  ¬«       yy)zInitialize the weightsg        )r3   ÚstdNg      ð?)r¸   r   rK   r    ÚdataÚnormal_r   Úinit_stdrC   Úzero_Ú	EmbeddingÚpadding_idxrî   Úfill_r   rÀ   rÈ   )r"   Úmodules     r$   Ú_init_weightsz#CpmAntPreTrainedModel._init_weights  s[  € äfœbŸi™iÔ(ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÔJØ{‰{Ð&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡Ô-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5IÑ5IÐ&ÔJØ×!Ñ!Ð-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡Ô-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤Ô0ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô >Ô?Ø×*Ñ*×/Ñ/×7Ñ7¸SÀdÇkÁk×FZÑFZÐ7Õ[ð @r%   N)r8   r9   r:   r   Ú__annotations__Úbase_model_prefixr   r­   r%   r$   rô   rô     s   … àÓØ Ðó\r%   rô   c                   ó  ‡ — e Zd Zdefˆ fd„Zd„ Zd„ Zd„ Ze	 	 	 	 	 	 	 dde	e
j                     de	e   de	e   d	e	eee
j                           d
e	e   de	e   de	e
j                     deee
j                     ef   fd„«       Zˆ xZS )ÚCpmAntModelr   c                 ó¸  •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  «      | _        t	        j
                  |j                  |j                  |j                  z  z   |j                  «      | _        t        |«      | _        |j                  | _        |j                  | _	        | j                  «        y r   )r   r   r¡   Úencoderr   rü   rÆ   r   Úsegment_embeddingÚ
vocab_sizeÚprompt_typesÚprompt_lengthÚinput_embeddingrÀ   rY   Ú	post_initr!   s     €r$   r   zCpmAntModel.__init__&  s§   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆŒÜ!#§¡¨f×.BÑ.BÀF×DVÑDVÓ!WˆÔÜ!Ÿ|™|Ø×Ñ × 3Ñ 3°f×6JÑ6JÑ JÑJÈF×L^ÑL^ó 
ˆÔô <¸FÓCˆÔØ#×1Ñ1ˆÔØ ×+Ñ+ˆŒà‰Õr%   c                 ó   — | j                   S r   ©r  ©r"   s    r$   Úget_input_embeddingsz CpmAntModel.get_input_embeddings3  s   € Ø×#Ñ#Ð#r%   c                 ó   — || _         y r   r  )r"   Ú
embeddingsÚkwargss      r$   Úset_input_embeddingsz CpmAntModel.set_input_embeddings6  s
   € Ø)ˆÕr%   c                 ó*  — |j                  d«      }|j                  d«      }|j                  }t        j                  ||¬«      t        j                  ||¬«      j	                  dd«      k  }|d d …d d d …f   |d d …d d …d f   j                  «       |j	                  d||«      z  z  }	|	|d d …d d d …f   |d d …d d …d f   k(  z  }	t        j                  t        t        || j                  z
  «      «      d d d…   |¬«      d d d …f   j                  |d«      |d d …d f   k  }
t        j                  t        j                  || j                  |¬«      j                  «       |
fd¬«      }
|
j	                  ||d«      |
j	                  |d|«      z  |	z  }	|	S )Nr   r   )r`   r)   rD   )r-   r`   r   rÓ   ra   Úlogical_notri   Úlistr¦   r
  ÚrepeatÚcatÚonesrv   )r"   Ú	input_idsÚspanÚcontextÚlengthrØ   Úseqlenr`   Údirectional_mask_2drX   Úmask_1ds              r$   Ú_prepare_attention_maskz#CpmAntModel._prepare_attention_mask9  s‰  € Ø—‘˜qÓ!ˆØ—‘ Ó"ˆØ×!Ñ!ˆÜ#Ÿl™l¨6¸&ÔAÄUÇ\Á\ÐRXÐagÔEh×EmÑEmÐnpÐrsÓEtÑtÐØ ¢ Dª! Ñ,Ø’A’q˜$JÑ×+Ñ+Ó-Ð0C×0HÑ0HÈÈFÐTZÓ0[Ñ[ñ
ˆð (¨4²°4º°
Ñ+;¸tÂAÂqÈ$ÀJÑ?OÑ+OÑPˆô L‰Lœœe F¨T×-?Ñ-?Ñ$?Ó@ÓAÁ$ÀBÀ$ÑGÐPVÔWÐX\Ò^_ÐX_Ñ`×gÑgÐhmÐopÓqØ’Q˜W‰oñð 	ô —)‘)œUŸZ™Z¨¨t×/AÑ/AÈ&ÔQ×VÑVÓXÐZaÐbÐhiÔjˆØ Ÿ™ e¨V°QÓ7¸'¿,¹,ÀuÈaÐQWÓ:XÑXÐ[iÑiˆØÐr%   r  rZ   rª   r[   r\   Úreturn_dictr]   r¼   c           
      óþ  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }|j
                  t        j                  k7  r|j                  t        j                  «      }|j
                  |j                  }
}	t        j                  |dk7  dd«      j                  |	|
¬«      }|dk7  j                  d«      j                  |	|
¬«      }t        j                  t        j                  | j                  dz  | j                  z   | j                  dz  | j                  z   |	|
¬«      j!                  |j#                  d«      d«      |fd¬«      }|j#                  «       \  }}t        j                  t        j$                  || j                  |	|
¬«      |fd¬«      }t        j&                  ||fd|	|
¬«      }t        j                  ||	|
¬«      j!                  |d«      }t        j&                  ||fd|	|
¬«      }d	}|r<t)        |t*        «      s,t,        j/                  d
«       d}t1        j2                  |«      }||j5                  «       nd}|j7                  «       }| j9                  |«      }| j;                  |«      }|dk7  r|dd…dd…dd…f   }||z   }| j=                  ||||«      }| j?                  ||||«      }|dd…|d…dd…f   }|dd…dd…|d…dd…f   }|dd…|d…dd…f   }| jA                  ||||||||«      \  }}}|dk(  rw|dd…| j                  d…dd…f   }|4d}|D ]+  }||dd…dd…| j                  d…| j                  d…f   fz  }Œ- |}|'d}|D ]  }||dd…| j                  d…dd…f   fz  }Œ  |}|r|jC                  «       }|stE        d„ ||||fD «       «      S tG        ||||¬«      S )ai  
        input_ids (`torch.Tensor` of shape `(batch_size, seq_len)`):
            Indices of input sequence tokens in the vocabulary.

            Indices can be obtained using [`CPMAntTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        Nr   r*   rÏ   r)   r   r   rD   FzÞPassing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `DynamicCache` instead, e.g. `past_key_values=DynamicCache.from_legacy_cache(past_key_values)`.Tr­   c              3   ó&   K  — | ]	  }|€Œ|–— Œ y ­wr   r­   )Ú.0Úvs     r$   ú	<genexpr>z&CpmAntModel.forward.<locals>.<genexpr>¶  s   è ø€ ò ØÐbcÑbo”ñùs   ‚Š)Úlast_hidden_stater[   r&   Ú
attentions)$r   rZ   rª   Úuse_return_dictr\   r/   r   rÔ   r0   r`   rÕ   Úsumr  rÓ   r
  r  r  r-   ÚzerosÚfullr¸   r	   ÚloggerÚwarning_oncer
   Úfrom_legacy_cacheÚget_seq_lengthrl   r  r  r"  rY   r  Úto_legacy_cacheÚtupler   )r"   r  rZ   rª   r[   r\   r#  r]   r  r/   r`   Úsegmentr  rØ   Ú
seq_lengthr  Úpositionr  Úreturn_legacy_cacheÚpast_lengthr&   Úsegment_statesrX   rY   r¯   Úall_attentionsÚnew_attentionsÚ	attentionÚnew_hidden_statesÚhidden_states                                 r$   r7   zCpmAntModel.forwardK  s5  € ð* 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆØ!*Ð!6‘I¸D¿K¹K×<QÑ<Qˆ	ð ?‰?œeŸk™kÒ)Ø!Ÿ™¤U§[¡[Ó1ˆIØ!Ÿ™¨×)9Ñ)9ˆvˆÜ—+‘+˜i¨1™n¨a°Ó3×6Ñ6¸UÈ6Ð6ÓRˆØ˜Q‘,×#Ñ# BÓ'×*Ñ*°¸vÐ*ÓFˆÜ—I‘Iä—‘Ø×&Ñ&¨Ñ*¨T¯_©_Ñ<Ø×&Ñ&¨Ñ*¨T¯_©_Ñ<ØØ!ô	÷
 ‘&˜Ÿ™¨Ó*¨AÓ.Øðð ô
ˆ	ð &ŸN™NÓ,ÑˆˆzÜ—)‘)œUŸ[™[¨°×0BÑ0BÈ%ÐX^Ô_ÐahÐiÐopÔqˆÜ—*‘*˜e ZÐ0°!¸5ÈÔPˆÜ—<‘< 
°%ÀÔG×NÑNÈuÐVWÓXˆÜz‰z˜5 *Ð-¨q¸ÀfÔMˆà#ÐÙœZ¨¼Ô?Ü×ÑðUôð
 #'ÐÜ*×<Ñ<¸_ÓMˆOà:IÐ:Uo×4Ñ4Ô6Ð[\ˆØ×(Ñ(Ó*ˆ	Ø×,Ñ,¨YÓ7ˆØ×/Ñ/°Ó8ˆØ˜!ÒØ+ªA¨r©s²A¨IÑ6ˆNà%¨Ñ6ˆà×5Ñ5°iÀÀwÐPVÓWˆØ×*Ñ*¨8°X¸wÈÓPˆà'ª¨;©<ºÐ(:Ñ;ˆØ%¢aª¨K©Lº!Ð&;Ñ<ˆØ%¢a¨©²qÐ&8Ñ9ˆà;?¿<¹<ØØØØØ ØØØó	<
Ñ8ˆÐ(¨.ð ˜!ÒØ)ª!¨T×-?Ñ-?Ñ-AÂ1Ð*DÑEˆMàÐ)Ø!#Ø!/ò eIØ" y²²A°t×7IÑ7IÑ7KÈT×M_ÑM_ÑMaÐ1aÑ'bÐ&dÑd‘Nðeà!/Ø Ð,Ø$&Ð!Ø$5ò ULØ%¨,²q¸$×:LÑ:LÑ:NÒPQÐ7QÑ*RÐ)TÑTÑ%ðUà$5Ð!áØ-×=Ñ=Ó?ˆOáÜñ Ø)¨?Ð<MÈ~Ð^ôó ð ô 'Ø+Ø+Ø+Ø%ô	
ð 	
r%   )NNNNNNN)r8   r9   r:   r   r   r  r  r"  r   r   r   r<   rv   r4  r   r   r7   r=   r>   s   @r$   r  r  $  sê   ø„ ð˜|õ ò$ò*òð$ ð -1Ø,0Ø/3Ø@DØ$(Ø&*Ø15ñs
à˜EŸL™LÑ)ðs
ð $ D™>ðs
ð ' t™nð	s
ð
 " %¨¨e¯l©lÑ(;Ñ"<Ñ=ðs
ð ˜D‘>ðs
ð ˜d‘^ðs
ð ! §¡Ñ.ðs
ð 
ˆuU—\‘\Ñ"Ð$;Ð;Ñ	<òs
ó ôs
r%   r  zy
    The CPMAnt Model with a language modeling head on top (linear layer with weights tied to the input embeddings).
    )Úcustom_introc                   óR  ‡ — e Zd ZdgZdefˆ fd„Ze	 	 	 	 	 	 	 	 	 ddeej                     dee
eej                  ej                  f         dee   dee   dee   d	eej                     d
ee   deej                     deej                     deeef   fd„«       Zd„ Zd„ Zd„ Zˆ xZS )ÚCpmAntForCausalLMzlm_head.weightr   c                 óú   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  |j                  |j                  z  z   d¬«      | _
        | j                  «        y r„   )r   r   r  rõ   r   rK   r   r  r	  r
  Úlm_headr  r!   s     €r$   r   zCpmAntForCausalLM.__init__Ê  sd   ø€ Ü‰Ñ˜Ô Ü! &Ó)ˆŒô —y‘yØ×Ñ × 1Ñ 1°F×4GÑ4GÈ&×J^ÑJ^Ñ4^Ñ ^Ðejô
ˆŒð 	‰Õr%   r  r[   r\   rZ   rª   Úlabelsr#  rX   r]   r¼   c
           	      ó¼  — ||n| j                   j                  }| j                  |||||||	«      }|r|j                  n|d   }| j	                  |«      }d}|At        «       } ||j                  d|j                  d«      «      |j                  d«      «      }|s|f|dd z   }||f|z   S |S t        |||j                  |j                  |j                  ¬«      S )u<  
        input_ids (`torch.Tensor` of shape `(batch_size, seq_len)`):
            Indices of input sequence tokens in the vocabulary.

            Indices can be obtained using [`CPMAntTokenizer`]. See [`PreTrainedTokenizer.encode`] and
            [`PreTrainedTokenizer.__call__`] for details.

            [What are input IDs?](../glossary#input-ids)
        labels (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss.

        Example:

        Text Generation with CpmAntForCausalLM.
        ```python
        >>> from transformers import CPMAntTokenizer, CpmAntForCausalLM

        >>> texts = "ä»Šå¤©å¤©æ°”ä¸é”™ï¼Œ"
        >>> model = CpmAntForCausalLM.from_pretrained("openbmb/cpm-ant-10b")
        >>> tokenizer = CPMAntTokenizer.from_pretrained("openbmb/cpm-ant-10b")
        >>> input_ids = tokenizer(texts, return_tensors="pt")
        >>> outputs = model.generate(**input_ids)
        >>> output_texts = tokenizer.batch_decode(outputs)
        >>> print(output_texts)
        ['ä»Šå¤©å¤©æ°”ä¸é”™ï¼Œé˜³å…‰æ˜Žåªšï¼Œæˆ‘å’Œå¦ˆå¦ˆä¸€èµ·åŽ»è¶…å¸‚ä¹°ä¸œè¥¿ã€‚\nåœ¨è¶…å¸‚é‡Œï¼Œæˆ‘çœ‹åˆ°äº†ä¸€ä¸ªå¾ˆå¥½çŽ©çš„çŽ©å…·ï¼Œå®ƒçš„åå­—å«â€œæœºå™¨äººâ€ã€‚å®ƒæœ‰ä¸€ä¸ªåœ†åœ†çš„è„‘è¢‹ï¼Œä¸¤åªåœ†åœ†çš„çœ¼ç›ï¼Œè¿˜æœ‰ä¸€ä¸ªåœ†åœ†çš„']
        ```
        Nr   r)   r   )ÚlossÚlogitsr[   r&   r*  )r   r+  rõ   r)  rD  r   ra   r-   r   r[   r&   r*  )r"   r  r[   r\   rZ   rª   rE  r#  rX   r]   r  Úmodel_outputr&   rH  rG  Ú	loss_funcÚoutputs                    r$   r7   zCpmAntForCausalLM.forwardÔ  sø   € ðR &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà—{‘{ØØØ ØØØØó
ˆñ ;F˜×6Ò6È<ÐXYÉ?ˆà—‘˜mÓ,ˆàˆØÐÜ(Ó*ˆIÙ˜VŸ[™[¨¨V¯[©[¸«_Ó=¸v¿{¹{È2»ÓOˆDáØY ¨a¨bÐ!1Ñ1ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä%ØØØ(×8Ñ8Ø&×4Ñ4Ø#×.Ñ.ô
ð 	
r%   c                 ó.   — | j                   j                  S r   ©rõ   r  r  s    r$   r  z&CpmAntForCausalLM.get_input_embeddings  s   € Ø{‰{×*Ñ*Ð*r%   c                 ó&   — || j                   _        y r   rM  )r"   r  s     r$   r  z&CpmAntForCausalLM.set_input_embeddings   s   € Ø&0ˆ‰Õ#r%   c                 ó‚   — |D cg c]  }|t        |«      n|‘Œ }}|D ]  }|d   |   |d<   |d   |   |d<   Œ |S c c}w )Nr   r   )r  )r"   r[   Úbeam_idxÚeachÚkey_value_layers        r$   Ú_reorder_cachez CpmAntForCausalLM._reorder_cache#  sh   € ØP_Ö`È¨Ð)9œ4 œ:¸tÑCÐ`ˆÐ`Ø.ò 	>ˆOØ!0°Ñ!3°HÑ!=ˆO˜AÑØ!0°Ñ!3°HÑ!=ˆO˜AÒð	>ð Ðùò	 as   …<)	NNNNNNNNN)r8   r9   r:   Ú_tied_weights_keysr   r   r   r   r   r<   r  r4  rv   r   r   r7   r  r  rS  r=   r>   s   @r$   rB  rB  Â  s$  ø„ ð +Ð+Ðð˜|õ ð ð -1ØMQØ$(Ø,0Ø/3Ø)-Ø&*Ø15Ø15ñF
à˜EŸL™LÑ)ðF
ð " $ u¨U¯\©\¸5¿<¹<Ð-GÑ'HÑ"IÑJðF
ð ˜D‘>ð	F
ð
 $ D™>ðF
ð ' t™nðF
ð ˜Ÿ™Ñ&ðF
ð ˜d‘^ðF
ð ! §¡Ñ.ðF
ð ! §¡Ñ.ðF
ð 
ˆuÐ,Ð,Ñ	-òF
ó ðF
òP+ò1ör%   rB  )rB  r  rô   )1r;   rf   Útypingr   r   r   Útorch.nn.functionalr   Ú
functionalrÖ   Útorch.utils.checkpointÚtorch.nnr   Úactivationsr   Úcache_utilsr	   r
   Ú
generationr   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_cpmantr   Ú
get_loggerr8   r/  ÚModuler   r@   rx   r‚   rŽ   r•   rœ   r¡   r´   rÀ   rì   rô   r  rB  Ú__all__r­   r%   r$   ú<module>rd     sx  ðñ ã ß "ã ß Ð Û Ý Ý %å !ß .Ý )ß OÝ -ß ,Ý .ð 
ˆ×	Ñ	˜HÓ	%€ôb—i‘iô ô2b#b—i‘iô b#ôJ4+˜rŸy™yô 4+ôn˜"Ÿ)™)ô ô(˜Ÿ	™	ô ô4R—Y‘Yô ô6++˜RŸY™Yô ++ô\<@B—I‘Iô <@ô@˜Ÿ™ô ôY  R§Y¡Yô Y ôz2—9‘9ô ð ô\˜Oó \ó ð\ð. ôZ
Ð'ó Z
ó ðZ
ñz ðôô
aÐ-¨ó aóð
aòH Hr%   