Ë
    ¹rœhÁ©  ã                  ó  — d Z ddlmZ ddlZddlmZ ddlZddl	m
Z
 ddlmZmZmZmZmZmZmZ ddlmZmZ dd	lmZmZmZmZmZ d
dlmZ  ej<                  e«      Z dZ!e G d„ de«      «       Z" G d„ dejF                  jH                  «      Z% G d„ dejF                  jH                  «      Z& G d„ dejF                  jH                  «      Z' G d„ dejF                  jH                  «      Z( G d„ dejF                  jH                  «      Z) G d„ dejF                  jH                  «      Z* G d„ dejF                  jH                  «      Z+ G d„ dejF                  jH                  «      Z, G d„ d ejF                  jH                  «      Z- G d!„ d"ejF                  jH                  «      Z. G d#„ d$ejF                  jH                  «      Z/ G d%„ d&ejF                  jH                  «      Z0 G d'„ d(ejF                  jH                  «      Z1 G d)„ d*ejF                  jH                  «      Z2e G d+„ d,ejF                  jH                  «      «       Z3 G d-„ d.e«      Z4d/Z5d0Z6 ed1e5«       G d2„ d3e4«      «       Z7 ed4e5«       G d5„ d6e4e«      «       Z8g d7¢Z9y)8zTF 2.0 Cvt model.é    )ÚannotationsN)Ú	dataclassé   )Ú&TFImageClassifierOutputWithNoAttention)ÚTFModelInputTypeÚTFPreTrainedModelÚTFSequenceClassificationLossÚget_initializerÚkerasÚkeras_serializableÚunpack_inputs)Ú
shape_listÚstable_softmax)ÚModelOutputÚadd_start_docstringsÚ%add_start_docstrings_to_model_forwardÚloggingÚreplace_return_docstringsé   )Ú	CvtConfigr   c                  ó<   — e Zd ZU dZdZded<   dZded<   dZded<   y)ÚTFBaseModelOutputWithCLSTokena2  
    Base class for model's outputs.

    Args:
        last_hidden_state (`tf.Tensor` of shape `(batch_size, sequence_length, hidden_size)`):
            Sequence of hidden-states at the output of the last layer of the model.
        cls_token_value (`tf.Tensor` of shape `(batch_size, 1, hidden_size)`):
            Classification token at the output of the last layer of the model.
        hidden_states (`tuple(tf.Tensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
            Tuple of `tf.Tensor` (one for the output of the embeddings + one for the output of each layer) of shape
            `(batch_size, sequence_length, hidden_size)`. Hidden-states of the model at the output of each layer plus
            the initial embedding outputs.
    Nútf.Tensor | NoneÚlast_hidden_stateÚcls_token_valueztuple[tf.Tensor, ...] | NoneÚhidden_states)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Ú__annotations__r   r   © ó    úz/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/transformers/models/cvt/modeling_tf_cvt.pyr   r   3   s+   … ñð +/ÐÐ'Ó.Ø(,€OÐ%Ó,Ø26€MÐ/Ô6r#   r   c                  ó.   ‡ — e Zd ZdZdˆ fd„Zddd„Zˆ xZS )ÚTFCvtDropPathz£Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).
    References:
        (1) github.com:rwightman/pytorch-image-models
    c                ó2   •— t        ‰|   di |¤Ž || _        y )Nr"   )ÚsuperÚ__init__Ú	drop_prob)Úselfr*   ÚkwargsÚ	__class__s      €r$   r)   zTFCvtDropPath.__init__N   s   ø€ Ü‰ÑÑ"˜6Ò"Ø"ˆr#   c                ó\  — | j                   dk(  s|s|S d| j                   z
  }t        j                  |«      d   fdt        t        j                  |«      «      dz
  z  z   }|t        j                  j                  |dd| j                  ¬«      z   }t        j                  |«      }||z  |z  S )Nç        r   r   )r   )Údtype)r*   ÚtfÚshapeÚlenÚrandomÚuniformÚcompute_dtypeÚfloor)r+   ÚxÚtrainingÚ	keep_probr2   Úrandom_tensors         r$   ÚcallzTFCvtDropPath.callR   s˜   € Ø>‰>˜SÒ ©ØˆHØ˜Ÿ™Ñ&ˆ	Ü—‘˜!“˜Q‘Ð! D¬C´·±¸³Ó,<¸qÑ,@Ñ$AÑAˆØ!¤B§I¡I×$5Ñ$5°e¸QÀÈ×I[ÑI[Ð$5Ó$\Ñ\ˆÜŸ™ Ó/ˆØI‘ Ñ.Ð.r#   )r*   Úfloat©N)r8   ú	tf.Tensor)r   r   r   r    r)   r<   Ú__classcell__©r-   s   @r$   r&   r&   H   s   ø„ ñõ
#÷/ð /r#   r&   c                  óR   ‡ — e Zd ZdZ	 	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zddd„Zdd„Zˆ xZS )	ÚTFCvtEmbeddingsz-Construct the Convolutional Token Embeddings.c           	     óš   •— t        ‰	|   di |¤Ž t        ||||||d¬«      | _        t        j
                  j                  |«      | _        y )NÚconvolution_embeddings)Ú
patch_sizeÚnum_channelsÚ	embed_dimÚstrideÚpaddingÚnamer"   )r(   r)   ÚTFCvtConvEmbeddingsrE   r   ÚlayersÚDropoutÚdropout)
r+   ÚconfigrF   rG   rH   rI   rJ   Údropout_rater,   r-   s
            €r$   r)   zTFCvtEmbeddings.__init___   sO   ø€ ô 	‰ÑÑ"˜6Ò"Ü&9ØØ!Ø%ØØØØ)ô'
ˆÔ#ô —|‘|×+Ñ+¨LÓ9ˆr#   c                óN   — | j                  |«      }| j                  ||¬«      }|S ©N©r9   )rE   rO   )r+   Úpixel_valuesr9   Úhidden_states       r$   r<   zTFCvtEmbeddings.callv   s*   € Ø×2Ñ2°<Ó@ˆØ—|‘| L¸8|ÓDˆØÐr#   c                óú   — | j                   ry d| _         t        | dd «      Nt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       y y # 1 sw Y   y xY w)NTrE   )ÚbuiltÚgetattrr1   Ú
name_scoperE   rK   Úbuild©r+   Úinput_shapes     r$   r[   zTFCvtEmbeddings.build{   óo   € Ø:Š:ØØˆŒ
Ü4Ð1°4Ó8ÐDÜ—‘˜t×:Ñ:×?Ñ?Ó@ñ 8Ø×+Ñ+×1Ñ1°$Ô7÷8ð 8ð E÷8ð 8úó   ÁA1Á1A:)rP   r   rF   ÚintrG   r`   rH   r`   rI   r`   rJ   r`   rQ   r=   ©F)rU   r?   r9   ÚboolÚreturnr?   r>   ©r   r   r   r    r)   r<   r[   r@   rA   s   @r$   rC   rC   \   sY   ø„ Ù7ð:àð:ð ð:ð ð	:ð
 ð:ð ð:ð ð:ð õ:ô.÷
8r#   rC   c                  óL   ‡ — e Zd ZdZ	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zdd„Zdd„Zˆ xZS )rL   zcImage to Convolution Embeddings. This convolutional operation aims to model local spatial contexts.c           
     ó°  •— t        ‰|   d	i |¤Ž t        j                  j	                  |¬«      | _        t        |t        j                  j                  «      r|n||f| _
        t        j                  j                  |||ddt        |j                  «      d¬«      | _        t        j                  j                  dd¬«      | _        || _        || _        y )
N©rJ   ÚvalidÚchannels_lastÚ
projection)ÚfiltersÚkernel_sizeÚstridesrJ   Údata_formatÚkernel_initializerrK   çñhãˆµøä>Únormalization©ÚepsilonrK   r"   )r(   r)   r   rM   ÚZeroPadding2DrJ   Ú
isinstanceÚcollectionsÚabcÚIterablerF   ÚConv2Dr
   Úinitializer_rangerj   ÚLayerNormalizationrq   rG   rH   )	r+   rP   rF   rG   rH   rI   rJ   r,   r-   s	           €r$   r)   zTFCvtConvEmbeddings.__init__‡   sº   ø€ ô 	‰ÑÑ"˜6Ò"Ü—|‘|×1Ñ1¸'Ð1ÓBˆŒÜ(2°:¼{¿¹×?WÑ?WÔ(X™*Ð_iÐkuÐ^vˆŒÜŸ,™,×-Ñ-ØØ"ØØØ'Ü.¨v×/GÑ/GÓHØð .ó 
ˆŒô #Ÿ\™\×<Ñ<ÀTÐP_Ð<Ó`ˆÔØ(ˆÔØ"ˆr#   c                ó&  — t        |t        «      r|d   }| j                  | j                  |«      «      }t	        |«      \  }}}}||z  }t        j                  ||||f¬«      }| j                  |«      }t        j                  |||||f¬«      }|S )NrU   ©r2   )ru   Údictrj   rJ   r   r1   Úreshaperq   )r+   rU   Ú
batch_sizeÚheightÚwidthrG   Úhidden_sizes          r$   r<   zTFCvtConvEmbeddings.call¢   s•   € Ül¤DÔ)Ø'¨Ñ7ˆLà—‘ t§|¡|°LÓ'AÓBˆô 3=¸\Ó2JÑ/ˆ
F˜E <Ø˜u‘nˆÜ—z‘z ,°zÀ;ÐP\Ð6]Ô^ˆØ×)Ñ)¨,Ó7ˆô —z‘z ,°zÀ6È5ÐR^Ð6_Ô`ˆØÐr#   c                óü  — | j                   ry d| _         t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d d | j                  g«       d d d «       t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       y y # 1 sw Y   ŒrxY w# 1 sw Y   y xY w)NTrj   rq   )
rX   rY   r1   rZ   rj   rK   r[   rG   rq   rH   r\   s     r$   r[   zTFCvtConvEmbeddings.build²   sÜ   € Ø:Š:ØØˆŒ
Ü4˜ tÓ,Ð8Ü—‘˜tŸ™×3Ñ3Ó4ñ MØ—‘×%Ñ% t¨T°4¸×9JÑ9JÐ&KÔL÷Mä4˜¨$Ó/Ð;Ü—‘˜t×1Ñ1×6Ñ6Ó7ñ GØ×"Ñ"×(Ñ(¨$°°d·n±nÐ)EÔF÷Gð Gð <÷Mð Mú÷Gð Gús   Á*C&Â3)C2Ã&C/Ã2C;)rP   r   rF   r`   rG   r`   rH   r`   rI   r`   rJ   r`   )rU   r?   rc   r?   r>   rd   rA   s   @r$   rL   rL   „   sP   ø„ Ùmð#àð#ð ð#ð ð	#ð
 ð#ð ð#ð õ#ó6÷ 	Gr#   rL   c                  ó6   ‡ — e Zd ZdZdˆ fd„Zddd„Zdd„Zˆ xZS )	Ú TFCvtSelfAttentionConvProjectionzConvolutional projection layer.c           
     óH  •— t        ‰|   d
i |¤Ž t        j                  j	                  |¬«      | _        t        j                  j                  ||t        |j                  «      d|dd|¬«      | _	        t        j                  j                  ddd¬	«      | _        || _        y )Nrg   rh   FÚconvolution)rk   rl   ro   rJ   rm   Úuse_biasrK   Úgroupsrp   gÍÌÌÌÌÌì?rq   )rs   ÚmomentumrK   r"   )r(   r)   r   rM   rt   rJ   ry   r
   rz   rˆ   ÚBatchNormalizationrq   rH   )r+   rP   rH   rl   rI   rJ   r,   r-   s          €r$   r)   z)TFCvtSelfAttentionConvProjection.__init__Á   s”   ø€ Ü‰ÑÑ"˜6Ò"Ü—|‘|×1Ñ1¸'Ð1ÓBˆŒÜ Ÿ<™<×.Ñ.ØØ#Ü.¨v×/GÑ/GÓHØØØØØð /ó 	
ˆÔô #Ÿ\™\×<Ñ<ÀTÐTWÐ^mÐ<ÓnˆÔØ"ˆr#   c                ól   — | j                  | j                  |«      «      }| j                  ||¬«      }|S rS   )rˆ   rJ   rq   ©r+   rV   r9   s      r$   r<   z%TFCvtSelfAttentionConvProjection.callÒ   s6   € Ø×'Ñ'¨¯©°\Ó(BÓCˆØ×)Ñ)¨,ÀÐ)ÓJˆØÐr#   c                óþ  — | j                   ry d| _         t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d d | j                  g«       d d d «       t        | dd «      \t        j                  | j                  j
                  «      5  | j                  j                  d d d | j                  g«       d d d «       y y # 1 sw Y   ŒsxY w# 1 sw Y   y xY w)NTrˆ   rq   )	rX   rY   r1   rZ   rˆ   rK   r[   rH   rq   r\   s     r$   r[   z&TFCvtSelfAttentionConvProjection.build×   sà   € Ø:Š:ØØˆŒ
Ü4˜¨Ó-Ð9Ü—‘˜t×/Ñ/×4Ñ4Ó5ñ KØ× Ñ ×&Ñ&¨¨d°D¸$¿.¹.Ð'IÔJ÷Kä4˜¨$Ó/Ð;Ü—‘˜t×1Ñ1×6Ñ6Ó7ñ MØ×"Ñ"×(Ñ(¨$°°d¸D¿N¹NÐ)KÔL÷Mð Mð <÷Kð Kú÷Mð Mús   Á*C'Â3*C3Ã'C0Ã3C<)
rP   r   rH   r`   rl   r`   rI   r`   rJ   r`   ra   ©rV   r?   r9   rb   rc   r?   r>   rd   rA   s   @r$   r†   r†   ¾   s   ø„ Ù)õ#ô"÷
	Mr#   r†   c                  ó   — e Zd ZdZdd„Zy)Ú"TFCvtSelfAttentionLinearProjectionz7Linear projection layer used to flatten tokens into 1D.c                ód   — t        |«      \  }}}}||z  }t        j                  ||||f¬«      }|S )Nr}   )r   r1   r   )r+   rV   r€   r   r‚   rG   rƒ   s          r$   r<   z'TFCvtSelfAttentionLinearProjection.callæ   s<   € ä2<¸\Ó2JÑ/ˆ
F˜E <Ø˜u‘nˆÜ—z‘z ,°zÀ;ÐP\Ð6]Ô^ˆØÐr#   N©rV   r?   rc   r?   )r   r   r   r    r<   r"   r#   r$   r’   r’   ã   s
   „ ÙAôr#   r’   c                  óP   ‡ — e Zd ZdZ	 d	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zddd„Zd	d„Zˆ xZS )
ÚTFCvtSelfAttentionProjectionz'Convolutional Projection for Attention.c                óx   •— t        ‰|   di |¤Ž |dk(  rt        |||||d¬«      | _        t	        «       | _        y )NÚdw_bnÚconvolution_projection©rK   r"   )r(   r)   r†   r™   r’   Úlinear_projection)	r+   rP   rH   rl   rI   rJ   Úprojection_methodr,   r-   s	           €r$   r)   z%TFCvtSelfAttentionProjection.__init__ñ   sF   ø€ ô 	‰ÑÑ"˜6Ò"Ø Ò'Ü*JØ˜	 ;°¸ÐF^ô+ˆDÔ'ô "DÓ!EˆÕr#   c                óN   — | j                  ||¬«      }| j                  |«      }|S rS   )r™   r›   rŽ   s      r$   r<   z!TFCvtSelfAttentionProjection.call  s-   € Ø×2Ñ2°<È(Ð2ÓSˆØ×-Ñ-¨lÓ;ˆØÐr#   c                óú   — | j                   ry d| _         t        | dd «      Nt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       y y # 1 sw Y   y xY w)NTr™   )rX   rY   r1   rZ   r™   rK   r[   r\   s     r$   r[   z"TFCvtSelfAttentionProjection.build  r^   r_   )r˜   )rP   r   rH   r`   rl   r`   rI   r`   rJ   r`   rœ   Ústrra   r   r>   rd   rA   s   @r$   r–   r–   î   s[   ø„ Ù1ð ")ðFàðFð ðFð ð	Fð
 ðFð ðFð õFô"÷
8r#   r–   c                  óp   ‡ — e Zd ZdZ	 d	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zdd„Zd	d
d„Zdd„Zˆ xZS )ÚTFCvtSelfAttentionz
    Self-attention layer. A depth-wise separable convolution operation (Convolutional Projection), is applied for
    query, key, and value embeddings.
    c           	     óª  •— t        ‰|   di |¤Ž |dz  | _        || _        || _        || _        t        ||||||	dk(  rdn|	d¬«      | _        t        ||||||	d¬«      | _        t        ||||||	d¬«      | _	        t        j                  j                  |t        |j                  «      |
dd	¬
«      | _        t        j                  j                  |t        |j                  «      |
dd¬
«      | _        t        j                  j                  |t        |j                  «      |
dd¬
«      | _        t        j                  j%                  |«      | _        y )Ng      à¿ÚavgÚlinearÚconvolution_projection_query)rœ   rK   Úconvolution_projection_keyÚconvolution_projection_valueÚzerosÚprojection_query©Úunitsro   r‰   Úbias_initializerrK   Úprojection_keyÚprojection_valuer"   )r(   r)   ÚscaleÚwith_cls_tokenrH   Ú	num_headsr–   r¥   r¦   r§   r   rM   ÚDenser
   rz   r©   r­   r®   rN   rO   )r+   rP   r±   rH   rl   Ústride_qÚ	stride_kvÚ	padding_qÚ
padding_kvÚqkv_projection_methodÚqkv_biasÚattention_drop_rater°   r,   r-   s                 €r$   r)   zTFCvtSelfAttention.__init__  sm  ø€ ô  	‰ÑÑ"˜6Ò"Ø ‘_ˆŒ
Ø,ˆÔØ"ˆŒØ"ˆŒä,HØØØØØØ*?À5Ò*H™hÐNcØ/ô-
ˆÔ)ô +GØØØØØØ3Ø-ô+
ˆÔ'ô -IØØØØØØ3Ø/ô-
ˆÔ)ô !&§¡× 2Ñ 2ØÜ.¨v×/GÑ/GÓHØØ$Ø#ð !3ó !
ˆÔô $Ÿl™l×0Ñ0ØÜ.¨v×/GÑ/GÓHØØ$Ø!ð 1ó 
ˆÔô !&§¡× 2Ñ 2ØÜ.¨v×/GÑ/GÓHØØ$Ø#ð !3ó !
ˆÔô —|‘|×+Ñ+Ð,?Ó@ˆr#   c                óÎ   — t        |«      \  }}}| j                  | j                  z  }t        j                  |||| j                  |f¬«      }t        j
                  |d¬«      }|S )Nr}   ©r   é   r   r   ©Úperm)r   rH   r±   r1   r   Ú	transpose)r+   rV   r€   rƒ   Ú_Úhead_dims         r$   Ú"rearrange_for_multi_head_attentionz5TFCvtSelfAttention.rearrange_for_multi_head_attention_  s\   € Ü%/°Ó%=Ñ"ˆ
K Ø—>‘> T§^¡^Ñ3ˆÜ—z‘z ,°zÀ;ÐPT×P^ÑP^Ð`hÐ6iÔjˆÜ—|‘| L°|ÔDˆØÐr#   c                ó  — | j                   rt        j                  |d||z  gd«      \  }}t        |«      \  }}}t        j                  |||||f¬«      }| j                  ||¬«      }	| j                  ||¬«      }
| j                  ||¬«      }| j                   rKt        j                  |
fd¬«      }
t        j                  ||	fd¬«      }	t        j                  ||fd¬«      }| j                  | j                  z  }| j                  | j                  |
«      «      }
| j                  | j                  |	«      «      }	| j                  | j                  |«      «      }t        j                  |
|	d¬«      | j                   z  }t#        |d¬«      }| j%                  ||¬«      }t        j                  ||«      }t        |«      \  }}}}t        j&                  |d	¬
«      }t        j                  |||| j                  |z  f«      }|S )Nr   r}   rT   ©ÚaxisT)Útranspose_béÿÿÿÿ)ÚlogitsrÅ   r»   r½   )r°   r1   Úsplitr   r   r¦   r¥   r§   ÚconcatrH   r±   rÂ   r©   r­   r®   Úmatmulr¯   r   rO   r¿   )r+   rV   r   r‚   r9   Ú	cls_tokenr€   rƒ   rG   ÚkeyÚqueryÚvaluerÁ   Úattention_scoreÚattention_probsÚcontextrÀ   s                    r$   r<   zTFCvtSelfAttention.callf  sÕ  € Ø×ÒÜ&(§h¡h¨|¸aÀÈ%ÁÐ=PÐRSÓ&TÑ#ˆI|ô 1;¸<Ó0HÑ-ˆ
K Ü—z‘z ,°zÀ6È5ÐR^Ð6_Ô`ˆà×-Ñ-¨lÀXÐ-ÓNˆØ×1Ñ1°,ÈÐ1ÓRˆØ×1Ñ1°,ÈÐ1ÓRˆà×ÒÜ—I‘I˜y¨%Ð0°qÔ9ˆEÜ—)‘)˜Y¨Ð,°1Ô5ˆCÜ—I‘I˜y¨%Ð0°qÔ9ˆEà—>‘> T§^¡^Ñ3ˆà×7Ñ7¸×8MÑ8MÈeÓ8TÓUˆØ×5Ñ5°d×6IÑ6IÈ#Ó6NÓOˆØ×7Ñ7¸×8MÑ8MÈeÓ8TÓUˆäŸ)™) E¨3¸DÔAÀDÇJÁJÑNˆÜ(°ÀbÔIˆØŸ,™, À˜,ÓJˆä—)‘)˜O¨UÓ3ˆä)¨'Ó2Ñˆˆ1ˆk˜1Ü—,‘,˜w¨\Ô:ˆÜ—*‘*˜W z°;ÀÇÁÐQYÑ@YÐ&ZÓ[ˆØˆr#   c                óL  — | j                   ry d| _         t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Zt        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       t        | dd «      Zt        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       y y # 1 sw Y   ŒõxY w# 1 sw Y   Œ¨xY w# 1 sw Y   Œ[xY w# 1 sw Y   ŒxY w# 1 sw Y   Œ¦xY w# 1 sw Y   y xY w)NTr¥   r¦   r§   r©   r­   r®   )rX   rY   r1   rZ   r¥   rK   r[   r¦   r§   r©   rH   r­   r®   r\   s     r$   r[   zTFCvtSelfAttention.buildˆ  s1  € Ø:Š:ØØˆŒ
Ü4Ð7¸Ó>ÐJÜ—‘˜t×@Ñ@×EÑEÓFñ >Ø×1Ñ1×7Ñ7¸Ô=÷>ä4Ð5°tÓ<ÐHÜ—‘˜t×>Ñ>×CÑCÓDñ <Ø×/Ñ/×5Ñ5°dÔ;÷<ä4Ð7¸Ó>ÐJÜ—‘˜t×@Ñ@×EÑEÓFñ >Ø×1Ñ1×7Ñ7¸Ô=÷>ä4Ð+¨TÓ2Ð>Ü—‘˜t×4Ñ4×9Ñ9Ó:ñ JØ×%Ñ%×+Ñ+¨T°4¸¿¹Ð,HÔI÷Jä4Ð)¨4Ó0Ð<Ü—‘˜t×2Ñ2×7Ñ7Ó8ñ HØ×#Ñ#×)Ñ)¨4°°t·~±~Ð*FÔG÷Hä4Ð+¨TÓ2Ð>Ü—‘˜t×4Ñ4×9Ñ9Ó:ñ JØ×%Ñ%×+Ñ+¨T°4¸¿¹Ð,HÔI÷Jð Jð ?÷>ñ >ú÷<ñ <ú÷>ñ >ú÷Jñ Jú÷Hð Hú÷Jð JúsH   ÁIÂ%I'Ã?I4Å)JÇ )JÈ')JÉI$É'I1É4I>ÊJÊJÊJ#©T)rP   r   r±   r`   rH   r`   rl   r`   r³   r`   r´   r`   rµ   r`   r¶   r`   r·   rŸ   r¸   rb   r¹   r=   r°   rb   r”   ra   ©
rV   r?   r   r`   r‚   r`   r9   rb   rc   r?   r>   )	r   r   r   r    r)   rÂ   r<   r[   r@   rA   s   @r$   r¡   r¡     s´   ø„ ñð$  $ðGAàðGAð ðGAð ð	GAð
 ðGAð ðGAð ðGAð ðGAð ðGAð  #ðGAð ðGAð #ðGAð õGAóRô ÷DJr#   r¡   c                  ó6   ‡ — e Zd ZdZdˆ fd„Zddd„Zdd„Zˆ xZS )	ÚTFCvtSelfOutputzOutput of the Attention layer .c                óî   •— t        ‰|   di |¤Ž t        j                  j	                  |t        |j                  «      d¬«      | _        t        j                  j                  |«      | _	        || _
        y ©NÚdense)r«   ro   rK   r"   )r(   r)   r   rM   r²   r
   rz   rÚ   rN   rO   rH   )r+   rP   rH   Ú	drop_rater,   r-   s        €r$   r)   zTFCvtSelfOutput.__init__£  s`   ø€ Ü‰ÑÑ"˜6Ò"Ü—\‘\×'Ñ'Ø´À×@XÑ@XÓ0YÐ`gð (ó 
ˆŒ
ô —|‘|×+Ñ+¨IÓ6ˆŒØ"ˆr#   c                óP   — | j                  |¬«      }| j                  ||¬«      }|S ©N)Úinputs)rÞ   r9   ©rÚ   rO   rŽ   s      r$   r<   zTFCvtSelfOutput.call«  s*   € Ø—z‘z¨zÓ6ˆØ—|‘|¨<À(|ÓKˆØÐr#   c                ó  — | j                   ry d| _         t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       y y # 1 sw Y   y xY w©NTrÚ   ©rX   rY   r1   rZ   rÚ   rK   r[   rH   r\   s     r$   r[   zTFCvtSelfOutput.build°  ór   € Ø:Š:ØØˆŒ
Ü4˜ $Ó'Ð3Ü—‘˜tŸz™zŸ™Ó/ñ ?Ø—
‘
× Ñ  $¨¨d¯n©nÐ!=Ô>÷?ð ?ð 4÷?ð ?úó   Á)A>Á>B)rP   r   rH   r`   rÛ   r=   ra   r   r>   rd   rA   s   @r$   r×   r×      s   ø„ Ù)õ#ô÷
?r#   r×   c                  ór   ‡ — e Zd ZdZ	 d	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zd„ Zdd	d„Zd
d„Zˆ xZS )ÚTFCvtAttentionzDAttention layer. First chunk of the convolutional transformer block.c                ó†   •— t        ‰|   di |¤Ž t        |||||||||	|
||d¬«      | _        t	        |||d¬«      | _        y )NÚ	attentionrš   Úoutputr"   )r(   r)   r¡   rè   r×   Údense_output)r+   rP   r±   rH   rl   r³   r´   rµ   r¶   r·   r¸   r¹   rÛ   r°   r,   r-   s                  €r$   r)   zTFCvtAttention.__init__¼  s]   ø€ ô" 	‰ÑÑ"˜6Ò"Ü+ØØØØØØØØØ!ØØØØô
ˆŒô ,¨F°I¸yÈxÔXˆÕr#   c                ó   — t         ‚r>   )ÚNotImplementedError)r+   Úheadss     r$   Úprune_headszTFCvtAttention.prune_headsß  s   € Ü!Ð!r#   c                óV   — | j                  ||||¬«      }| j                  ||¬«      }|S rS   )rè   rê   )r+   rV   r   r‚   r9   Úself_outputÚattention_outputs          r$   r<   zTFCvtAttention.callâ  s4   € Ø—n‘n \°6¸5È8nÓTˆØ×,Ñ,¨[À8Ð,ÓLÐØÐr#   c                óÆ  — | j                   ry d| _         t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Nt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       y y # 1 sw Y   ŒexY w# 1 sw Y   y xY w)NTrè   rê   )rX   rY   r1   rZ   rè   rK   r[   rê   r\   s     r$   r[   zTFCvtAttention.buildç  s¹   € Ø:Š:ØØˆŒ
Ü4˜ dÓ+Ð7Ü—‘˜tŸ~™~×2Ñ2Ó3ñ +Ø—‘×$Ñ$ TÔ*÷+ä4˜¨Ó.Ð:Ü—‘˜t×0Ñ0×5Ñ5Ó6ñ .Ø×!Ñ!×'Ñ'¨Ô-÷.ð .ð ;÷+ð +ú÷.ð .ús   ÁCÂ%CÃCÃC rÔ   )rP   r   r±   r`   rH   r`   rl   r`   r³   r`   r´   r`   rµ   r`   r¶   r`   r·   rŸ   r¸   rb   r¹   r=   rÛ   r=   r°   rb   ra   )rV   r?   r   r`   r‚   r`   r9   rb   r>   )	r   r   r   r    r)   rî   r<   r[   r@   rA   s   @r$   ræ   ræ   ¹  s®   ø„ ÙNð   $ð!Yàð!Yð ð!Yð ð	!Yð
 ð!Yð ð!Yð ð!Yð ð!Yð ð!Yð  #ð!Yð ð!Yð #ð!Yð ð!Yð õ!YòF"ô ÷
	.r#   ræ   c                  ó4   ‡ — e Zd ZdZdˆ fd„Zdd„Zdd„Zˆ xZS )ÚTFCvtIntermediatezNIntermediate dense layer. Second chunk of the convolutional transformer block.c                óÀ   •— t        ‰|   di |¤Ž t        j                  j	                  t        ||z  «      t        |j                  «      dd¬«      | _        || _	        y )NÚgelurÚ   )r«   ro   Ú
activationrK   r"   )
r(   r)   r   rM   r²   r`   r
   rz   rÚ   rH   )r+   rP   rH   Ú	mlp_ratior,   r-   s        €r$   r)   zTFCvtIntermediate.__init__ö  sX   ø€ Ü‰ÑÑ"˜6Ò"Ü—\‘\×'Ñ'Üi )Ñ+Ó,Ü.¨v×/GÑ/GÓHØØð	 (ó 
ˆŒ
ð #ˆr#   c                ó(   — | j                  |«      }|S r>   )rÚ   )r+   rV   s     r$   r<   zTFCvtIntermediate.call   s   € Ø—z‘z ,Ó/ˆØÐr#   c                ó  — | j                   ry d| _         t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       y y # 1 sw Y   y xY wrá   râ   r\   s     r$   r[   zTFCvtIntermediate.build  rã   rä   )rP   r   rH   r`   rø   r`   r”   r>   rd   rA   s   @r$   rô   rô   ó  s   ø„ ÙXõ#ó÷?r#   rô   c                  ó6   ‡ — e Zd ZdZdˆ fd„Zddd„Zdd„Zˆ xZS )	ÚTFCvtOutputzu
    Output of the Convolutional Transformer Block (last chunk). It consists of a MLP and a residual connection.
    c                óü   •— t        ‰|   di |¤Ž t        j                  j	                  |t        |j                  «      d¬«      | _        t        j                  j                  |«      | _	        || _
        || _        y rÙ   )r(   r)   r   rM   r²   r
   rz   rÚ   rN   rO   rH   rø   )r+   rP   rH   rø   rÛ   r,   r-   s         €r$   r)   zTFCvtOutput.__init__  sg   ø€ Ü‰ÑÑ"˜6Ò"Ü—\‘\×'Ñ'Ø´À×@XÑ@XÓ0YÐ`gð (ó 
ˆŒ
ô —|‘|×+Ñ+¨IÓ6ˆŒØ"ˆŒØ"ˆr#   c                óZ   — | j                  |¬«      }| j                  ||¬«      }||z   }|S rÝ   rß   )r+   rV   Úinput_tensorr9   s       r$   r<   zTFCvtOutput.call  s4   € Ø—z‘z¨zÓ6ˆØ—|‘|¨<À(|ÓKˆØ# lÑ2ˆØÐr#   c           	     ó@  — | j                   ry d| _         t        | dd «      qt        j                  | j                  j
                  «      5  | j                  j                  d d t        | j                  | j                  z  «      g«       d d d «       y y # 1 sw Y   y xY wrá   )
rX   rY   r1   rZ   rÚ   rK   r[   r`   rH   rø   r\   s     r$   r[   zTFCvtOutput.build!  s…   € Ø:Š:ØØˆŒ
Ü4˜ $Ó'Ð3Ü—‘˜tŸz™zŸ™Ó/ñ UØ—
‘
× Ñ  $¨¬c°$·.±.À4Ç>Á>Ñ2QÓ.RÐ!SÔT÷Uð Uð 4÷Uð Uús   Á?BÂB)rP   r   rH   r`   rø   r`   rÛ   r`   ra   )rV   r?   rÿ   r?   r9   rb   rc   r?   r>   rd   rA   s   @r$   rü   rü     s   ø„ ñõ#ô÷Ur#   rü   c                  ót   ‡ — e Zd ZdZ	 d	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zddd„Zd	d„Zˆ xZS )
Ú
TFCvtLayera&  
    Convolutional Transformer Block composed by attention layers, normalization and multi-layer perceptrons (mlps). It
    consists of 3 chunks : an attention layer, an intermediate dense layer and an output layer. This corresponds to the
    `Block` class in the original implementation.
    c                óÈ  •— t        ‰|   di |¤Ž t        |||||||||	|
|||d¬«      | _        t	        |||d¬«      | _        t        ||||d¬«      | _        |dkD  rt        |d¬«      n t        j                  j                  dd¬«      | _        t        j                  j                  dd	¬
«      | _        t        j                  j                  dd¬
«      | _        || _        y )Nrè   rš   Úintermediateré   r/   Ú	drop_pathr¤   rp   Úlayernorm_beforerr   Úlayernorm_afterr"   )r(   r)   ræ   rè   rô   r  rü   rê   r&   r   rM   Ú
Activationr  r{   r  r  rH   )r+   rP   r±   rH   rl   r³   r´   rµ   r¶   r·   r¸   r¹   rÛ   rø   Údrop_path_rater°   r,   r-   s                    €r$   r)   zTFCvtLayer.__init__1  sî   ø€ ô& 	‰ÑÑ"˜6Ò"Ü'ØØØØØØØØØ!ØØØØØô
ˆŒô  .¨f°iÀÐQ_Ô`ˆÔÜ'¨°	¸9ÀiÐV^Ô_ˆÔð  Ò#ô ˜.¨{Õ;ä—‘×(Ñ(¨¸Ð(ÓDð 	Œô !&§¡× ?Ñ ?ÈÐSeÐ ?Ó fˆÔÜ$Ÿ|™|×>Ñ>ÀtÐRcÐ>ÓdˆÔØ"ˆr#   c                ó  — | j                  | j                  |«      |||¬«      }| j                  ||¬«      }||z   }| j                  |«      }| j	                  |«      }| j                  ||«      }| j                  ||¬«      }|S rS   )rè   r  r  r  r  rê   )r+   rV   r   r‚   r9   rñ   Úlayer_outputs          r$   r<   zTFCvtLayer.callb  s”   € àŸ>™>¨$×*?Ñ*?ÀÓ*MÈvÐW\Ðgo˜>ÓpÐØŸ>™>Ð*:ÀX˜>ÓNÐð (¨,Ñ6ˆð ×+Ñ+¨LÓ9ˆØ×(Ñ(¨Ó6ˆð ×(Ñ(¨°|ÓDˆØ—~‘~ l¸X~ÓFˆØÐr#   c                ó2  — | j                   ry d| _         t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      Zt        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       t        | dd «      [t        j                  | j                  j
                  «      5  | j                  j                  d d | j                  g«       d d d «       y y # 1 sw Y   ŒèxY w# 1 sw Y   Œ›xY w# 1 sw Y   ŒNxY w# 1 sw Y   ŒxY w# 1 sw Y   Œ¦xY w# 1 sw Y   y xY w)NTrè   r  rê   r  r  r  )rX   rY   r1   rZ   rè   rK   r[   r  rê   r  r  rH   r  r\   s     r$   r[   zTFCvtLayer.builds  s  € Ø:Š:ØØˆŒ
Ü4˜ dÓ+Ð7Ü—‘˜tŸ~™~×2Ñ2Ó3ñ +Ø—‘×$Ñ$ TÔ*÷+ä4˜¨Ó.Ð:Ü—‘˜t×0Ñ0×5Ñ5Ó6ñ .Ø×!Ñ!×'Ñ'¨Ô-÷.ä4˜¨Ó.Ð:Ü—‘˜t×0Ñ0×5Ñ5Ó6ñ .Ø×!Ñ!×'Ñ'¨Ô-÷.ä4˜ dÓ+Ð7Ü—‘˜tŸ~™~×2Ñ2Ó3ñ +Ø—‘×$Ñ$ TÔ*÷+ä4Ð+¨TÓ2Ð>Ü—‘˜t×4Ñ4×9Ñ9Ó:ñ JØ×%Ñ%×+Ñ+¨T°4¸¿¹Ð,HÔI÷Jä4Ð*¨DÓ1Ð=Ü—‘˜t×3Ñ3×8Ñ8Ó9ñ IØ×$Ñ$×*Ñ*¨D°$¸¿¹Ð+GÔH÷Ið Ið >÷+ñ +ú÷.ñ .ú÷.ñ .ú÷+ñ +ú÷Jð Jú÷Ið IúsH   ÁIÂ%IÃ?I'ÅI4Æ3)JÈ)JÉIÉI$É'I1É4I>ÊJ
ÊJrÔ   )rP   r   r±   r`   rH   r`   rl   r`   r³   r`   r´   r`   rµ   r`   r¶   r`   r·   rŸ   r¸   rb   r¹   r=   rÛ   r=   rø   r=   r	  r=   r°   rb   ra   rÕ   r>   rd   rA   s   @r$   r  r  *  s²   ø„ ñð,  $ð!/#àð/#ð ð/#ð ð	/#ð
 ð/#ð ð/#ð ð/#ð ð/#ð ð/#ð  #ð/#ð ð/#ð #ð/#ð ð/#ð ð/#ð ð/#ð  õ!/#ôb÷"Ir#   r  c                  ó6   ‡ — e Zd ZdZdˆ fd„Zddd„Zdd„Zˆ xZS )	Ú
TFCvtStageaK  
    Cvt stage (encoder block). Each stage has 2 parts :
    - (1) A Convolutional Token Embedding layer
    - (2) A Convolutional Transformer Block (layer).
    The classification token is added only in the last stage.

    Args:
        config ([`CvtConfig`]): Model configuration class.
        stage (`int`): Stage number.
    c                ó°  •— t        ‰|   di |¤Ž || _        || _        | j                  j                  | j                     rQ| j                  dd| j                  j                  d   ft        | j                  j                  «      dd¬«      | _        t        | j                  |j                  | j                     | j                  dk(  r|j                  n|j                  | j                  dz
     |j                  | j                     |j                  | j                     |j                  | j                     |j                  | j                     d¬«      | _        t!        j"                  d	|j$                  | j                     |j&                  |   «      }|D cg c]   }|j)                  «       j+                  «       ‘Œ" }}t-        |j&                  | j                     «      D cg c]X  }t/        |f|j0                  | j                     |j                  | j                     |j2                  | j                     |j4                  | j                     |j6                  | j                     |j8                  | j                     |j:                  | j                     |j<                  | j                     |j>                  | j                     |j@                  | j                     |j                  | j                     |jB                  | j                     || j                     |j                  | j                     d
|› dœŽ‘Œ[ c}| _"        y c c}w c c}w )Nr   rÇ   Tzcvt.encoder.stages.2.cls_token)r2   ÚinitializerÚ	trainablerK   r   Ú	embedding)rF   rG   rI   rH   rJ   rQ   rK   r/   zlayers.)r±   rH   rl   r³   r´   rµ   r¶   r·   r¸   r¹   rÛ   rø   r	  r°   rK   r"   )#r(   r)   rP   ÚstagerÌ   Ú
add_weightrH   r
   rz   rC   Úpatch_sizesrG   Úpatch_strideÚpatch_paddingrÛ   r  r1   Úlinspacer	  ÚdepthÚnumpyÚitemÚranger  r±   Ú
kernel_qkvr³   r´   rµ   r¶   r·   r¸   r¹   rø   rM   )r+   rP   r  r,   Údrop_path_ratesr8   Újr-   s          €r$   r)   zTFCvtStage.__init__—  s¬  ø€ Ü‰ÑÑ"˜6Ò"ØˆŒØˆŒ
Ø;‰;× Ñ  §¡Ò,Ø!Ÿ_™_Ø˜!˜TŸ[™[×2Ñ2°2Ñ6Ð7Ü+¨D¯K©K×,IÑ,IÓJØØ5ð	 -ó ˆDŒNô )ØK‰KØ×)Ñ)¨$¯*©*Ñ5Ø04·
±
¸a²˜×,Ò,ÀV×EUÑEUÐVZ×V`ÑV`ÐcdÑVdÑEeØ×&Ñ& t§z¡zÑ2Ø×&Ñ& t§z¡zÑ2Ø×(Ñ(¨¯©Ñ4Ø×)Ñ)¨$¯*©*Ñ5Øô	
ˆŒô Ÿ+™+ c¨6×+@Ñ+@ÀÇÁÑ+LÈfÏlÉlÐ[`ÑNaÓbˆØ5DÖE°˜1Ÿ7™7›9Ÿ>™>Õ+ÐEˆÐEô( ˜6Ÿ<™<¨¯
©
Ñ3Ó4÷'
ð& ô% Øðà ×*Ñ*¨4¯:©:Ñ6Ø ×*Ñ*¨4¯:©:Ñ6Ø"×-Ñ-¨d¯j©jÑ9ØŸ™¨¯©Ñ4Ø ×*Ñ*¨4¯:©:Ñ6Ø ×*Ñ*¨4¯:©:Ñ6Ø!×,Ñ,¨T¯Z©ZÑ8Ø&,×&BÑ&BÀ4Ç:Á:Ñ&NØŸ™¨¯©Ñ4Ø$*×$>Ñ$>¸t¿z¹zÑ$JØ ×*Ñ*¨4¯:©:Ñ6Ø ×*Ñ*¨4¯:©:Ñ6Ø.¨t¯z©zÑ:Ø%×/Ñ/°·
±
Ñ;Ø˜q˜c]õ!ò
ˆùò Fùò
s   Æ%MÇ'EMc                óD  — d }| j                  ||«      }t        |«      \  }}}}||z  }t        j                  ||||f¬«      }| j                  j
                  | j                     r;t        j                  | j
                  |d¬«      }t        j                  ||fd¬«      }| j                  D ]  }	 |	||||¬«      }
|
}Œ | j                  j
                  | j                     rt        j                  |d||z  gd«      \  }}t        j                  |||||f¬«      }||fS )Nr}   r   )ÚrepeatsrÅ   r   rÄ   rT   )r  r   r1   r   rP   rÌ   r  ÚrepeatrÊ   rM   rÉ   )r+   rV   r9   rÌ   r€   r   r‚   rG   rƒ   ÚlayerÚlayer_outputss              r$   r<   zTFCvtStage.callÆ  s  € Øˆ	Ø—~‘~ l°HÓ=ˆô 3=¸\Ó2JÑ/ˆ
F˜E <Ø˜u‘nˆÜ—z‘z ,°zÀ;ÐP\Ð6]Ô^ˆà;‰;× Ñ  §¡Ò,ÜŸ	™	 $§.¡.¸*È1ÔMˆIÜŸ9™9 i°Ð%>ÀQÔGˆLà—[‘[ò 	)ˆEÙ! ,°¸ÈÔQˆMØ(‰Lð	)ð ;‰;× Ñ  §¡Ò,Ü&(§h¡h¨|¸aÀÈ%ÁÐ=PÐRSÓ&TÑ#ˆI|ô —z‘z ,°zÀ6È5ÐR^Ð6_Ô`ˆØ˜YÐ&Ð&r#   c                óÀ  — | j                   ry d| _         t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      K| j                  D ];  }t        j                  |j
                  «      5  |j                  d «       d d d «       Œ= y y # 1 sw Y   ŒbxY w# 1 sw Y   ŒUxY w)NTr  rM   )rX   rY   r1   rZ   r  rK   r[   rM   ©r+   r]   r#  s      r$   r[   zTFCvtStage.buildÞ  s¼   € Ø:Š:ØØˆŒ
Ü4˜ dÓ+Ð7Ü—‘˜tŸ~™~×2Ñ2Ó3ñ +Ø—‘×$Ñ$ TÔ*÷+ä4˜ 4Ó(Ð4ØŸ™ò &Ü—]‘] 5§:¡:Ó.ñ &Ø—K‘K Ô%÷&ð &ñ&ð 5÷+ð +ú÷&ð &ús   ÁCÂ*CÃCÃC	)rP   r   r  r`   ra   )rV   r?   r9   rb   r>   rd   rA   s   @r$   r  r  ‹  s   ø„ ñ	õ-
ô^'÷0
&r#   r  c                  óR   ‡ — e Zd ZdZeZdˆ fd„Z	 	 	 d	 	 	 	 	 	 	 	 	 dd„Zdd„Zˆ xZ	S )	ÚTFCvtEncoderzâ
    Convolutional Vision Transformer encoder. CVT has 3 stages of encoder blocks with their respective number of layers
    (depth) being 1, 2 and 10.

    Args:
        config ([`CvtConfig`]): Model configuration class.
    c           	     ó¼   •— t        ‰|   di |¤Ž || _        t        t	        |j
                  «      «      D cg c]  }t        ||d|› ¬«      ‘Œ c}| _        y c c}w )Nzstages.rš   r"   )r(   r)   rP   r  r3   r  r  Ústages)r+   rP   r,   Ú	stage_idxr-   s       €r$   r)   zTFCvtEncoder.__init__ö  sX   ø€ Ü‰ÑÑ"˜6Ò"ØˆŒäW\Ô]`Ðag×amÑamÓ]nÓWoö
ØJSŒJv˜y°¸¸Ð/DÖEò
ˆùò 
s   ¸Ac           	     óŒ  — |rdnd }|}t        j                  |d¬«      }d }t        | j                  «      D ]  \  }}	 |	||¬«      \  }}|sŒ||fz   }Œ t        j                  |d¬«      }|r.t	        |D 
cg c]  }
t        j                  |
d¬«      ‘Œ c}
«      }|st	        d„ |||fD «       «      S t        |||¬«      S c c}
w )Nr"   )r   r¼   r   r   r½   rT   )r   r   r   r¼   c              3  ó&   K  — | ]	  }|€Œ|–— Œ y ­wr>   r"   )Ú.0Úvs     r$   ú	<genexpr>z$TFCvtEncoder.call.<locals>.<genexpr>  s   è ø€ Òb˜qÐTUÑTaœÑbùs   ‚Š©r   r   r   )r1   r¿   Ú	enumerater*  Útupler   )r+   rU   Úoutput_hidden_statesÚreturn_dictr9   Úall_hidden_statesrV   rÌ   rÀ   Ústage_moduleÚhss              r$   r<   zTFCvtEncoder.callý  sÙ   € ñ #7™B¸DÐØ#ˆô —|‘| L°|ÔDˆàˆ	Ü!*¨4¯;©;Ó!7ò 	HÑˆAÙ&2°<È(Ô&SÑ#ˆL˜)Ú#Ø$5¸¸Ñ$GÑ!ð	Hô —|‘| L°|ÔDˆÙÜ %ÐUfÖ&gÈr¤r§|¡|°B¸\Ö'JÒ&gÓ hÐáÜÑb \°9Ð>OÐ$PÔbÓbÐbä,Ø*Ø%Ø+ô
ð 	
ùò 'hs   Á7Cc                óô   — | j                   ry d| _         t        | dd «      K| j                  D ];  }t        j                  |j
                  «      5  |j                  d «       d d d «       Œ= y y # 1 sw Y   ŒIxY w)NTr*  )rX   rY   r*  r1   rZ   rK   r[   r&  s      r$   r[   zTFCvtEncoder.build  sp   € Ø:Š:ØØˆŒ
Ü4˜ 4Ó(Ð4ØŸ™ò &Ü—]‘] 5§:¡:Ó.ñ &Ø—K‘K Ô%÷&ð &ñ&ð 5÷&ð &ús   ÁA.Á.A7	©rP   r   )FTF)
rU   r   r4  úbool | Noner5  r;  r9   r;  rc   ú0TFBaseModelOutputWithCLSToken | tuple[tf.Tensor]r>   )
r   r   r   r    r   Úconfig_classr)   r<   r[   r@   rA   s   @r$   r(  r(  ë  sZ   ø„ ñð €Lõ
ð -2Ø#'Ø %ð
à&ð
ð *ð
ð !ð	
ð
 ð
ð 
:ó
÷B&r#   r(  c                  ó^   ‡ — e Zd ZdZeZdˆ fd„Ze	 	 	 	 d	 	 	 	 	 	 	 	 	 dd„«       Zdd„Z	ˆ xZ
S )	ÚTFCvtMainLayerzConstruct the Cvt model.c                óV   •— t        ‰|   di |¤Ž || _        t        |d¬«      | _        y )NÚencoderrš   r"   )r(   r)   rP   r(  rA  )r+   rP   r,   r-   s      €r$   r)   zTFCvtMainLayer.__init__.  s(   ø€ Ü‰ÑÑ"˜6Ò"ØˆŒÜ# F°Ô;ˆr#   c                óª   — |€t        d«      ‚| j                  ||||¬«      }|d   }|s	|f|dd  z   S t        ||j                  |j                  ¬«      S )Nú You have to specify pixel_values©r4  r5  r9   r   r   r1  )Ú
ValueErrorrA  r   r   r   )r+   rU   r4  r5  r9   Úencoder_outputsÚsequence_outputs          r$   r<   zTFCvtMainLayer.call3  s{   € ð ÐÜÐ?Ó@Ð@àŸ,™,ØØ!5Ø#Øð	 'ó 
ˆð *¨!Ñ,ˆáØ#Ð%¨¸¸Ð(;Ñ;Ð;ä,Ø-Ø+×;Ñ;Ø)×7Ñ7ô
ð 	
r#   c                óú   — | j                   ry d| _         t        | dd «      Nt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       y y # 1 sw Y   y xY w)NTrA  )rX   rY   r1   rZ   rA  rK   r[   r\   s     r$   r[   zTFCvtMainLayer.buildP  si   € Ø:Š:ØØˆŒ
Ü4˜ DÓ)Ð5Ü—‘˜tŸ|™|×0Ñ0Ó1ñ )Ø—‘×"Ñ" 4Ô(÷)ð )ð 6÷)ð )úr_   r:  ©NNNF)
rU   zTFModelInputType | Noner4  r;  r5  r;  r9   r;  rc   r<  r>   )r   r   r   r    r   r=  r)   r   r<   r[   r@   rA   s   @r$   r?  r?  (  sg   ø„ á"à€Lõ<ð
 ð 15Ø,0Ø#'Ø %ð
à-ð
ð *ð
ð !ð	
ð
 ð
ð 
:ò
ó ð
÷8)r#   r?  c                  ó   — e Zd ZdZeZdZdZy)ÚTFCvtPreTrainedModelz†
    An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
    models.
    ÚcvtrU   N)r   r   r   r    r   r=  Úbase_model_prefixÚmain_input_namer"   r#   r$   rK  rK  Y  s   „ ñð
 €LØÐØ$Or#   rK  aØ  

    This model inherits from [`TFPreTrainedModel`]. Check the superclass documentation for the generic methods the
    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
    etc.)

    This model is also a [keras.Model](https://www.tensorflow.org/api_docs/python/tf/keras/Model) subclass. Use it
    as a regular TF 2.0 Keras Model and refer to the TF 2.0 documentation for all matter related to general usage and
    behavior.

    <Tip>

    TF 2.0 models accepts two formats as inputs:

    - having all inputs as keyword arguments (like PyTorch models), or
    - having all inputs as a list, tuple or dict in the first positional arguments.

    This second option is useful when using [`keras.Model.fit`] method which currently requires having all the
    tensors in the first argument of the model call function: `model(inputs)`.

    </Tip>

    Args:
        config ([`CvtConfig`]): Model configuration class with all the parameters of the model.
            Initializing with a config file does not load the weights associated with the model, only the
            configuration. Check out the [`~TFPreTrainedModel.from_pretrained`] method to load the model weights.
al  
    Args:
        pixel_values (`np.ndarray`, `tf.Tensor`, `list[tf.Tensor]` ``dict[str, tf.Tensor]` or `dict[str, np.ndarray]` and each example must have the shape `(batch_size, num_channels, height, width)`):
            Pixel values. Pixel values can be obtained using [`AutoImageProcessor`]. See [`CvtImageProcessor.__call__`]
            for details.

        output_hidden_states (`bool`, *optional*):
            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
            more detail. This argument can be used only in eager mode, in graph mode the value in the config will be
            used instead.
        return_dict (`bool`, *optional*):
            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple. This argument can be used in
            eager mode, in graph mode the value will always be set to True.
        training (`bool`, *optional*, defaults to `False``):
            Whether or not to use the model in training mode (some modules like dropout modules have different
            behaviors between training and evaluation).
z]The bare Cvt Model transformer outputting raw hidden-states without any specific head on top.c                  ó†   ‡ — e Zd Zdˆ fd„Ze ee«       eee	¬«      	 	 	 	 d	 	 	 	 	 	 	 	 	 dd„«       «       «       Z
dd„Zˆ xZS )	Ú
TFCvtModelc                óP   •— t        ‰|   |g|¢­i |¤Ž t        |d¬«      | _        y )NrL  rš   )r(   r)   r?  rL  ©r+   rP   rÞ   r,   r-   s       €r$   r)   zTFCvtModel.__init__˜  s(   ø€ Ü‰Ñ˜Ð3 &Ò3¨FÒ3ä! &¨uÔ5ˆr#   ©Úoutput_typer=  c                óº   — |€t        d«      ‚| j                  ||||¬«      }|s|d   f|dd z   S t        |j                  |j                  |j
                  ¬«      S )a—  
        Returns:

        Examples:

        ```python
        >>> from transformers import AutoImageProcessor, TFCvtModel
        >>> from PIL import Image
        >>> import requests

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
        >>> model = TFCvtModel.from_pretrained("microsoft/cvt-13")

        >>> inputs = image_processor(images=image, return_tensors="tf")
        >>> outputs = model(**inputs)
        >>> last_hidden_states = outputs.last_hidden_state
        ```NrC  )rU   r4  r5  r9   r   r   r1  )rE  rL  r   r   r   r   )r+   rU   r4  r5  r9   Úoutputss         r$   r<   zTFCvtModel.call  sy   € ð> ÐÜÐ?Ó@Ð@à—(‘(Ø%Ø!5Ø#Øð	 ó 
ˆñ Ø˜A‘J= 7¨1¨2 ;Ñ.Ð.ä,Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/ô
ð 	
r#   c                óú   — | j                   ry d| _         t        | dd «      Nt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       y y # 1 sw Y   y xY w)NTrL  )rX   rY   r1   rZ   rL  rK   r[   r\   s     r$   r[   zTFCvtModel.buildÏ  se   € Ø:Š:ØØˆŒ
Ü4˜ Ó%Ð1Ü—‘˜tŸx™xŸ}™}Ó-ñ %Ø—‘—‘˜tÔ$÷%ð %ð 2÷%ð %úr_   r:  rI  )
rU   r   r4  r;  r5  r;  r9   r;  rc   r<  r>   )r   r   r   r)   r   r   ÚTFCVT_INPUTS_DOCSTRINGr   r   Ú_CONFIG_FOR_DOCr<   r[   r@   rA   s   @r$   rP  rP  “  s   ø„ õ
6ð
 Ù*Ð+AÓBÙÐ+HÐWfÔgð *.Ø,0Ø#'Ø %ð-
à&ð-
ð *ð-
ð !ð	-
ð
 ð-
ð 
:ò-
ó hó Có ð-
÷^%r#   rP  z¤
    Cvt Model transformer with an image classification head on top (a linear layer on top of the final hidden state of
    the [CLS] token) e.g. for ImageNet.
    c                  óŒ   ‡ — e Zd Zdˆ fd„Ze ee«       eee	¬«      	 	 	 	 	 d	 	 	 	 	 	 	 	 	 	 	 dd„«       «       «       Z
dd„Zˆ xZS )	ÚTFCvtForImageClassificationc                óX  •— t        ‰|   |g|¢­i |¤Ž |j                  | _        t        |d¬«      | _        t
        j                  j                  dd¬«      | _        t
        j                  j                  |j                  t        |j                  «      ddd¬	«      | _        || _        y )
NrL  rš   rp   Ú	layernormrr   Tr¨   Ú
classifierrª   )r(   r)   Ú
num_labelsr?  rL  r   rM   r{   r]  r²   r
   rz   r^  rP   rR  s       €r$   r)   z$TFCvtForImageClassification.__init__à  s–   ø€ Ü‰Ñ˜Ð3 &Ò3¨FÒ3à ×+Ñ+ˆŒÜ! &¨uÔ5ˆŒäŸ™×8Ñ8ÀÈKÐ8ÓXˆŒô  Ÿ,™,×,Ñ,Ø×#Ñ#Ü.¨v×/GÑ/GÓHØØ$Øð -ó 
ˆŒð ˆr#   rS  c                ó  — | j                  ||||¬«      }|d   }|d   }| j                  j                  d   r| j                  |«      }nUt	        |«      \  }	}
}}t        j                  ||	|
||z  f¬«      }t        j                  |d¬«      }| j                  |«      }t        j                  |d¬«      }| j                  |«      }|€d	n| j                  ||¬
«      }|s|f|dd	 z   }||f|z   S |S t        |||j                  ¬«      S )a+  
        labels (`tf.Tensor` or `np.ndarray` of shape `(batch_size,)`, *optional*):
            Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

        Returns:

        Examples:

        ```python
        >>> from transformers import AutoImageProcessor, TFCvtForImageClassification
        >>> import tensorflow as tf
        >>> from PIL import Image
        >>> import requests

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
        >>> model = TFCvtForImageClassification.from_pretrained("microsoft/cvt-13")

        >>> inputs = image_processor(images=image, return_tensors="tf")
        >>> outputs = model(**inputs)
        >>> logits = outputs.logits
        >>> # model predicts one of the 1000 ImageNet classes
        >>> predicted_class_idx = tf.math.argmax(logits, axis=-1)[0]
        >>> print("Predicted class:", model.config.id2label[int(predicted_class_idx)])
        ```rD  r   r   rÇ   r}   )r   r¼   r   r½   rÄ   N)ÚlabelsrÈ   r¼   )ÚlossrÈ   r   )rL  rP   rÌ   r]  r   r1   r   r¿   Úreduce_meanr^  Úhf_compute_lossr   r   )r+   rU   ra  r4  r5  r9   rV  rG  rÌ   r€   rG   r   r‚   Úsequence_output_meanrÈ   rb  ré   s                    r$   r<   z TFCvtForImageClassification.callò  s(  € ðR —(‘(ØØ!5Ø#Øð	 ó 
ˆð " !™*ˆØ˜A‘Jˆ	Ø;‰;× Ñ  Ò$Ø"Ÿn™n¨YÓ7‰Oô 7AÀÓ6QÑ3ˆJ˜ f¨eÜ Ÿj™j¨ÀÈ\Ð[aÐdiÑ[iÐ@jÔkˆOÜ Ÿl™l¨?ÀÔKˆOØ"Ÿn™n¨_Ó=ˆOä!Ÿ~™~¨oÀAÔFÐØ—‘Ð!5Ó6ˆØ~‰t¨4×+?Ñ+?ÀvÐV\Ð+?Ó+]ˆáØY ¨¨ Ñ,ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä5¸4ÈÐ^e×^sÑ^sÔtÐtr#   c                ó*  — | j                   ry d| _         t        | dd «      Mt        j                  | j                  j
                  «      5  | j                  j                  d «       d d d «       t        | dd «      gt        j                  | j                  j
                  «      5  | j                  j                  d d | j                  j                  d   g«       d d d «       t        | dd «      t        | j                  d«      rht        j                  | j                  j
                  «      5  | j                  j                  d d | j                  j                  d   g«       d d d «       y y y # 1 sw Y   ŒxY w# 1 sw Y   Œ£xY w# 1 sw Y   y xY w)NTrL  r]  rÇ   r^  rK   )rX   rY   r1   rZ   rL  rK   r[   r]  rP   rH   Úhasattrr^  r\   s     r$   r[   z!TFCvtForImageClassification.build7  sE  € Ø:Š:ØØˆŒ
Ü4˜ Ó%Ð1Ü—‘˜tŸx™xŸ}™}Ó-ñ %Ø—‘—‘˜tÔ$÷%ä4˜ dÓ+Ð7Ü—‘˜tŸ~™~×2Ñ2Ó3ñ NØ—‘×$Ñ$ d¨D°$·+±+×2GÑ2GÈÑ2KÐ%LÔM÷Nä4˜ tÓ,Ð8Üt—‘¨Ô/Ü—]‘] 4§?¡?×#7Ñ#7Ó8ñ SØ—O‘O×)Ñ)¨4°°t·{±{×7LÑ7LÈRÑ7PÐ*QÔR÷Sð Sð 0ð 9÷%ñ %ú÷Nð Nú÷Sð Sús$   ÁE0Â%6E=Ä/6F	Å0E:Å=FÆ	Fr:  )NNNNF)rU   r   ra  r   r4  r;  r5  r;  r9   r;  rc   z9TFImageClassifierOutputWithNoAttention | tuple[tf.Tensor]r>   )r   r   r   r)   r   r   rX  r   r   rY  r<   r[   r@   rA   s   @r$   r[  r[  Ø  s    ø„ õð$ Ù*Ð+AÓBÙÐ+QÐ`oÔpð *.Ø#'Ø,0Ø#'Ø %ð@uà&ð@uð !ð@uð *ð	@uð
 !ð@uð ð@uð 
Cò@uó qó Có ð@u÷DSr#   r[  )r[  rP  rK  ):r    Ú
__future__r   Úcollections.abcrv   Údataclassesr   Ú
tensorflowr1   Úmodeling_tf_outputsr   Úmodeling_tf_utilsr   r   r	   r
   r   r   r   Útf_utilsr   r   Úutilsr   r   r   r   r   Úconfiguration_cvtr   Ú
get_loggerr   ÚloggerrY  r   rM   ÚLayerr&   rC   rL   r†   r’   r–   r¡   r×   ræ   rô   rü   r  r  r(  r?  rK  ÚTFCVT_START_DOCSTRINGrX  rP  r[  Ú__all__r"   r#   r$   ú<module>rv     sg  ðñ å "ã Ý !ã å I÷÷ ñ ÷ 3÷õ õ )ð 
ˆ×	Ñ	˜HÓ	%€ð €ð ô7 Kó 7ó ð7ô(/E—L‘L×&Ñ&ô /ô(%8e—l‘l×(Ñ(ô %8ôP7G˜%Ÿ,™,×,Ñ,ô 7Gôt"M u§|¡|×'9Ñ'9ô "MôJ¨¯©×);Ñ);ô ô8 5§<¡<×#5Ñ#5ô 8ôDMJ˜Ÿ™×+Ñ+ô MJô`?e—l‘l×(Ñ(ô ?ô27.U—\‘\×'Ñ'ô 7.ôt?˜Ÿ™×*Ñ*ô ?ô4U%—,‘,×$Ñ$ô Uô:^I—‘×#Ñ#ô ^IôB]&—‘×#Ñ#ô ]&ô@:&5—<‘<×%Ñ%ô :&ðz ô-)U—\‘\×'Ñ'ó -)ó ð-)ô`%Ð,ô %ðÐ ð8Ð ñ& ØcØóô>%Ð%ó >%ó	ð>%ñB ðð óôeSÐ"6Ð8Tó eSóðeSòP Pr#   