Ë
    ¹rœh‚S  ã                   ó¸  — d Z ddlmZ ddlmZmZ ddlZddlZddlmZ ddl	m
Z
 ddlmZ dd	lmZ dd
lmZ ddlmZ ddlmZmZ ddlmZ ddlmZmZmZ ddlmZ  ej<                  e«      Z d„ Z! G d„ dejD                  «      Z#d„ Z$d-d„Z%	 d.dejD                  dejL                  dejL                  dejL                  deejL                     de'de'fd„Z( G d„ dejD                  «      Z) G d „ d!ejD                  «      Z* G d"„ d#ejD                  «      Z+ G d$„ d%e«      Z, G d&„ d'ejD                  «      Z-e G d(„ d)e«      «       Z.d*„ Z/e G d+„ d,e.«      «       Z0d,d)gZ1y)/zPyTorch Pixtral model.é    )ÚCallable)ÚOptionalÚUnionN)Únné   )ÚACT2FN)ÚFlashAttentionKwargs)ÚGradientCheckpointingLayer)ÚBaseModelOutput)Údynamic_rope_update)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚcan_return_tupleÚloggingé   )ÚPixtralVisionConfigc                 ó’  — g }| D ]¬  }|j                   dd  \  }}t        j                  t        j                  |«      t        j                  |«      d¬«      }t        j                  |d¬«      j                  dd«      j                  dd«      \  }}||z  |z   }	|j                  |	d d …df   «       Œ® t        j                  |«      S )NéþÿÿÿÚij)Úindexingéÿÿÿÿ©Údimé   r   )	ÚshapeÚtorchÚmeshgridÚarangeÚstackÚreshapeÚchunkÚappendÚcat)
Úpatch_embeds_listÚ	max_widthÚ	positionsÚpatchÚheightÚwidthÚmeshÚh_gridÚv_gridÚidss
             ú/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/transformers/models/pixtral/modeling_pixtral.pyÚposition_ids_in_meshgridr1   &   s³   € Ø€IØ"ò $ˆØŸ™ B CÐ(‰ˆÜ~‰~œeŸl™l¨6Ó2´E·L±LÀÓ4GÐRVÔWˆÜŸ™ T¨rÔ2×:Ñ:¸2¸qÓA×GÑGÈÈ2ÓN‰ˆØyÑ  6Ñ)ˆØ×Ñ˜šQ ˜T™Õ#ð$ô 9‰9YÓÐó    c                   ó\   ‡ — e Zd ZdZdˆ fd„	Z ej                  «       ed„ «       «       Zˆ xZ	S )ÚPixtralRotaryEmbeddinga  
    The key with pixtral embedding is just that you have a frequency for each pixel positions.
    If you have height x width pixels (or embedding pixels), then the frequency used for ROPE
    is given by indexing the pre_computed frequency on the width and height.

    What you output is of dimension (batch, height * width, dim) with dim the embed dim.

    This simply means that for each image hidden state, you are going to add
    a corresponding positional embedding, based on its index in the grid.
    c                 ó˜  •— t         ‰
|   «        d| _        |j                  | _        |j
                  | _        |j                  |j                  z  }d| j                  t        j                  d| j                  d«      j                  «       | j                  z  z  z  }t        j                  ||j                  ¬«      }t        j                  ||j                  ¬«      }t        j                  ||d d d…   «      j                  «       }t        j                  ||dd d…   «      j                  «       }t        j                  |d d …d d d …f   j                  d|d«      |d d d …d d …f   j                  |dd«      gd¬«      j!                  d| j                  dz  «      }	| j#                  d	t        j                  |	|	fd¬«      d
¬«       y )NÚdefaultç      ð?r   r   )Údevicer   r   r   Úinv_freqF)Ú
persistent)ÚsuperÚ__init__Ú	rope_typeÚhead_dimr   Ú
rope_thetaÚbaseÚ
image_sizeÚ
patch_sizer   r    Úfloatr8   Úouterr%   Úrepeatr"   Úregister_buffer)ÚselfÚconfigr8   Úmax_patches_per_sideÚfreqsÚhÚwÚfreqs_hÚfreqs_wr9   Ú	__class__s             €r0   r<   zPixtralRotaryEmbedding.__init__=   s}  ø€ Ü‰ÑÔØ"ˆŒØ—?‘?ˆŒØ×%Ñ%ˆŒ	Ø%×0Ñ0°F×4EÑ4EÑEÐØt—y‘y¤U§\¡\°!°T·X±X¸qÓ%A×%GÑ%GÓ%IÈDÏHÉHÑ%TÑUÑVˆäL‰LÐ-°e·l±lÔCˆÜL‰LÐ-°e·l±lÔCˆä—+‘+˜a ¡s¨ s¡Ó,×2Ñ2Ó4ˆÜ—+‘+˜a  q t¨! t¡Ó-×3Ñ3Ó5ˆÜ—9‘9àš˜4¢˜
Ñ#×*Ñ*¨1Ð.BÀAÓFØ˜ša¢˜
Ñ#×*Ñ*Ð+?ÀÀAÓFðð ô
÷ ‰'"d—h‘h !‘mÓ
$ð 	ð 	×Ñ˜Z¬¯©°H¸hÐ3GÈRÔ)PÐ]bÐÕcr2   c                 óÖ  — | j                   |   }t        |j                  j                  t        «      r/|j                  j                  dk7  r|j                  j                  nd}t        j                  |d¬«      5  |}|j                  «       }|j                  «       }d d d «       j                  |j                  ¬«      j                  |j                  ¬«      fS # 1 sw Y   ŒAxY w)NÚmpsÚcpuF)Údevice_typeÚenabled)Údtype)r9   Ú
isinstancer8   ÚtypeÚstrr   ÚautocastÚcosÚsinÚtorU   )rG   ÚxÚposition_idsrJ   rS   ÚembrZ   r[   s           r0   ÚforwardzPixtralRotaryEmbedding.forwardV   s¬   € ð —‘˜lÑ+ˆä'1°!·(±(·-±-ÄÔ'EÈ!Ï(É(Ï-É-Ð[`ÒJ`a—h‘h—m’mÐfkˆÜ^‰^¨¸UÔCñ 	ØˆCØ—'‘'“)ˆCØ—'‘'“)ˆC÷	ð
 v‰v˜AŸG™GˆvÓ$ c§f¡f°1·7±7 fÓ&;Ð;Ð;÷	ð 	ús   Á<#CÃC(©N)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__r<   r   Úno_gradr   r`   Ú__classcell__©rO   s   @r0   r4   r4   1   s2   ø„ ñ	õdð2 €U‡]]ƒ_Øñ	<ó ó ô	<r2   r4   c                 óš   — | dd| j                   d   dz  …f   }| d| j                   d   dz  d…f   }t        j                  | |fd¬«      S )z*Rotates half the hidden dims of the input..Nr   r   r   )r   r   r%   )r]   Úx1Úx2s      r0   Úrotate_halfrl   e   sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9‰9rc˜2Y BÔ'Ð'r2   c                 óž   — |j                  |«      }|j                  |«      }| |z  t        | «      |z  z   }||z  t        |«      |z  z   }||fS )aÛ  Applies Rotary Position Embedding to the query and key tensors.

    Args:
        q (`torch.Tensor`): The query tensor.
        k (`torch.Tensor`): The key tensor.
        cos (`torch.Tensor`): The cosine part of the rotary embedding.
        sin (`torch.Tensor`): The sine part of the rotary embedding.
        position_ids (`torch.Tensor`, *optional*):
            Deprecated and unused.
        unsqueeze_dim (`int`, *optional*, defaults to 1):
            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
    Returns:
        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
    )Ú	unsqueezerl   )ÚqÚkrZ   r[   r^   Úunsqueeze_dimÚq_embedÚk_embeds           r0   Úapply_rotary_pos_embrt   l   sY   € ð( -‰-˜Ó
&€CØ
-‰-˜Ó
&€CØ3‰wœ; q›>¨CÑ/Ñ0€GØ3‰wœ; q›>¨CÑ/Ñ0€GØGÐÐr2   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 óÀ  — t        j                  ||j                  dd«      «      |z  }|||z   }t        j                  j                  |dt         j                  ¬«      j                  |j                  «      }t        j                  j                  ||| j                  ¬«      }t        j                  ||«      }	|	j                  dd«      j                  «       }	|	|fS )Nr   r   )r   rU   )ÚpÚtrainingr   r   )r   ÚmatmulÚ	transposer   Ú
functionalÚsoftmaxÚfloat32r\   rU   r{   r~   Ú
contiguous)
ru   rv   rw   rx   ry   rz   r{   ÚkwargsÚattn_weightsÚattn_outputs
             r0   Úeager_attention_forwardrˆ   ˆ   sº   € ô —<‘<  s§}¡}°R¸Ó'<Ó=ÀÑG€LØÐ!Ø# nÑ4ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÓS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨¸È6Ï?É?Ð(Ó[€Lä—,‘,˜|¨UÓ3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€Kà˜Ð$Ð$r2   c                   óô   ‡ — e Zd ZdZˆ fd„Z	 	 	 d
dej                  deej                     deeej                  ej                  f      dee	   de
e   deej                  eej                     f   fd	„Zˆ xZS )ÚPixtralAttentionzI
    Multi-headed attention compatible with ALL_ATTENTION_FUNCTIONS.
    c                 óž  •— t         ‰|   «        || _        |j                  | _        |j
                  | _        | j                  | j                  z  | _        d| _        | j                  dz  | _	        d| _        |j                  | _        t        j                  | j                  | j                  d¬«      | _        t        j                  | j                  | j                  d¬«      | _        t        j                  | j                  | j                  d¬«      | _        t        j                  | j                  | j                  d¬«      | _        y )NFg      à¿©Úbias)r;   r<   rH   Úhidden_sizeÚ	embed_dimÚnum_attention_headsÚ	num_headsr>   Ú	is_causalrz   Úattention_dropoutr{   r   ÚLinearÚk_projÚv_projÚq_projÚo_proj©rG   rH   rO   s     €r0   r<   zPixtralAttention.__init__¤   sÞ   ø€ Ü‰ÑÔØˆŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØˆŒà—}‘} dÑ*ˆŒØˆŒà×/Ñ/ˆŒä—i‘i §¡°·±ÀUÔKˆŒÜ—i‘i §¡°·±ÀUÔKˆŒÜ—i‘i §¡°·±ÀUÔKˆŒÜ—i‘i §¡°·±ÀUÔKˆr2   Úhidden_statesry   Úposition_embeddingsÚoutput_attentionsr…   Úreturnc                 ó@  — |j                  «       \  }}}| j                  |«      }	| j                  |«      }
| j                  |«      }|	j	                  ||| j
                  | j                  «      j                  dd«      }	|
j	                  ||| j
                  | j                  «      j                  dd«      }
|j	                  ||| j
                  | j                  «      j                  dd«      }|\  }}t        |	|
||d¬«      \  }	}
t        }| j                  j                  dk7  rN| j                  j                  dk(  r|rt        j                  d«       nt        | j                  j                     }| j                  j                  dk(  r#|d	   j                  |j                   d
¬«      |d	<    || |	|
||f| j"                  sdn| j$                  | j&                  dœ|¤Ž\  }}|j)                  ||d«      j+                  «       }| j-                  |«      }|sd}||fS )z#Input shape: Batch x Time x Channelr   r   r   )rq   ÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.Úflash_attention_2r^   T)Únon_blockingç        )r{   rz   r   N)Úsizer—   r•   r–   Úviewr‘   r>   r€   rt   rˆ   rH   Ú_attn_implementationÚloggerÚwarning_oncer   r\   r8   r~   r{   rz   r"   r„   r˜   )rG   rš   ry   r›   rœ   r…   Ú
batch_sizeÚpatchesÚ_Úquery_statesÚ
key_statesÚvalue_statesrZ   r[   Úattention_interfacer‡   r†   s                    r0   r`   zPixtralAttention.forward¶   s  € ð "/×!3Ñ!3Ó!5Ñˆ
G˜Qà—{‘{ =Ó1ˆØ—[‘[ Ó/ˆ
Ø—{‘{ =Ó1ˆà#×(Ñ(¨°W¸d¿n¹nÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆØ—_‘_ Z°¸$¿.¹.È$Ï-É-ÓX×bÑbÐcdÐfgÓhˆ
Ø#×(Ñ(¨°W¸d¿n¹nÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆà&‰ˆˆSÜ#7¸ÀjÐRUÐWZÐjkÔ#lÑ ˆjä(?ÐØ;‰;×+Ñ+¨wÒ6Ø{‰{×/Ñ/°6Ò9Ñ>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#ð ;‰;×+Ñ+Ð/BÒBØ%+¨NÑ%;×%>Ñ%>¸}×?SÑ?SÐbfÐ%>Ó%gˆF>Ñ"á$7ØØØØØð	%
ð  $Ÿ}š}‘C°$·,±,Ø—L‘Lñ	%
ð ñ	%
Ñ!ˆ\ð "×)Ñ)¨*°g¸rÓB×MÑMÓOˆØ—k‘k +Ó.ˆá ØˆLØ˜LÐ(Ð(r2   )NNF)rb   rc   rd   re   r<   r   ÚTensorr   ÚtupleÚboolr   r	   r`   rg   rh   s   @r0   rŠ   rŠ   Ÿ   s   ø„ ñôLð* 26ØKOØ,1ñ5)à—|‘|ð5)ð ! §¡Ñ.ð5)ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð	5)ð
 $ D™>ð5)ð Ð-Ñ.ð5)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷5)r2   rŠ   c                   ó$   ‡ — e Zd Zˆ fd„Zd„ Zˆ xZS )Ú
PixtralMLPc                 óÊ  •— t         ‰|   «        || _        |j                  | _        |j                  | _        t        j                  | j                  | j                  d¬«      | _        t        j                  | j                  | j                  d¬«      | _        t        j                  | j                  | j                  d¬«      | _	        t        |j                     | _        y )NFrŒ   )r;   r<   rH   rŽ   Úintermediate_sizer   r”   Ú	gate_projÚup_projÚ	down_projr   Ú
hidden_actÚact_fnr™   s     €r0   r<   zPixtralMLP.__init__ð   s¦   ø€ Ü‰ÑÔØˆŒØ!×-Ñ-ˆÔØ!'×!9Ñ!9ˆÔÜŸ™ 4×#3Ñ#3°T×5KÑ5KÐRWÔXˆŒÜ—y‘y ×!1Ñ!1°4×3IÑ3IÐPUÔVˆŒÜŸ™ 4×#9Ñ#9¸4×;KÑ;KÐRWÔXˆŒÜ˜V×.Ñ.Ñ/ˆr2   c                 óˆ   — | j                  | j                  | j                  |«      «      | j                  |«      z  «      }|S ra   )r¹   r»   r·   r¸   )rG   r]   r¹   s      r0   r`   zPixtralMLP.forwardú   s6   € Ø—N‘N 4§;¡;¨t¯~©~¸aÓ/@Ó#AÀDÇLÁLÐQRÃOÑ#SÓTˆ	ØÐr2   )rb   rc   rd   r<   r`   rg   rh   s   @r0   r´   r´   ï   s   ø„ ô0ör2   r´   c                   ó,   ‡ — e Zd Zdˆ fd„	Zd„ Zd„ Zˆ xZS )ÚPixtralRMSNormc                 óŠ   •— t         ‰|   «        t        j                  t	        j
                  |«      «      | _        || _        y)z=
        PixtralRMSNorm is equivalent to T5LayerNorm
        N)r;   r<   r   Ú	Parameterr   ÚonesÚweightÚvariance_epsilon)rG   rŽ   ÚepsrO   s      €r0   r<   zPixtralRMSNorm.__init__  s1   ø€ ô 	‰ÑÔÜ—l‘l¤5§:¡:¨kÓ#:Ó;ˆŒØ #ˆÕr2   c                 ó"  — |j                   }|j                  t        j                  «      }|j	                  d«      j                  dd¬«      }|t        j                  || j                  z   «      z  }| j                  |j                  |«      z  S )Nr   r   T)Úkeepdim)	rU   r\   r   rƒ   ÚpowÚmeanÚrsqrtrÃ   rÂ   )rG   rš   Úinput_dtypeÚvariances       r0   r`   zPixtralRMSNorm.forward	  sy   € Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆØ ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ó>ˆØ%¬¯©°H¸t×?TÑ?TÑ4TÓ(UÑUˆØ{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r2   c                 ó^   — t        | j                  j                  «      › d| j                  › S )Nz, eps=)r±   rÂ   r   rÃ   ©rG   s    r0   Ú
extra_reprzPixtralRMSNorm.extra_repr  s*   € Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr2   )gíµ ÷Æ°>)rb   rc   rd   r<   r`   rÎ   rg   rh   s   @r0   r¾   r¾      s   ø„ õ$ò;öJr2   r¾   c                   óÊ   ‡ — e Zd Zˆ fd„Z	 	 d	dej
                  dej
                  deeej
                  ej
                  f      dee   de	e
   deej                     fd„Zˆ xZS )
ÚPixtralAttentionLayerc                 óÒ   •— t         ‰|   «        t        |j                  d¬«      | _        t        |«      | _        t        |«      | _        t        |j                  d¬«      | _	        y )Nçñhãˆµøä>©rÄ   )
r;   r<   r¾   rŽ   Úattention_normr´   Úfeed_forwardrŠ   Ú	attentionÚffn_normr™   s     €r0   r<   zPixtralAttentionLayer.__init__  sP   ø€ Ü‰ÑÔÜ,¨V×-?Ñ-?ÀTÔJˆÔÜ& vÓ.ˆÔÜ)¨&Ó1ˆŒÜ& v×'9Ñ'9¸tÔDˆr2   rš   ry   r›   rœ   r…   r   c                 óÒ   — |}| j                  |«      } | j                  d||||dœ|¤Ž\  }}||z   }|}| j                  |«      }| j                  |«      }||z   }|f}|r||fz  }|S )a=  
        Args:
            hidden_states (`torch.FloatTensor`):
                Input to the layer of shape `(batch, seq_len, embed_dim)`.
            attention_mask (`torch.FloatTensor`):
                Attention mask of shape `(batch, 1, q_len, k_v_seq_len)` where padding elements are indicated by very large negative values.
            output_attentions (`bool`, *optional*, defaults to `False`):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
        )rš   ry   r›   rœ   © )rÔ   rÖ   r×   rÕ   )	rG   rš   ry   r›   rœ   r…   Úresidualr†   Úoutputss	            r0   r`   zPixtralAttentionLayer.forward  sž   € ð$ !ˆà×+Ñ+¨MÓ:ˆØ&4 d§n¡nð '
Ø'Ø)Ø 3Ø/ñ	'
ð
 ñ'
Ñ#ˆ|ð ! =Ñ0ˆà ˆØŸ™ mÓ4ˆØ×)Ñ)¨-Ó8ˆØ  =Ñ0ˆà Ð"ˆáØ˜Ñ&ˆGØˆr2   )NN)rb   rc   rd   r<   r   r°   r   r±   r²   r   r	   ÚFloatTensorr`   rg   rh   s   @r0   rÐ   rÐ     s†   ø„ ôEð LPØ,0ñ'à—|‘|ð'ð Ÿ™ð'ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð	'ð
 $ D™>ð'ð Ð-Ñ.ð'ð 
ˆu× Ñ Ñ	!÷'r2   rÐ   c                   óÂ   ‡ — e Zd Zˆ fd„Z	 	 	 	 	 d
deej                     deeej                  ej                  f      dee   dee   dee   de	e
   deeef   fd	„Zˆ xZS )ÚPixtralTransformerc                 ó   •— t         ‰|   «        || _        t        j                  j                  «       | _        t        |j                  «      D ]&  }| j                  j                  t        |«      «       Œ( d| _        y )NF)r;   r<   rH   r   r   Ú
ModuleListÚlayersÚrangeÚnum_hidden_layersr$   rÐ   Úgradient_checkpointing)rG   rH   r«   rO   s      €r0   r<   zPixtralTransformer.__init__G  sc   ø€ Ü‰ÑÔØˆŒÜ—h‘h×)Ñ)Ó+ˆŒÜv×/Ñ/Ó0ò 	>ˆAØK‰K×ÑÔ4°VÓ<Õ=ð	>à&+ˆÕ#r2   ry   r›   rœ   Úoutput_hidden_statesÚreturn_dictr…   r   c                 ó‚  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }|rdnd}|rdnd}	|}
| j                  D ](  }|r||
fz   } ||
|f||dœ|¤Ž}|d   }
|sŒ |	|d   fz   }	Œ* |r||
fz   }|st        d„ |
||	fD «       «      S t        |
||	¬«      S )av  
        Args:
            inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
                Embeddings which serve as input to the Transformer.
            attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
                Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

                - 1 for tokens that are **not masked**,
                - 0 for tokens that are **masked**.

                [What are attention masks?](../glossary#attention-mask)
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
            output_hidden_states (`bool`, *optional*):
                Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
                for more detail.
            return_dict (`bool`, *optional*):
                Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
        NrÙ   )r›   rœ   r   r   c              3   ó&   K  — | ]	  }|€Œ|–— Œ y ­wra   rÙ   )Ú.0Úvs     r0   ú	<genexpr>z-PixtralTransformer.forward.<locals>.<genexpr>‹  s   è ø€ Òe˜qÐWXÑWdœÑeùs   ‚Š)Úlast_hidden_staterš   Ú
attentions)rH   rœ   rå   Úuse_return_dictrá   r±   r   )rG   Úinputs_embedsry   r›   rœ   rå   ræ   r…   Úencoder_statesÚall_attentionsrš   Úencoder_layerÚlayer_outputss                r0   r`   zPixtralTransformer.forwardO  s  € ð< 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆá3™¸ˆÙ0™°dˆà%ˆØ!Ÿ[™[ò 	FˆMÙ#Ø!/°=Ð2BÑ!BÙ)ØØðð %8Ø"3ñ	ð
 ñˆMð *¨!Ñ,ˆMâ Ø!/°=ÀÑ3CÐ2EÑ!E‘ð	Fñ   Ø+¨}Ð.>Ñ>ˆNáÜÑe ]°NÀNÐ$SÔeÓeÐeÜØ+¸>ÐVdô
ð 	
r2   )NNNNN)rb   rc   rd   r<   r   r   r°   r±   r²   r   r	   r   r   r`   rg   rh   s   @r0   rÞ   rÞ   F  s    ø„ ô,ð 26ØKOØ,0Ø/3Ø&*ñ?
ð ! §¡Ñ.ð?
ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð	?
ð
 $ D™>ð?
ð ' t™nð?
ð ˜d‘^ð?
ð Ð-Ñ.ð?
ð 
ˆuoÐ%Ñ	&÷?
r2   rÞ   c                   óP   — e Zd ZU eed<   dZdZdZdZdZ	dZ
dZdgZdZ	dZ
dZdZd„ Zy)ÚPixtralPreTrainedModelrH   ÚmodelÚpixel_valuesTrÐ   c                 ó¢  — | j                   j                  }t        |t        j                  t        j
                  f«      rY|j                  j                  j                  d|¬«       |j                  %|j                  j                  j                  «        y y t        |t        «      r&|j                  j                  j                  d«       y y )Nr£   )rÈ   Ústdr7   )rH   Úinitializer_rangerV   r   r”   ÚConv2drÂ   ÚdataÚnormal_r   Úzero_r¾   Úfill_)rG   ru   rù   s      r0   Ú_init_weightsz$PixtralPreTrainedModel._init_weights¡  s‘   € Øk‰k×+Ñ+ˆÜfœrŸy™y¬"¯)©)Ð4Ô5ØM‰M×Ñ×&Ñ&¨C°SÐ&Ô9Ø{‰{Ð&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤Ô/ØM‰M×Ñ×$Ñ$ SÕ)ð 0r2   N)rb   rc   rd   r   Ú__annotations__Úbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_supports_attention_backendÚ_supports_flash_attnÚ_supports_sdpaÚ_supports_flex_attnÚ_no_split_modulesr   rÙ   r2   r0   rõ   rõ   ‘  sU   … àÓØÐØ$€OØ&*Ð#Ø"&ÐØÐØ€NØÐØ0Ð1ÐØÐØ€NØÐØ"&Ðó*r2   rõ   c                 óü  — |j                   }|j                  }|j                  d   }t        j                  |«      j
                  }t        j                  ||f|||¬«      }t        j                  | «      j                  d«      }t        j                  dg| d d z   «      j                  d«      }t        ||«      D ]  \  }	}
d||	|
…|	|
…f<   Œ |d d d d …d d …f   j                  |j                  d   ddd«      }|S )Nr   )Ú
fill_valuerU   r8   r   r   )rU   r8   r   r   ÚfinfoÚminÚfullÚtensorÚcumsumÚzipÚexpand)r&   r  rU   r8   Úseq_lenÚd_minÚcausal_maskÚblock_end_idxÚblock_start_idxÚstartÚends              r0   Úgenerate_block_attention_maskr  «  sö   € ØL‰L€EØ]‰]€FØl‰l˜1‰o€GÜK‰K˜Ó×"Ñ"€EÜ—*‘*˜g wÐ/¸EÈÐW]Ô^€Kä—L‘LÐ!2Ó3×:Ñ:¸2Ó>€MÜ—l‘l A 3Ð):¸3¸BÐ)?Ñ#?Ó@×GÑGÈÓK€OÜ˜/¨=Ó9ò .‰
ˆˆsØ,-ˆE˜#I˜u S˜yÐ(Ò)ð.ð ˜d Dª!ªQÐ.Ñ/×6Ñ6°v·|±|ÀA±ÈÈ2ÈrÓR€KØÐr2   c                   óº   ‡ — e Zd ZdZˆ fd„Zd„ Zee	 	 	 	 ddej                  de
ej                     de
e   de
e   de
e   d	ee   d
eeef   fd„«       «       Zˆ xZS )ÚPixtralVisionModelÚvision_encoderc                 óz  •— t         ‰|   |«       || _        t        j                  |j
                  |j                  |j                  |j                  d¬«      | _        |j                  | _        t        |j                  d¬«      | _
        t        |«      | _        t        |«      | _        | j                  «        y )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrider   rÒ   rÓ   )r;   r<   rH   r   rû   Únum_channelsrŽ   rB   Ú
patch_convr¾   Úln_prerÞ   Útransformerr4   Úpatch_positional_embeddingÚ	post_initr™   s     €r0   r<   zPixtralVisionModel.__init__¿  s•   ø€ Ü‰Ñ˜Ô ØˆŒÜŸ)™)Ø×+Ñ+Ø×+Ñ+Ø×)Ñ)Ø×$Ñ$Øô
ˆŒð !×+Ñ+ˆŒÜ$ V×%7Ñ%7¸TÔBˆŒÜ-¨fÓ5ˆÔÜ*@ÀÓ*HˆÔ'à‰Õr2   c                 ó   — | j                   S ra   )r$  rÍ   s    r0   Úget_input_embeddingsz'PixtralVisionModel.get_input_embeddingsÐ  s   € Ø‰Ðr2   r÷   Úimage_sizesrå   rœ   ræ   r…   r   c           
      ó<  — |€|j                   \  }}	}
}|
|fg|z  }| j                  |«      }t        ||«      D cg c]1  \  }}|dd |d   | j                  z  …d |d   | j                  z  …f   ‘Œ3 }}}t	        j
                  |D cg c]  }|j                  d«      j                  ‘Œ c}d¬«      j                  d«      }| j                  |«      }t        || j                  j                  | j                  j                  z  ¬«      }||d<   | j                  ||«      }| j                  j                  dk(  rd }n7t        |D cg c]!  }|j                   d   |j                   d	   z  ‘Œ# c}|«      } | j                   |f||||d
dœ|¤ŽS c c}}w c c}w c c}w )N.r   r   r   )r'   r^   r¡   r   r   T)ry   r›   rå   rœ   ræ   )r   r$  r  rB   r   r%   ÚflattenÚTrn   r%  r1   rH   rA   r'  r¦   r  r&  )rG   r÷   r+  rå   rœ   ræ   Úargsr…   r©   r«   r*   r+   Úpatch_embedsÚembedr¤   r&   r}   r^   r›   ry   s                       r0   r`   zPixtralVisionModel.forwardÓ  sº  € ð ÐØ+7×+=Ñ+=Ñ(ˆJ˜˜6 5Ø" E˜?Ð+¨jÑ8ˆKð —‘ |Ó4ˆô  # <°Ó=÷
átð #Ð5˜$˜q™' T§_¡_Ñ4Ð5Ð7U¸$¸q¹'ÀTÇ_Á_Ñ:TÐ7UÐUÓVð
Ðñ 
ô —y‘yÐ:KÖ!L°Q !§)¡)¨A£,§.£.Ò!LÐRSÔT×^Ñ^Ð_`ÓaˆØ—{‘{ <Ó0ˆô 0Ø¨¯©×)?Ñ)?À4Ç;Á;×CYÑCYÑ)Yô
ˆð ".ˆˆ~Ñà"×=Ñ=¸lÈLÓYÐà;‰;×+Ñ+Ð/BÒBà!‰Nä:Ø4EÖF¨q—‘˜‘˜qŸw™w r™{Ó*ÒFÈóˆNð  ˆt×ÑØð
à)Ø 3Ø!5Ø/Øñ
ð ñ
ð 	
ùó3
ùò "Mùò  Gs   ¼6FÂ"FÅ&F)NNNN)rb   rc   rd   r  r<   r*  r   r   r   r°   r   r²   r   r	   r   r±   r   r`   rg   rh   s   @r0   r  r  »  sª   ø„ à(Ðôò"ð Øð /3Ø/3Ø,0Ø&*ñ1
à—l‘lð1
ð ˜eŸl™lÑ+ð1
ð ' t™nð	1
ð
 $ D™>ð1
ð ˜d‘^ð1
ð Ð-Ñ.ð1
ð 
ˆuoÐ%Ñ	&ò1
ó ó ô1
r2   r  )Nr   )r£   )2re   Úcollections.abcr   Útypingr   r   r   Útorch.utils.checkpointr   Úactivationsr   Úmodeling_flash_attention_utilsr	   Úmodeling_layersr
   Úmodeling_outputsr   Úmodeling_rope_utilsr   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   Úconfiguration_pixtralr   Ú
get_loggerrb   r§   r1   ÚModuler4   rl   rt   r°   rC   rˆ   rŠ   r´   r¾   rÐ   rÞ   rõ   r  r  Ú__all__rÙ   r2   r0   ú<module>rA     st  ðñ å $ß "ã Û Ý å !Ý BÝ 9Ý /Ý 6ß FÝ &ß >Ñ >Ý 6ð 
ˆ×	Ñ	˜HÓ	%€ò ô0<˜RŸY™Yô 0<òh(óðF ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð ó%ô.L)r—y‘yô L)ô`—‘ô ô"JR—Y‘Yô Jô(/Ð6ô /ôdH
˜Ÿ™ô H
ðV ô*˜_ó *ó ð*ò2ð  ôJ
Ð/ó J
ó ðJ
ðZ  Ð!9Ð
:r2   