Ë ¹rœh<‚ãó´—ddlZddlmZddlmZmZmZddlZddlm cm Zddlm Z ddlm Z ddlmZddlmZdd lmZdd lmZmZddlmZmZddlmZmZmZd dlmZm Z m!Z!eeGd„de«««Z"ed«Gd„de jF««Z$Gd„de jF«Z%Gd„de jF«Z&Gd„de jF«Z' d9de jFdejPdejPdejPdeejPde)d e)fd!„Z*Gd"„d#e jF«Z+Gd$„d%e«Z,Gd&„d'e jF«Z-Gd(„d)e jF«Z.eGd*„d+e««Z/ed,¬-«Gd.„d/e/««Z0ed0¬-«Gd1„d2e/««Z1d3ejPd4ejPfd5„Z2eGd6„d7e/««Z3gd8¢Z4y):éN)Ú dataclass)ÚAnyÚCallableÚOptional)Únné)ÚACT2FN)Úuse_kernel_forward_from_hub)Úcreate_causal_mask)ÚGradientCheckpointingLayer)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚModelOutputÚauto_docstringÚcan_return_tupleé)ÚAimv2ConfigÚAimv2TextConfigÚAimv2VisionConfigcó—eZdZUdZdZeejed<dZ eejed<dZ eejed<dZeejed<dZeejed<dZ eed<dZeed <d eefd„Zy)ÚAimv2Outputa loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `return_loss` is `True`): Contrastive loss for image-text similarity. logits_per_image (`torch.FloatTensor` of shape `(image_batch_size, text_batch_size)`): The scaled dot product scores between `image_embeds` and `text_embeds`. This represents the image-text similarity scores. logits_per_text (`torch.FloatTensor` of shape `(text_batch_size, image_batch_size)`): The scaled dot product scores between `text_embeds` and `image_embeds`. This represents the text-image similarity scores. text_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by applying the projection layer to the pooled output of [`Aimv2TextModel`]. image_embeds (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by applying the projection layer to the pooled output of [`Aimv2VisionModel`]. text_model_output (`BaseModelOutputWithPooling`): The output of the [`Aimv2TextModel`]. vision_model_output (`BaseModelOutputWithPooling`): The output of the [`Aimv2VisionModel`]. NÚlossÚlogits_per_imageÚlogits_per_textÚtext_embedsÚimage_embedsÚtext_model_outputÚvision_model_outputÚreturncóH‡—tˆfd„‰j«D««S)Nc3ód•K—|]'}|dvr‰|nt‰|«j«–—Œ)yw))rr N)ÚgetattrÚto_tuple)Ú.0ÚkÚselfs €ú{/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/transformers/models/aimv2/modeling_aimv2.pyú z'Aimv2Output.to_tuple..Hs=øèø€ò àðÐ LÑLˆDŠGÔRYÐZ^Ð`aÓRb×RkÑRkÓRmÓmñ ùsƒ-0)ÚtupleÚkeys©r(s`r)r%zAimv2Output.to_tupleGs#ø€Üó à—Y‘Y“[ô ó ð ó)Ú__name__Ú __module__Ú__qualname__Ú__doc__rrÚtorchÚFloatTensorÚ__annotations__rrrrrrr r+rr%©r.r)rr)s›…ñð&)-€Dˆ(5×$Ñ$Ñ %Ó,Ø48Ðh˜u×0Ñ0Ñ1Ó8Ø37€OX˜e×/Ñ/Ñ0Ó7Ø/3€K˜%×+Ñ+Ñ,Ó3Ø04€L(˜5×,Ñ,Ñ-Ó4Ø48ÐÐ1Ó8Ø6:ÐÐ3Ó:ð ˜% ™*ô r.rÚRMSNormcó,‡—eZdZdˆfd„ Zd„Zd„ZˆxZS)ÚAimv2RMSNormcóŠ•—t‰|«tjt j |««|_||_y)z; Aimv2RMSNorm is equivalent to T5LayerNorm N)ÚsuperÚ__init__rÚ Parameterr3ÚonesÚweightÚvariance_epsilon)r(Úhidden_sizeÚepsÚ __class__s €r)r<zAimv2RMSNorm.__init__Ps1ø€ô ‰ÑÔÜ—l‘l¤5§:¡:¨kÓ#:Ó;ˆŒØ #ˆÕr.có"—|j}|jtj«}|j d«jdd¬«}|tj||jz«z}|j|j|«zS)NééÿÿÿÿT)Úkeepdim) ÚdtypeÚtor3Úfloat32ÚpowÚmeanÚrsqrtr@r?)r(Ú hidden_statesÚinput_dtypeÚvariances r)ÚforwardzAimv2RMSNorm.forwardXsy€Ø#×)Ñ)ˆØ%×(Ñ(¬¯©Ó7ˆ Ø ×$Ñ$ QÓ'×,Ñ,¨R¸Ð,Ó>ˆØ%¬¯©°H¸t×?TÑ?TÑ4TÓ(UÑUˆ Ø{‰{˜]×-Ñ-¨kÓ:Ñ:Ð:r.có^—t|jj«›d|j›S)Nz, eps=)r+r?Úshaper@r-s r)Ú extra_reprzAimv2RMSNorm.extra_repr_s*€Ü˜Ÿ™×)Ñ)Ó*Ð+¨6°$×2GÑ2GÐ1HÐIÐIr.)gíµ ÷Æ°>)r/r0r1r<rQrTÚ __classcell__©rCs@r)r9r9Nsø„õ$ò;öJr.r9có$‡—eZdZˆfd„Zd„ZˆxZS)ÚAimv2MLPcó•—t‰|«||_|j|_|j|_tj|j|j|j¬«|_tj|j|j|j¬«|_ tj|j|j|j¬«|_ t|j|_ y)N©Úbias)r;r<ÚconfigrAÚintermediate_sizerÚLinearÚmlp_biasÚ gate_projÚup_projÚ down_projr Ú hidden_actÚact_fn©r(r\rCs €r)r<zAimv2MLP.__init__ds¸ø€Ü ‰ÑÔØˆŒØ!×-Ñ-ˆÔØ!'×!9Ñ!9ˆÔÜŸ™ 4×#3Ñ#3°T×5KÑ5KÐRX×RaÑRaÔbˆŒÜ—y‘y ×!1Ñ!1°4×3IÑ3IÐPV×P_ÑP_Ô`ˆŒÜŸ™ 4×#9Ñ#9¸4×;KÑ;KÐRX×RaÑRaÔbˆŒÜ˜V×.Ñ.Ñ/ˆr.cóˆ—|j|j|j|««|j|«z«}|S©N)rbrdr`ra)r(Úxrbs r)rQzAimv2MLP.forwardns6€Ø—N‘N 4§;¡;¨t¯~©~¸aÓ/@Ó#AÀDÇLÁLÐQRÃOÑ#SÓTˆ ØÐr.)r/r0r1r<rQrUrVs@r)rXrXcs ø„ô0ör.rXcó¤‡—eZdZdefˆfd„Zedddejfdejfd„«Z dejdejfd „Z ˆxZS) ÚAimv2VisionEmbeddingsr\cóB•—t‰|«||_|j|_t j |j|j|j|j¬«|_t|j|j«|_|j|jzdz}|jjs%t j||j«|_|j!dt#j$|«j'd«d¬«y)N)Úkernel_sizeÚstriderEÚposition_ids©rrFF©Ú persistent)r;r<r\Ú patch_sizerÚConv2dÚnum_channelsrAÚpatch_embedr9Úrms_norm_epsÚrms_normÚ image_sizeÚ is_nativeÚ EmbeddingÚposition_embeddingÚregister_bufferr3ÚarangeÚexpand)r(r\Únum_patchesrCs €r)r<zAimv2VisionEmbeddings.__init__tsÜø€Ü ‰ÑÔØˆŒØ ×+Ñ+ˆŒÜŸ9™9Ø×Ñ ×!3Ñ!3À×ARÑARÐ[a×[lÑ[lô ˆÔô% V×%7Ñ%7¸×9LÑ9LÓMˆŒ à×(Ñ(¨F×,=Ñ,=Ñ=À!ÑCˆØ{‰{×$Ò$Ü&(§l¡l°;À×@RÑ@RÓ&SˆDÔ#Ø×Ñ˜^¬U¯\©\¸+Ó-F×-MÑ-MÈgÓ-VÐchÐÕir.égˆÃ@Úcpur!có:—tjt|«||¬«}tjt|«||¬«}tj||d¬«\}}|dz}tj|||¬«|z} d|| zz} |j «d| ddd…fz} |j «d| ddd…fz}tj | j «| j«|j «|j«gd¬«ddd…dd…fS) N©rHÚdeviceÚxy)Úindexingégð?).Nr©Údim)r3r}ÚintÚmeshgridÚflattenÚconcatÚsinÚcos)ÚheightÚwidthÚ embed_dimÚtemperaturer„rHÚgrid_wÚgrid_hÚpos_dimÚomegaÚout_hÚout_ws r)Ú"build_2d_sincos_position_embeddingz8Aimv2VisionEmbeddings.build_2d_sincos_position_embedding‚só€ô—‘œc %›j°¸fÔEˆÜ—‘œc &›k°¸vÔFˆÜŸ™¨°ÀÔF‰ˆà˜q‘.ˆÜ—‘˜W¨E¸&ÔAÀGÑKˆØ{ EÑ)Ñ*ˆà—‘Ó Ñ+¨e°Dº!°G©nÑ<ˆØ—‘Ó Ñ+¨e°Dº!°G©nÑ<ˆä|‰|˜UŸY™Y›[¨%¯)©)«+°u·y±y³{ÀEÇIÁIÃKÐPÐVWÔXÐY]Ò_`ÒbcÐYcÑdÐdr.Úpixel_valuescóÐ—|j«\}}}}|j|«jd«jdd«}|j |«}|j jrY|j||jz||jz|j j|j|j¬«}n|j|j«}||z}|S)NrEr)r’r„rH)ÚsizerurŒÚ transposerwr\ryršrrrAr„rHr{rn)r(r›Ú_rr‘rNÚ pos_embeds r)rQzAimv2VisionEmbeddings.forward“sÑ€Ø*×/Ñ/Ó1Ñˆˆ1ˆfeØ×(Ñ(¨Ó6×>Ñ>¸qÓA×KÑKÈAÈqÓQˆ ØŸ ™ mÓ4ˆ à;‰;× Ò Ø×?Ñ?Ø˜$Ÿ/™/Ñ)Ø˜Ÿ™Ñ(ØŸ+™+×1Ñ1Ø$×+Ñ+Ø#×)Ñ)ð@ó‰Ið×/Ñ/°×0AÑ0AÓBˆIà%¨ Ñ1ˆ ØÐr.)r/r0r1rr<Ústaticmethodr3rJÚTensorršrQrUrVs@r)rjrjss]ø„ðjÐ0õjðà!$°'À%ÈuÏ}É}ñeà ‰òeóðeð E§L¡Lð°U·\±\÷r.rjc ó¦‡—eZdZdefˆfd„Z ddeejdeejdeejdejfd„Z ˆxZS) ÚAimv2TextEmbeddingsr\cóN•—t‰|«|j}tj|j |«|_tj|j|«|_|jdtj|j«jd«d¬«y)NrnroFrp) r;r<rArrzÚ vocab_sizeÚtoken_embeddingÚmax_position_embeddingsr{r|r3r}r~)r(r\r’rCs €r)r<zAimv2TextEmbeddings.__init__¨sƒø€Ü ‰ÑÔØ×&Ñ&ˆ ä!Ÿ|™|¨F×,=Ñ,=¸yÓIˆÔÜ"$§,¡,¨v×/MÑ/MÈyÓ"YˆÔð ×ÑØœEŸL™L¨×)GÑ)GÓH×OÑOÐPWÓXÐejð õ r.Ú input_idsrnÚ inputs_embedsr!có8—||jdn|jd}|jjjd}||kDrtd|›d|›«‚|€|jdd…d|…f}|€|j|«}|j|«}||z}|S)NrFéþÿÿÿrzRSequence length must be less than max_position_embeddings (got `sequence length`: z and max_position_embeddings: )rSr{r?Ú ValueErrorrnr§)r(r©rnrªÚ seq_lengthÚmax_position_embeddingÚposition_embeddingsÚ embeddingss r)rQzAimv2TextEmbeddings.forward´sÇ€ð-6Ð,AY—_‘_ RÒ(À}×GZÑGZÐ[]ÑG^ˆ Ø!%×!8Ñ!8×!?Ñ!?×!EÑ!EÀaÑ!HÐàÐ.Ò.ÜØdØ,Ð<Ð=SÐ™>Ñ)¨T¯^©^Ò;ÜØMÈdÏnÉnÐM]ð^Ø—N‘NÐ# 2ð'óð ð—]‘] DÑ(ˆŒ Ø×/Ñ/ˆŒØˆŒÜ—i‘i §¡°·±ÀVÇ_Á_ÔUˆŒÜ—i‘i §¡°·±ÀVÇ_Á_ÔUˆŒÜ—i‘i §¡°·±ÀVÇ_Á_ÔUˆŒÜŸ ™ $§.¡.°$·.±.ÀvÇÁÔWˆ r.rNr¸r!c ó:—|j\}}}|j|«}|j|«}|j|«} |j |||j |j«jdd«}|j |||j |j«jdd«}| j |||j |j«jdd«} t} |jjdk7rt|jj} | |||| ||j|j|jsdn|j¬«\}}|j!|||«j#«}|j%|«}||fS)z#Input shape: Batch x Time x ChannelrrEÚeagerç)rÎr¹rº)rSrÒrÐrÑÚviewrÊrËržrÅr\Ú_attn_implementationrrÎrÌr½rºÚreshaperÁrÓ) r(rNr¸rÂÚ batch_sizer®r’Úqueriesr,ÚvaluesÚattention_interfacerÄrÃs r)rQzAimv2Attention.forwardüsa€ð-:×,?Ñ,?Ñ)ˆ J à—+‘+˜mÓ,ˆØ{‰{˜=Ó)ˆØ—‘˜]Ó+ˆà—,‘,˜z¨:°t·~±~ÀtÇ}Á}ÓU×_Ñ_Ð`aÐcdÓeˆØy‰y˜ Z°·±ÀÇÁÓO×YÑYÐZ[Ð]^Ó_ˆØ—‘˜Z¨°T·^±^ÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓcˆä(?ÐØ;‰;×+Ñ+¨wÒ6Ü"9¸$¿+¹+×:ZÑ:ZÑ"[Ðá$7ØØØØØØ—n‘nØ—J‘JØ#Ÿ}š}‘C°$·,±,ô % Ñ!ˆ\ð"×)Ñ)¨*°jÀ)ÓL×WÑWÓYˆØ—m‘m KÓ0ˆà˜LÐ(Ð(r.rg)r/r0r1r2r<r3r¢rr+rQrUrVs@r)rÇrÇæsVø„ÙGôXð,26ñ$)à—|‘|ð$)ð! §¡Ñ.ð$)ð ˆu|‰|˜X e§l¡lÑ3Ð3Ñ 4÷$)r.rÇcó¨‡—eZdZdefˆfd„Z ddejdeejdeede ejejffd„Z ˆxZS) ÚAimv2EncoderLayerr\cóö•—t‰|«t|«|_t |«|_t |j|j«|_ t |j|j«|_ yrg)r;r<rÇÚ attentionrXÚffnr9rArvÚ rms_norm1Ú rms_norm2res €r)r<zAimv2EncoderLayer.__init__$sZø€Ü ‰ÑÔÜ'¨Ó/ˆŒÜ˜FÓ#ˆŒÜ% f×&8Ñ&8¸&×:MÑ:MÓNˆŒÜ% f×&8Ñ&8¸&×:MÑ:MÓNˆr.rNr¸Úoutput_attentionsr!có¼—|j|«}|j||¬«\}}||z}|j|«}|j|«}||z}|r||fS|dfS)N)rNr¸)rãrárärâ)r(rNr¸råÚnorm_hidden_statesrÄrÃÚ mlp_outputs r)rQzAimv2EncoderLayer.forward+sv€ð"Ÿ^™^¨MÓ:ÐØ$(§N¡NÐASÐdr NÓ$sÑ!ˆ\à%¨Ñ3ˆ Ø!Ÿ^™^¨MÓ:ÐØ—X‘XÐ0Ó1ˆ à%¨ Ñ2ˆ Ù0A ˜|Ð,Ð\È ÐW[ÐG\Ð\r.©NF)r/r0r1rr<r3r¢rÚboolr+rQrUrVs@r)rßrß#smø„ðOÐ0õOð26Ø,1ñ ]à—|‘|ð]ð! §¡Ñ.ð]ð$ D™>ð ]ð ˆu|‰|˜UŸ\™\Ð)Ñ *÷]r.rßc óx‡—eZdZdZdefˆfd„Ze d deejdee dee defd„«ZˆxZ S) ÚAimv2Encoderz¯ Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a [`Aimv2EncoderLayer`]. Args: config: Aimv2Config r\cóÐ•—t‰|«||_tjt|j«Dcgc] }t|«‘Œc}«|_d|_ ycc}wré) r;r<r\rÚ ModuleListÚrangeÚnum_hidden_layersrßÚlayersÚgradient_checkpointing)r(r\rŸrCs €r)r<zAimv2Encoder.__init__EsOø€Ü ‰ÑÔØˆŒÜ—m‘mÌÈf×NfÑNfÓHgÖ$hÀ1Ô%6°vÕ%>Ò$hÓiˆŒØ&+ˆÕ#ùò%is½A#r¸råÚoutput_hidden_statesr!có—||n|jj}||n|jj}|rdnd}|rdnd}|}|jD]&}|r||fz}||||¬«} | d}|sŒ|| dfz}Œ(|r||fz}t |||¬«S)ad Args: inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`): Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This is useful if you want more control over how to convert `input_ids` indices into associated vectors than the model's internal embedding lookup matrix. attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*): Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`: - 1 for tokens that are **not masked**, - 0 for tokens that are **masked**. [What are attention masks?](../glossary#attention-mask) output_attentions (`bool`, *optional*): Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned tensors for more detail. output_hidden_states (`bool`, *optional*): Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for more detail. return_dict (`bool`, *optional*): Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple. Nr6)rårr)Úlast_hidden_staterNÚ attentions)r\rårórñr ) r(rªr¸råróÚencoder_statesÚall_attentionsrNÚ encoder_layerÚ layer_outputss r)rQzAimv2Encoder.forwardLsÔ€ð<2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð ñ 4™¸ˆÙ0™°dˆà%ˆ Ø!Ÿ[™[ò FˆMÙ#Ø!/°=Ð2BÑ!Bá)ØØØ"3ôˆMð*¨!Ñ,ˆMâ Ø!/°=ÀÑ3CÐ2EÑ!E‘ð Fñ Ø+¨}Ð.>Ñ>ˆNäØ+Ø(Ø%ô ð r.r²)r/r0r1r2rr<rrr3r¢rêr rQrUrVs@r)rìrì<slø„ñð,˜{õ,ðð26Ø,0Ø/3ñ< ð! §¡Ñ.ð< ð$ D™>ð < ð ' t™nð< ð ò < óô< r.rìcó\‡—eZdZdefˆfd„Zdejdejfd„ZˆxZS)ÚAimv2AttentionPoolingHeadr\có&•—t‰|«|j|_|j|_tj|j|j|j¬«|_tj|j|j|j¬«|_ tjtjdd|j««|_ tj|j|jd¬«|_y)NrZrT)r;r<rArÉrÊrr^rÏrÐrÑr=r3ÚzerosÚ cls_tokenÚoutput_projres €r)r<z"Aimv2AttentionPoolingHead.__init__sµø€Ü ‰ÑÔØ!×-Ñ-ˆÔØ×3Ñ3ˆŒä—i‘i × 0Ñ 0°$×2BÑ2BÈÏÉÔYˆŒÜ—i‘i × 0Ñ 0°$×2BÑ2BÈÏÉÔYˆŒäŸ™¤e§k¡k°!°Q¸×8HÑ8HÓ&IÓJˆŒÜŸ9™9 T×%5Ñ%5°t×7GÑ7GÈdÔSˆÕr.rNr!cóÐ—|j\}}}|jj|dd«}|j|«j |||j ||j z«}|j |«j |||j ||j z«}|j |d|j ||j z«}|jdddd«}|jdddd«}|jdddd«}tj|||«} | jdd«j |d|«} | jd¬«} |j| «} | S)NrFrrrErrˆ) rSrÿr~rÐrÙrÊrÑÚpermuteÚFÚscaled_dot_product_attentionržrLr)r(rNrÚÚseq_lenÚ hidden_dimrÿr¶r·rµrÄÚoutputs r)rQz!Aimv2AttentionPoolingHead.forward˜sH€Ø*7×*=Ñ*=Ñ'ˆ G˜Zà—N‘N×)Ñ)¨*°b¸"Ó=ˆ àk‰k˜-Ó(×0Ñ0°¸WÀdÇnÁnÐV`Ðdh×drÑdrÑVrÓsˆØ—‘˜MÓ*×2Ñ2°:¸wÈÏÉÐXbÐfj×ftÑftÑXtÓuˆØ×!Ñ! *¨a°·±ÀÈtÏ~É~ÑA]Ó^ˆàk‰k˜!˜Q 1Ó%ˆØ— ‘ ˜a A qÓ)ˆØ— ‘ ˜a A qÓ)ˆä×4Ñ4°U¸CÀÓGˆà!×+Ñ+¨A¨qÓ1×9Ñ9¸*ÀaÈÓTˆØ!×&Ñ&¨1Ð&Ó-ˆà×!Ñ! +Ó.ˆØˆ r.) r/r0r1rr<r3r¢rQrUrVs@r)rürüŒs-ø„ð TÐ0õ Tð U§\¡\ð°e·l±l÷r.rücóJ‡—eZdZUdZeed<dZdZgd¢ZdZ dZ dZˆfd„ZˆxZ S)ÚAimv2PreTrainedModelzÏ An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained models. The model is only intended for inference and doesn't support finetuning. r\Úaimv2T)rßrürjr¤có•—t‰||«t|d«r^t|jt j«r9|jjjtjd««yyt|t«r<|jjjd|jj¬«yy)NÚlogit_scaleg$I’$I’,@rÖ)rLÚstd)r;Ú _init_weightsÚhasattrÚ isinstancerrr=ÚdataÚfill_ÚmathÚlogrürÿÚnormal_r\Úinitializer_range)r(r´rCs €r)rz"Aimv2PreTrainedModel._init_weightsÂsø€Ü ‰Ñ˜fÔ%Ü6˜=Ô)Ü˜&×,Ñ,¬b¯l©lÔ;Ø×"Ñ"×'Ñ'×-Ñ-¬d¯h©h°xÓ.@ÕAð<ä ˜Ô 9Ô :Ø×Ñ×!Ñ!×)Ñ)¨s¸¿¹×8UÑ8UÐ)ÕVð;r.)r/r0r1r2rr5Úbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attnÚ_supports_flex_attnrrUrVs@r)r r ®sCø…ñð ÓØÐØ&*Ð#òÐð€NØÐØÐ÷WðWr.r zL The Vision model from AIMv2 without any head or projection on top. )Úcustom_introcó®‡—eZdZUeed<dZdefˆfd„Zdejfd„Z e e d dee jdeedeedefd „««ZˆxZS)ÚAimv2VisionModelr\r›có6•—t‰||«||_t|«|_t|«|_t|j|j«|_ |j|_|jrt|«|_ |j«yrg)r;r<r\rjr±rìÚencoderr9rArvrwÚuse_headrüÚheadÚ post_initres €r)r<zAimv2VisionModel.__init__Ôsqø€Ü ‰Ñ˜Ô ØˆŒÜ/°Ó7ˆŒÜ# FÓ+ˆŒä$ V×%7Ñ%7¸×9LÑ9LÓMˆŒ àŸ™ˆŒ Ø=Š=Ü1°&Ó9ˆDŒIà‰Õr.r!có.—|jjSrg)r±rur-s r)Úget_input_embeddingsz%Aimv2VisionModel.get_input_embeddingsâs€Ø‰×*Ñ*Ð*r.r¸rårócód—||n|jj}||n|jj}|j|«}|j |||¬«}|d}|j|«}|jr|j|«nd}t|||j|j¬«S)aâ Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Siglip2VisionModel >>> model = Aimv2VisionModel.from_pretrained("apple/aimv2-large-patch14-native") >>> processor = AutoProcessor.from_pretrained("apple/aimv2-large-patch14-native") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> last_hidden_state = outputs.last_hidden_state >>> pooled_output = outputs.pooler_output # pooled features ```N)rªrårór©rõÚ pooler_outputrNrö)r\rårór±r!rwr"r#rrNrö) r(r›r¸rårórNÚencoder_outputsrõr)s r)rQzAimv2VisionModel.forwardås¿€ð:2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð ðŸ™¨Ó5ˆ àŸ,™,Ø'Ø/Ø!5ð'ó ˆð,¨AÑ.ÐØ ŸM™MÐ*;Ó<Ðà8<¿ º ˜Ÿ ™ Ð"3Ô4È4ˆ ä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ô ð r.r²)r/r0r1rr5Úmain_input_namer<rÚModuler&rrrr3r¢rêrrQrUrVs@r)rrËsø…ð ÓØ$€OðÐ0õð+ b§i¡ió+ðØð26Ø,0Ø/3ñ2 ð! §¡Ñ.ð2 ð$ D™>ð 2 ð ' t™nð2 ð $ò 2 óóô2 r.rzJ The text model from AIMv2 without any head or projection on top. có¨‡—eZdZdZdefˆfd„Zdejfd„Zd„Z e e ddee jdeed eedefd „««ZˆxZS)ÚAimv2TextModelr©r\cóþ•—t‰||«||_t|«|_t|«|_t|j|j«|_ |j|_|j«yrg) r;r<r\r¤r±rìr!r9rArvrwÚeos_token_idr$res €r)r<zAimv2TextModel.__init__$saø€Ü ‰Ñ˜Ô ØˆŒÜ-¨fÓ5ˆŒÜ# FÓ+ˆŒÜ$ V×%7Ñ%7¸×9LÑ9LÓMˆŒ à"×/Ñ/ˆÔà‰Õr.r!có.—|jjSrg©r±r§r-s r)r&z#Aimv2TextModel.get_input_embeddings/s€Ø‰×.Ñ.Ð.r.có&—||j_yrgr2)r(r·s r)Úset_input_embeddingsz#Aimv2TextModel.set_input_embeddings2s€Ø*/ˆ‰Õ'r.r¸rårócó2—||n|jj}||n|jj}|j|«}|j\}}}tj|t j|j¬«} | jd«j|d«} |t|j|| || d¬«}|j||||¬«}|d}|j|«}|tj|jd|j¬«|jt j|j¬«|j k(j«j#d¬«f} t%|| |j&|j(¬«S) NrƒrrF)r\Úinput_embedsrnr¸Úcache_positionÚpast_key_values)rªr¸råró)r„rˆr()r\rårór±rSr3r}Úlongr„Ú unsqueezer~rr!rwrIrŠr0ÚargmaxrrNrö)r(r©r¸rårórNrÚrrŸr7rnr*rõÚ pooled_outputs r)rQzAimv2TextModel.forward5s‘€ð2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð ðŸ™¨ Ó2ˆ Ø!.×!4Ñ!4Ñˆ G˜QäŸ™ g´U·Z±ZÈ ×H\ÑH\Ô]ˆØ%×/Ñ/°Ó2×9Ñ9¸*ÀbÓIˆØÐ%Ü/Ø—{‘{Ø*Ø)Ø-Ø-Ø $ô ˆNðŸ,™,Ø'Ø)Ø/Ø!5ð 'ó ˆð,¨AÑ.ÐØ ŸM™MÐ*;Ó<Ðð*ÜL‰LÐ*×0Ñ0°Ñ3Ðð 0 ð ' t™nð0 ð $ò 0 óóô0 r.r.Útensorr!cóŽ—tj|d«}tj|dd¬«}tj|d«}|S)z½ This method is equivalent to tensor.norm(p=2, dim=-1, keepdim=True) and used to make model `executorch` exportable. See issue https://github.com/pytorch/executorch/issues/3566 rErFT)r‰rGgà?)r3rKÚsum)r=Ú square_tensorÚ sum_tensorÚ normed_tensors r)Ú_get_vector_normrCjs<€ô —I‘I˜f aÓ(€MÜ—‘˜=¨b¸$Ô?€JÜ—I‘I˜j¨#Ó.€MØÐr.cóà‡—eZdZUeed<gd¢Zdefˆfd„Ze ddee jdee jdee jdeedeed e jfd „«Z e ddee jdeedeeded e jf d „«Zee ddee j dee jdee jdeedeed efd„««ZˆxZS)Ú Aimv2Modelr\)r¤rßrjcóð•—t‰||«|j|_|jj|_|jj|_tj|j«|_ tj|j«|_tj|j |jd¬«|_tj|j|jd¬«|_tj"t%j&|j(j*««|_t/j0|j2«|_|j7«y)NFrZ)r;r<Úprojection_dimÚ vision_configrAÚvision_embed_dimÚtext_configÚtext_embed_dimrÚ_from_configÚvision_modelr.Ú text_modelrr^Úvisual_projectionÚtext_projectionr=r3r=r\Úlogit_scale_init_valuerrrÚmax_logit_scaleÚmax_log_logit_scaler$res €r)r<zAimv2Model.__init__zsø€Ü ‰Ñ˜Ô à$×3Ñ3ˆÔØ &× 4Ñ 4× @Ñ @ˆÔØ$×0Ñ0×<Ñ<ˆÔä,×9Ñ9¸&×:NÑ:NÓOˆÔÜ(×5Ñ5°f×6HÑ6HÓIˆŒä!#§¡¨4×+@Ñ+@À$×BUÑBUÐ\aÔ!bˆÔÜ!Ÿy™y¨×)<Ñ)<¸d×>QÑ>QÐX]Ô^ˆÔäŸ<™<¬¯©°T·[±[×5WÑ5WÓ(XÓYˆÔÜ#'§8¡8¨F×,BÑ,BÓ#CˆÔ à‰Õr.r©r¸rnrårór!cóÔ—||n|jj}||n|jj}|j|||||¬«}|j}|j|«}|S)aŸ Returns: text_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The text embeddings obtained by applying the projection layer to the pooled output of [`Aimv2TextModel`]. Examples: ```python >>> from transformers import AutoTokenizer, Aimv2Model >>> model = Aimv2Model.from_pretrained("openai/aimv2-vit-base-patch32") >>> tokenizer = AutoTokenizer.from_pretrained("openai/aimv2-vit-base-patch32") >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt") >>> text_features = model.get_text_features(**inputs) ```)r©r¸rnråró)r\rårórNr)rP) r(r©r¸rnråróÚtext_outputsr<Ú text_featuress r)Úget_text_featureszAimv2Model.get_text_featuresŒs‚€ð42CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð ð48·?±?ØØ)Ø%Ø/Ø!5ð4Có4 ˆð%×2Ñ2ˆ Ø×,Ñ,¨]Ó;ˆ àÐr.r›Úinterpolate_pos_encodingcóÒ—||n|jj}||n|jj}|j||||¬«}|j}|j|«}|S)aI Returns: image_features (`torch.FloatTensor` of shape `(batch_size, output_dim`): The image embeddings obtained by applying the projection layer to the pooled output of [`Aimv2VisionModel`]. Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Aimv2Model >>> model = Aimv2Model.from_pretrained("openai/aimv2-vit-base-patch32") >>> processor = AutoProcessor.from_pretrained("openai/aimv2-vit-base-patch32") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> image_features = model.get_image_features(**inputs) ```)r›rårórX)r\rårórMr)rO)r(r›rårórXÚvision_outputsr<Úimage_featuress r)Úget_image_featureszAimv2Model.get_image_features¸s€ð>2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð ð6:×5FÑ5FØ%Ø/Ø!5Ø%=ð 6Gó6 ˆð'×4Ñ4ˆ Ø×/Ñ/° Ó>ˆàÐr.cóp—||n|jj}||n|jj}|j|||¬«}|j ||||¬«}|j }|j |«}|j } |j| «} |t|«z}| t| «z} |jjd|j«j«j| j«} | | z|j«z}|j«}t!||| |||¬«S)aƒ Examples: ```python >>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Aimv2Model >>> model = Aimv2Model.from_pretrained("apple/aimv2-large-patch14-224-lit") >>> processor = AutoProcessor.from_pretrained("apple/aimv2-large-patch14-224-lit") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor( ... text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True ... ) >>> outputs = model(**inputs) >>> logits_per_image = outputs.logits_per_image # this is the image-text similarity score >>> probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities ```)r›råró)r©r¸rårórÖ)rrrrrr )r\rårórMrNr)rOrPrCrÚclamprSÚexprIr„Útr) r(r©r›r¸rårórZrUrrrrrs r)rQzAimv2Model.forwardèsU€ðB2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð ð6:×5FÑ5FØ%Ø/Ø!5ð6Gó6 ˆð48·?±?ØØ)Ø/Ø!5ð 4Có4 ˆð&×3Ñ3ˆØ×-Ñ-¨lÓ;ˆà"×0Ñ0ˆØ×*Ñ*¨;Ó7ˆð$Ô&6°|Ó&DÑDˆØ!Ô$4°[Ó$AÑAˆà×&Ñ&×,Ñ,¨S°$×2JÑ2JÓK×OÑOÓQ×TÑTÐU`×UgÑUgÓhˆØ&¨Ñ4¸¿¹Ó8HÑHˆØ*×,Ñ,Ó.ÐäØ-Ø+Ø#Ø%Ø*Ø .ô ð r.)NNNNN)NNNF)r/r0r1rr5rr<rrr3r¢rêr4rWr\rr³rrQrUrVs@r)rErEus¦ø…àÓÚ]Ðð˜{õð$ð-1Ø15Ø/3Ø,0Ø/3ñ )à˜EŸL™LÑ)ð)ð! §¡Ñ.ð)ð˜uŸ|™|Ñ,ð )ð $ D™>ð)ð' t™nð )ð × Ñ ò)óð)ðVð59Ø,0Ø/3Ø).ñ-à˜u×0Ñ0Ñ1ð-ð$ D™>ð-ð' t™nð -ð #'ð-ð × Ñ ò -óð-ð^Øð15Ø48Ø15Ø,0Ø/3ñ F à˜E×,Ñ,Ñ-ðF ð˜u×0Ñ0Ñ1ðF ð! §¡Ñ.ð F ð $ D™>ðF ð' t™nð F ð òF óóôF r.rE)rrEr r.)rÖ)5rÚdataclassesrÚtypingrrrr3Útorch.nn.functionalrr¿rÚactivationsr Úintegrationsr Ú masking_utilsrÚmodeling_layersrÚmodeling_outputsr rÚmodeling_utilsrrÚutilsrrrÚconfiguration_aimv2rrrrr,r9rXrjr¤r¢ÚfloatrÅrÇrßrìrür rr.rCrEÚ__all__r6r.r)úrnsðó.Ý!ß*Ñ*ãßÐÝå!Ý7Ý/Ý9ßKßFßBÑBßPÑPðØô +ó óóð ñF˜YÓ'ôJ2—9‘9óJó(ðJô( ˆry‰yô ô 1˜BŸI™Iô1ôh%˜"Ÿ)™)ô%ð^ñ%ØI‰Ið%à<‰<ð%ð ‰ð%ð<‰<ð %ð ˜UŸ\™\Ñ*ð%ðð %ðó%ô.:)R—Y‘Yô:)ôz]Ð2ô]ô2M 2—9‘9ôM ô` § ¡ ôðDôW˜?óWóðWñ8ðôô I Ð+óI óð I ñXðôô F Ð)óF óð F ðR˜UŸ\™\ð¨e¯l©lóðôz Ð%óz óðz òzWr.