Ë
    ºrœh0  ã                   ó<  — d dl mZmZ d dlZd dlmZ d dlmZmZmZm	Z	m
Z
 ddlmZ ddlmZ ddlmZmZ d	d
lmZ  ej(                  e«      Z G d„ de	«      Z G d„ de«      Z G d„ dej2                  «      Z G d„ de
«      Z G d„ de«      Z G d„ de«      Zg d¢Zy)é    )ÚOptionalÚUnionN)Únn)ÚLlavaCausalLMOutputWithPastÚLlavaForConditionalGenerationÚ
LlavaModelÚLlavaModelOutputWithPastÚLlavaPreTrainedModelé   )ÚACT2FN)ÚCache)Úauto_docstringÚloggingé   )ÚVipLlavaConfigc                   ó   — e Zd Zy)ÚVipLlavaModelOutputWithPastN©Ú__name__Ú
__module__Ú__qualname__© ó    ú€/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/transformers/models/vipllava/modular_vipllava.pyr   r   &   ó   „ Ør   r   c                   ó   — e Zd Zy)ÚVipLlavaCausalLMOutputWithPastNr   r   r   r   r   r   *   r   r   r   c                   ó*   ‡ — e Zd Zdefˆ fd„Zd„ Zˆ xZS )ÚVipLlavaMultiModalProjectorÚconfigc                 óH  •— t         ‰|   «        t        |j                  t        «      rdnt        |j                  «      }t        j                  ||j                  j                  z  |j                  ¬«      | _        t        j                  ||j                  j                  z  |j                  j                  d¬«      | _        t        |j                      | _        t        j                  |j                  j                  |j                  j                  d¬«      | _        y )Nr   )ÚepsT)Úbias)ÚsuperÚ__init__Ú
isinstanceÚvision_feature_layersÚintÚlenr   Ú	LayerNormÚvision_configÚhidden_sizeÚprojector_layernorm_epsÚprojector_layernormÚLinearÚtext_configÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2)Úselfr    Únum_feature_layersÚ	__class__s      €r   r%   z$VipLlavaMultiModalProjector.__init__/   sØ   ø€ Ü‰ÑÔÜ",¨V×-IÑ-IÌ3Ô"O™QÔUXÐY_×YuÑYuÓUvÐÜ#%§<¡<Ø ×!5Ñ!5×!AÑ!AÑAÀv×GeÑGeô$
ˆÔ ô Ÿ	™	Ø ×!5Ñ!5×!AÑ!AÑAØ×Ñ×*Ñ*Øô
ˆŒô
 ˜&×5Ñ5Ñ6ˆŒÜŸ	™	 &×"4Ñ"4×"@Ñ"@À&×BTÑBT×B`ÑB`ÐgkÔlˆr   c                 óŽ   — | j                  |«      }| j                  |«      }| j                  |«      }| j                  |«      }|S ©N)r.   r1   r3   r4   )r5   Úhidden_statess     r   Úforwardz#VipLlavaMultiModalProjector.forward>   sB   € Ø×0Ñ0°Ó?ˆØŸ™ mÓ4ˆØŸ™ Ó/ˆØŸ™ mÓ4ˆØÐr   )r   r   r   r   r%   r;   Ú__classcell__)r7   s   @r   r   r   .   s   ø„ ðm˜~õ mör   r   c                   ó   — e Zd Zy)ÚVipLlavaPreTrainedModelNr   r   r   r   r>   r>   F   r   r   r>   c                   óx  — e Zd Z	 ddej                  deeeee   f      fd„Z	e
	 	 	 	 	 	 	 	 	 	 	 	 ddej                  dej                  deej                     deej                     dee   d	eej                     deeeee   f      d
ee   dee   dee   dee   deej                     deeef   fd„«       Zy)ÚVipLlavaModelNÚpixel_valuesr'   c                 óV  — ||n| j                   j                  }| j                  |d¬«      }t        |t        «      r|j
                  |   dd…dd…f   }n<|D cg c]  }|j
                  |   dd…dd…f   ‘Œ }}t        j                  |d¬«      }| j                  |«      }|S c c}w )aW  
        Obtains image last hidden states from the vision tower and apply multimodal projection.

        Args:
            pixel_values (`torch.FloatTensor]` of shape `(batch_size, channels, height, width)`)
               The tensors corresponding to the input images.
            vision_feature_layers (`Union[int, list[int]]`):
                The vision feature layer, or the list of indexes of the layers to select
                the vision feature.
        Returns:
            image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
        NT)Úoutput_hidden_statesr   éÿÿÿÿ)Údim)	r    r'   Úvision_towerr&   r(   r:   ÚtorchÚcatÚmulti_modal_projector)r5   rA   r'   Úimage_outputsÚimage_featuresÚindexs         r   Úget_image_featuresz VipLlavaModel.get_image_featuresK   s»   € ð  &;Ð%FÑ!ÈDÏKÉK×LmÑLmð 	ð ×)Ñ)¨,ÈTÐ)ÓRˆô Ð+¬SÔ1Ø*×8Ñ8Ð9NÑOÒPQÐSTÑSUÐPUÑV‰Nð VkÖkÈE˜m×9Ñ9¸%Ñ@ÂÀAÁBÀÓGÐkˆNÐkÜ"ŸY™Y ~¸2Ô>ˆNØ×3Ñ3°NÓCˆØÐùò ls   ÁB&Ú	input_idsÚattention_maskÚposition_idsÚpast_key_valuesÚinputs_embedsÚ	use_cacheÚoutput_attentionsrC   Úreturn_dictÚcache_positionÚreturnc                 óÄ  — |	|	n| j                   j                  }	|
|
n| j                   j                  }
||n| j                   j                  }||n| j                   j                  }|du |duz  rt        d«      ‚|€ | j                  «       |«      }|_| j                  ||¬«      }|j                  |j                  |j                  «      }| j                  |||¬«      }|j                  ||«      } | j                  d||||||	|
d|dœ	|¤Ž}t        |j                  |j                   |j"                  |j$                  |nd¬«      }|r|S |j'                  «       S )	zÃ
        vision_feature_layers (`Union[int, list[int]]`, *optional*):
            The vision feature layer, or the list of indexes of the layers to select
            the vision feature.
        Nz:You must specify exactly one of input_ids or inputs_embeds©rA   r'   )rR   rK   T)	rO   rP   rQ   rR   rS   rT   rC   rU   rV   )Úlast_hidden_staterQ   r:   Ú
attentionsÚimage_hidden_statesr   )r    rT   rC   Úuse_return_dictr'   Ú
ValueErrorÚget_input_embeddingsrM   ÚtoÚdeviceÚdtypeÚget_placeholder_maskÚmasked_scatterÚlanguage_modelr   rZ   rQ   r:   r[   Úto_tuple)r5   rN   rA   rO   rP   rQ   rR   r'   rS   rT   rC   rU   rV   Ú	lm_kwargsrK   Úspecial_image_maskÚoutputsÚoutputs                     r   r;   zVipLlavaModel.forwardj   s§  € ð, 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà%:Ð%FÑ!ÈDÏKÉK×LmÑLmð 	ð ˜Ð -°tÐ";Ò<ÜÐYÓZÐZàÐ Ø7˜D×5Ñ5Ó7¸	ÓBˆMàÐ#Ø!×4Ñ4Ø)ÐAVð 5ó ˆNð ,×.Ñ.¨}×/CÑ/CÀ]×EXÑEXÓYˆNØ!%×!:Ñ!:Ø¨À~ð ";ó "Ðð *×8Ñ8Ð9KÈ^Ó\ˆMà%$×%Ñ%ð 
Ø)Ø%Ø+Ø'ØØ/Ø!5ØØ)ñ
ð ñ
ˆô -Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø2>Ð2J¡ÐPTô
ˆñ %ˆvÐ;¨&¯/©/Ó*;Ð;r   r9   )NNNNNNNNNNNN)r   r   r   rG   ÚFloatTensorr   r   r(   ÚlistrM   r   Ú
LongTensorÚTensorr   ÚboolÚtupler   r;   r   r   r   r@   r@   J   sg  „ àhlñØ!×-Ñ-ðØFNÈuÐUXÐZ^Ð_bÑZcÐUcÑOdÑFeóð> ð '+Ø*.Ø15Ø37Ø+/Ø59ØAEØ$(Ø,0Ø/3Ø&*Ø59ñB<à×#Ñ#ðB<ð ×'Ñ'ðB<ð ! §¡Ñ.ð	B<ð
 ˜u×/Ñ/Ñ0ðB<ð " %™ðB<ð   × 1Ñ 1Ñ2ðB<ð  (¨¨c°4¸±9¨nÑ(=Ñ>ðB<ð ˜D‘>ðB<ð $ D™>ðB<ð ' t™nðB<ð ˜d‘^ðB<ð ! ×!1Ñ!1Ñ2ðB<ð 
ˆuÐ1Ð1Ñ	2òB<ó ñB<r   r@   c            !       ó²  — e Zd Z	 ddej                  deeeee   f      fd„Z		 	 	 	 	 	 	 	 	 	 	 	 	 	 ddej                  dej                  deej                     deej                     dee   d	eej                     deeeee   f      d
eej                     dee   dee   dee   dee   deej                     deeej                  f   deeef   fd„Zy)Ú VipLlavaForConditionalGenerationNrA   r'   c                 ó<   — | j                   j                  ||¬«      S )NrY   )ÚmodelrM   )r5   rA   r'   s      r   rM   z3VipLlavaForConditionalGeneration.get_image_features±   s   € ð z‰z×,Ñ,¸,Ð^sÐ,ÓtÐtr   rN   rO   rP   rQ   rR   ÚlabelsrS   rT   rC   rU   rV   Úlogits_to_keeprW   c                 ól  — |
|
n| j                   j                  }
||n| j                   j                  }||n| j                   j                  }||n| j                   j                  } | j
                  d|||||||	||
|d|dœ|¤Ž}|d   }t        |t        «      rt        | d«      n|}| j                  |dd…|dd…f   «      }d}|2| j                  ||| j                   j                  j                  ¬«      }t        |||j                  |j                  |j                   |j"                  ¬«      S )a¨  
        vision_feature_layers (`Union[int, list[int]]`, *optional*):
            The vision feature layer, or the list of indexes of the layers to select
            the vision feature.
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

        Example:

        ```python
        >>> import torch
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoProcessor, VipLlavaForConditionalGeneration

        >>> model = VipLlavaForConditionalGeneration.from_pretrained("llava-hf/vip-llava-7b-hf", device_map="auto", torch_dtype=torch.float16)
        >>> processor = AutoProcessor.from_pretrained("llava-hf/vip-llava-7b-hf")

        >>> prompt = "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n{}###Assistant:"
        >>> question = "Can you please describe this image?"
        >>> prompt = prompt.format(question)
        >>> url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/compel-neg.png"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = processor(text=text, images=image, return_tensors="pt").to(0, torch.float16)

        >>> # Generate
        >>> generate_ids = model.generate(**inputs, max_new_tokens=20)
        >>> processor.decode(generate_ids[0][len(inputs["input_ids"][0]):], skip_special_tokens=True)
        The image features a brown and white cat sitting on a green surface, with a red ball in its
        ```NT)rN   rA   rO   rP   rQ   rR   rS   r'   rT   rC   rU   rV   r   )Úlogitsru   Ú
vocab_size)Úlossrx   rQ   r:   r[   r\   r   )r    rT   rC   r]   r'   rt   r&   r(   ÚsliceÚlm_headÚloss_functionr0   ry   r   rQ   r:   r[   r\   )r5   rN   rA   rO   rP   rQ   rR   r'   ru   rS   rT   rC   rU   rV   rv   rg   ri   r:   Úslice_indicesrx   rz   s                        r   r;   z(VipLlavaForConditionalGeneration.forward¶   s[  € ðh 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà%:Ð%FÑ!ÈDÏKÉK×LmÑLmð 	ð $—*‘*ð 
ØØ%Ø)Ø%Ø+Ø'ØØ"7Ø/Ø!5ØØ)ñ
ð ñ
ˆð    ™
ˆä8BÀ>ÔSVÔ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÐØ×%Ñ%¨V¸FÈtÏ{É{×OfÑOf×OqÑOqÐ%ÓrˆDä-ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø '× ;Ñ ;ô
ð 	
r   r9   )NNNNNNNNNNNNNr   )r   r   r   rG   rk   r   r   r(   rl   rM   rm   rn   r   ro   rp   r   r;   r   r   r   rr   rr   °   s  „ àhlñuØ!×-Ñ-ðuØFNÈuÐUXÐZ^Ð_bÑZcÐUcÑOdÑFeóuð '+Ø*.Ø15Ø37Ø+/Ø59ØAEØ-1Ø$(Ø,0Ø/3Ø&*Ø59Ø34ñ]
à×#Ñ#ð]
ð ×'Ñ'ð]
ð ! §¡Ñ.ð	]
ð
 ˜u×/Ñ/Ñ0ð]
ð " %™ð]
ð   × 1Ñ 1Ñ2ð]
ð  (¨¨c°4¸±9¨nÑ(=Ñ>ð]
ð ˜×)Ñ)Ñ*ð]
ð ˜D‘>ð]
ð $ D™>ð]
ð ' t™nð]
ð ˜d‘^ð]
ð ! ×!1Ñ!1Ñ2ð]
ð ˜c 5§<¡<Ð/Ñ0ð]
ð" 
ˆuÐ4Ð4Ñ	5ô#]
r   rr   )r@   rr   r>   )Útypingr   r   rG   r   Ú(transformers.models.llava.modeling_llavar   r   r   r	   r
   Úactivationsr   Úcache_utilsr   Úutilsr   r   Úconfiguration_vipllavar   Ú
get_loggerr   Úloggerr   r   ÚModuler   r>   r@   rr   Ú__all__r   r   r   ú<module>r‰      sš   ð÷  #ã Ý ÷õ õ "Ý  ß ,Ý 2ð 
ˆ×	Ñ	˜HÓ	%€ô	Ð":ô 	ô	Ð%@ô 	ô "§)¡)ô ô0	Ð2ô 	ôc<Jô c<ôLc
Ð'Dô c
òL [r   