Ë
    Ârœh@<  ã                  ó`  — d dl mZ d dlZd dlmZmZ d dlmZ d dlm	Z	 d dl
mZmZ d dlmZ d dlZd dlmZmZmZ d d	lmZ  e«       rd d
lmZ  ej0                  e«      Z G d„ d«      Z G d„ dee«      Z G d„ de«      Z G d„ de«      Z G d„ deee«      Z G d„ de«      Z  G d„ de«      Z!y)é    )ÚannotationsN)ÚABCÚabstractmethod)Údefaultdict)ÚIterator)Ú
accumulateÚcycle)ÚAny)ÚBatchSamplerÚConcatDatasetÚSubsetRandomSampler)Úis_datasets_available)ÚDatasetc                  ó,   ‡ — e Zd ZdZdˆ fd„Zdd„Zˆ xZS )ÚSetEpochMixinz¾
    Required for a BatchSampler as the Trainer will call set_epoch on the BatchSampler at the beginning of each epoch.
    The BatchSampler can then set the generator seed accordingly.
    c                ó2   •— t        ‰|   |i |¤Ž d| _        y ©Nr   )ÚsuperÚ__init__Úepoch)ÚselfÚargsÚkwargsÚ	__class__s      €úp/var/www/html/ai-insurance-compliance-backend/venv/lib/python3.12/site-packages/sentence_transformers/sampler.pyr   zSetEpochMixin.__init__   s   ø€ Ü‰Ñ˜$Ð) &Ò)Øˆ
ó    c                ó   — || _         y ©N)r   )r   r   s     r   Ú	set_epochzSetEpochMixin.set_epoch   s	   € Øˆ
r   )ÚreturnÚNone)r   Úintr    r!   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   r   Ú__classcell__©r   s   @r   r   r      s   ø„ ñõ
÷r   r   c                  óF   ‡ — e Zd ZdZ	 	 	 d	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zˆ xZS )ÚDefaultBatchSamplera˜  
    This sampler is the default batch sampler used in the SentenceTransformer library.
    It is equivalent to the PyTorch BatchSampler.

    Args:
        sampler (Sampler or Iterable): The sampler used for sampling elements from the dataset,
            such as SubsetRandomSampler.
        batch_size (int): Number of samples per batch.
        drop_last (bool): If True, drop the last incomplete batch if the dataset size
            is not divisible by the batch size.
        valid_label_columns (List[str], optional): List of column names to check for labels.
            The first column name from ``valid_label_columns`` found in the dataset will
            be used as the label column.
        generator (torch.Generator, optional): Optional random number generator for shuffling
            the indices.
        seed (int): Seed for the random number generator to ensure reproducibility. Defaults to 0.
    c                óT   •— t         ‰|   |||¬«       || _        || _        || _        y )N©Ú
batch_sizeÚ	drop_last)r   r   Úvalid_label_columnsÚ	generatorÚseed)r   Údatasetr-   r.   r/   r0   r1   r   s          €r   r   zDefaultBatchSampler.__init__6   s/   ø€ ô 	‰Ñ˜¨ZÀ9ÐÔMØ#6ˆÔ Ø"ˆŒØˆ	r   ©NNr   ©r2   r   r-   r"   r.   Úboolr/   úlist[str] | Noner0   útorch.Generator | Noner1   r"   r    r!   )r#   r$   r%   r&   r   r'   r(   s   @r   r*   r*   #   sa   ø„ ñð. 15Ø,0Øðàðð ðð ð	ð
 .ðð *ðð ðð 
÷ñ r   r*   c                  ó`   ‡ — e Zd ZdZ	 	 	 d	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zedd„«       Zdd„Zˆ xZS )	ÚGroupByLabelBatchSampleraZ  
    This sampler groups samples by their labels and aims to create batches such that
    each batch contains samples where the labels are as homogeneous as possible.
    This sampler is meant to be used alongside the ``Batch...TripletLoss`` classes, which
    require that each batch contains at least 2 examples per label class.

    Recommended for:
        - :class:`~sentence_transformers.losses.BatchAllTripletLoss`
        - :class:`~sentence_transformers.losses.BatchHardSoftMarginTripletLoss`
        - :class:`~sentence_transformers.losses.BatchHardTripletLoss`
        - :class:`~sentence_transformers.losses.BatchSemiHardTripletLoss`

    Args:
        dataset (Dataset): The dataset to sample from.
        batch_size (int): Number of samples per batch. Must be divisible by 2.
        drop_last (bool): If True, drop the last incomplete batch if the dataset size
            is not divisible by the batch size.
        valid_label_columns (List[str], optional): List of column names to check for labels.
            The first column name from ``valid_label_columns`` found in the dataset will
            be used as the label column.
        generator (torch.Generator, optional): Optional random number generator for shuffling
            the indices.
        seed (int): Seed for the random number generator to ensure reproducibility. Defaults to 0.
    c                ó¦  •— t         ‰|   ||||||¬«       || _        | j                  dz  dk(  rt	        d«      ‚| j                  || j                  «      }t        t        «      }t        |«      D ]  \  }	}
||
   j                  |	«       Œ |j                  «       D 
ci c]  \  }
}t        |«      dz  dz  x}r|
|d | “Œ  c}}
| _        y c c}}
w )N©r-   r.   r/   r0   r1   é   é   zEThe batch size for `GroupByLabelBatchSampler` must be divisible by 2.)r   r   r2   r-   Ú
ValueErrorÚ_determine_labels_to_user/   r   ÚlistÚ	enumerateÚappendÚitemsÚlenÚgroups)r   r2   r-   r.   r/   r0   r1   ÚlabelsrE   Ú
sample_idxÚlabelÚsample_indicesÚnum_samplesr   s                €r   r   z!GroupByLabelBatchSampler.__init___   sí   ø€ ô 	‰ÑØØ!ØØ 3ØØð 	ô 	
ð ˆŒà?‰?˜QÑ !Ò#ÜÐdÓeÐeà×.Ñ.¨w¸×8PÑ8PÓQˆÜœTÓ"ˆÜ!*¨6Ó!2ò 	-ÑˆJ˜Ø5‰M× Ñ  Õ,ð	-ð
 *0¯©«÷
á%~Ü" >Ó2°aÑ7¸!Ñ;Ð;Ð;ð > , ;Ð/Ñ/ó
ˆùó 
s   Â #Cc                óz   — |xs g D ]  }|| j                   v sŒ| |   c S  t        d|› d| j                   › d«      ‚)Nz None of the valid_label_columns z3 are in the dataset, which only has these columns: ú.)Úcolumn_namesr>   )r2   r/   Úcolumn_names      r   r?   z1GroupByLabelBatchSampler._determine_labels_to_use€   sa   € à.Ò4°"ò 	,ˆKØ˜g×2Ñ2Ò2Ø˜{Ñ+Ò+ð	,ô Ø.Ð/BÐ.Cð D-Ø-4×-AÑ-AÐ,BÀ!ðEó
ð 	
r   c              #  ór  K  — | j                   r>| j                  2| j                   j                  | j                  | j                  z   «       g }t	        | j
                  j                  «       «      }t        j                  t        | j
                  «      | j                   ¬«      D ]y  }||   }| j
                  |   }|j                  |«       t        |«      | j                  k\  sŒA|d | j                   –— || j                  d  }t        |«      | j                  k\  rŒ9Œ{ | j                  s|r|–— y y y ­w)N©r0   )r0   r1   Úmanual_seedr   r@   rE   ÚkeysÚtorchÚrandpermrD   Úextendr-   r.   )r   Úpartial_batchÚunique_labelsÚ	label_idxrH   Úsampless         r   Ú__iter__z!GroupByLabelBatchSampler.__iter__Š   sÿ   è ø€ Ø>Š>˜dŸi™iÐ3ØN‰N×&Ñ& t§y¡y°4·:±:Ñ'=Ô>àˆÜ˜TŸ[™[×-Ñ-Ó/Ó0ˆÜŸ™¬¨D¯K©KÓ(8ÀDÇNÁNÔSò 	AˆIØ! )Ñ,ˆEØ—k‘k %Ñ(ˆGØ× Ñ  Ô)ÜmÓ$¨¯©Ó7Ø#Ð$5 d§o¡oÐ6Ò6Ø -¨d¯o©oÐ.?Ð @ô mÓ$¨¯©Ô7ð		Að ~Š~¡-ØÓð #0ˆ~ùs   ‚C$D7Ã'8D7Ä D7r3   r4   )r2   r   r/   r6   r    z	list[Any]©r    zIterator[list[int]])	r#   r$   r%   r&   r   Ústaticmethodr?   rZ   r'   r(   s   @r   r9   r9   E   sv   ø„ ñð< 15Ø,0Øð
àð
ð ð
ð ð	
ð
 .ð
ð *ð
ð ð
ð 
õ
ðB ò
ó ð
÷ r   r9   c                  óR   ‡ — e Zd Z	 	 	 d	 	 	 	 	 	 	 	 	 	 	 	 	 dˆ fd„Zdd„Zdd„Zˆ xZS )ÚNoDuplicatesBatchSamplerc                óÔ   •— t         ‰|   ||||||¬«       t        |j                  «      t        | j                  xs g «      z  x}r|j                  t        |«      «      }|| _        y)a‚  
        This sampler creates batches such that each batch contains samples where the values are unique,
        even across columns. This is useful when losses consider other samples in a batch to be in-batch
        negatives, and you want to ensure that the negatives are not duplicates of the anchor/positive sample.

        Recommended for:
            - :class:`~sentence_transformers.losses.MultipleNegativesRankingLoss`
            - :class:`~sentence_transformers.losses.CachedMultipleNegativesRankingLoss`
            - :class:`~sentence_transformers.losses.MultipleNegativesSymmetricRankingLoss`
            - :class:`~sentence_transformers.losses.CachedMultipleNegativesSymmetricRankingLoss`
            - :class:`~sentence_transformers.losses.MegaBatchMarginLoss`
            - :class:`~sentence_transformers.losses.GISTEmbedLoss`
            - :class:`~sentence_transformers.losses.CachedGISTEmbedLoss`

        Args:
            dataset (Dataset): The dataset to sample from.
            batch_size (int): Number of samples per batch.
            drop_last (bool): If True, drop the last incomplete batch if the dataset size
                is not divisible by the batch size.
            valid_label_columns (List[str], optional): List of column names to check for labels.
                The first column name from ``valid_label_columns`` found in the dataset will
                be used as the label column.
            generator (torch.Generator, optional): Optional random number generator for shuffling
                the indices.
            seed (int): Seed for the random number generator to ensure reproducibility. Defaults to 0.
        r;   N)r   r   ÚsetrM   r/   Úremove_columnsr@   r2   )	r   r2   r-   r.   r/   r0   r1   Úlabel_columnsr   s	           €r   r   z!NoDuplicatesBatchSampler.__init__   st   ø€ ôF 	‰ÑØØ!ØØ 3ØØð 	ô 	
ô   × 4Ñ 4Ó5¼¸D×<TÑ<TÒ<ZÐXZÓ8[Ñ[Ð[ˆ=Ð[Ø×,Ñ,¬T°-Ó-@ÓAˆGØˆr   c              #  óÄ  K  — | j                   r>| j                  2| j                   j                  | j                  | j                  z   «       t        j                  t        j                  t        | j                  «      | j                   ¬«      j                  «       «      }|rµt        «       }g }|D ]†  }| j                  |   j                  «       D ch c]  \  }}|dk7  sŒt        |«      ’Œ }}}||z  rŒG|j                  |«       t        |«      | j                  k(  r|–—  n#|j!                  |«       Œˆ | j"                  s|–— |D ]  }||= Œ |rŒ´yyc c}}w ­w)a5  
        Iterate over the remaining non-yielded indices. For each index, check if the sample values are already in the
        batch. If not, add the sample values to the batch keep going until the batch is full. If the batch is full, yield
        the batch indices and continue with the next batch.
        NrP   Údataset_name)r0   r1   rQ   r   ÚdictÚfromkeysrS   rT   rD   r2   Útolistr`   rC   ÚstrrB   r-   Úupdater.   )r   Úremaining_indicesÚbatch_valuesÚbatch_indicesÚindexÚkeyÚvalueÚsample_valuess           r   rZ   z!NoDuplicatesBatchSampler.__iter__Ì   s2  è ø€ ð >Š>˜dŸi™iÐ3ØN‰N×&Ñ& t§y¡y°4·:±:Ñ'=Ô>ô
 !ŸM™M¬%¯.©.¼¸T¿\¹\Ó9JÐVZ×VdÑVdÔ*e×*lÑ*lÓ*nÓoÐÙÜ›5ˆLØˆMØ*ò (Ø>B¿l¹lÈ5Ñ>Q×>WÑ>WÓ>Y× s±
°°UÐ]`ÐdrÓ]r¤ U¥Ð sÑ sØ  <Ò/Øà×$Ñ$ UÔ+Ü}Ó%¨¯©Ò8Ø'Ò'Ùà×#Ñ# MÕ2ð(ð —~’~Ø'Ò'à&ò -Ø% eÑ,ð-ô)  ùó !tùs   ‚CE ÃEÃ#EÃ0A'E ÅE c                óÂ   — | j                   r"t        | j                  «      | j                  z  S t        | j                  «      | j                  z   dz
  | j                  z  S )Nr=   )r.   rD   r2   r-   ©r   s    r   Ú__len__z NoDuplicatesBatchSampler.__len__ð   sG   € Ø>Š>Üt—|‘|Ó$¨¯©Ñ7Ð7ä˜Ÿ™Ó%¨¯©Ñ7¸!Ñ;ÀÇÁÑOÐOr   r3   r4   r[   ©r    r"   )r#   r$   r%   r   rZ   rs   r'   r(   s   @r   r^   r^   œ   sd   ø„ ð 15Ø,0Øð-àð-ð ð-ð ð	-ð
 .ð-ð *ð-ð ð-ð 
õ-ó^"-÷HPr   r^   c                  ó`   ‡ — e Zd ZdZ	 	 d	 	 	 	 	 	 	 	 	 dˆ fd„Zedd„«       Zedd„«       Zˆ xZS )	ÚMultiDatasetDefaultBatchSampleraT  
    Abstract base batch sampler that yields batches from multiple batch samplers.
    This class must be subclassed to implement specific sampling strategies, and
    cannot be used directly.

    Args:
        dataset (ConcatDataset): A concatenation of multiple datasets.
        batch_samplers (List[BatchSampler]): A list of batch samplers, one for each dataset in the ConcatDataset.
        generator (torch.Generator, optional): A generator for reproducible sampling. Defaults to None.
        seed (int): Seed for the random number generator to ensure reproducibility. Defaults to 0.
    c                óî   •— t        |j                  «      t        |«      k7  rt        d«      ‚t        ‰|   ||d   j
                  |d   j                  ¬«       || _        || _        || _	        || _
        y )NzTThe number of batch samplers must match the number of datasets in the ConcatDataset.r   r,   )rD   Údatasetsr>   r   r   r-   r.   r2   Úbatch_samplersr0   r1   )r   r2   ry   r0   r1   r   s        €r   r   z(MultiDatasetDefaultBatchSampler.__init__  sr   ø€ ô ˆw×ÑÓ ¤C¨Ó$7Ò7ÜÐsÓtÐtÜ‰Ñ˜¨^¸AÑ->×-IÑ-IÐUcÐdeÑUf×UpÑUpÐÔqØˆŒØ,ˆÔØ"ˆŒØˆ	r   c                 ó   — y)z?Yield batches from the underlying datasets in a specific order.N© rr   s    r   rZ   z(MultiDatasetDefaultBatchSampler.__iter__  ó   € ð 	r   c                 ó   — y)z,Return the number of batches in the sampler.Nr{   rr   s    r   rs   z'MultiDatasetDefaultBatchSampler.__len__  r|   r   r   )
r2   r   ry   zlist[BatchSampler]r0   r7   r1   r"   r    r!   r[   rt   )	r#   r$   r%   r&   r   r   rZ   rs   r'   r(   s   @r   rv   rv   ÷   sm   ø„ ñ
ð  -1Øðàðð +ðð *ð	ð
 ðð 
õð òó ðð òó ôr   rv   c                  ó    — e Zd ZdZdd„Zdd„Zy)ÚRoundRobinBatchSamplera›  
    Batch sampler that yields batches in a round-robin fashion from multiple batch samplers, until one is exhausted.
    With this sampler, it's unlikely that all samples from each dataset are used, but we do ensure that each dataset
    is sampled from equally.

    Args:
        dataset (ConcatDataset): A concatenation of multiple datasets.
        batch_samplers (List[BatchSampler]): A list of batch samplers, one for each dataset in the ConcatDataset.
        generator (torch.Generator, optional): A generator for reproducible sampling. Defaults to None.
        seed (int): Seed for the random number generator to ensure reproducibility. Defaults to 0.
    c              #  ó<  K  — | j                   r>| j                  2| j                   j                  | j                  | j                  z   «       | j                  j
                  D cg c]  }t        |«      ‘Œ }}dgt        t        |«      «      z   }| j                  D cg c]  }t        |«      ‘Œ }}t        t        t        |«      «      «      D ])  }||   }	 t        ||   «      D cg c]  }||z   ‘Œ	 c}–— Œ+ y c c}w c c}w c c}w # t        $ r Y  y w xY w­wr   )r0   r1   rQ   r   r2   rx   rD   r@   r   ry   Úiterr	   ÚrangeÚnextÚStopIteration)	r   r2   rJ   Úsample_offsetsÚsamplerry   Údataset_idxÚsample_offsetÚidxs	            r   rZ   zRoundRobinBatchSampler.__iter__+  sù   è ø€ Ø>Š>˜dŸi™iÐ3ØN‰N×&Ñ& t§y¡y°4·:±:Ñ'=Ô>à37·<±<×3HÑ3HÖI¨”s˜7•|ÐIˆÐIØ˜œt¤J¨{Ó$;Ó<Ñ<ˆà7;×7JÑ7JÖK¨Gœ$˜w-ÐKˆÐKÜ ¤¤s¨>Ó':Ó!;Ó<ò 	ˆKØ*¨;Ñ7ˆMðÜ6:¸>È+Ñ;VÓ6WÖX¨ss˜]Ó*ÒXÓXñ	ùò	 Jùò Lùò YøÜ ò âðüsT   ‚A#DÁ%C=Á7(DÂDÂ1'DÃDÃ)DÃ5DÃ:DÄDÄ	DÄDÄDÄDc                óf   — t        d„ | j                  D «       «      t        | j                  «      z  S )Nc              3  ó2   K  — | ]  }t        |«      –— Œ y ­wr   )rD   )Ú.0r†   s     r   ú	<genexpr>z1RoundRobinBatchSampler.__len__.<locals>.<genexpr><  s   è ø€ ÒC G”3w—<ÑCùs   ‚)Úminry   rD   rr   s    r   rs   zRoundRobinBatchSampler.__len__;  s)   € ÜÑC¨t×/BÑ/BÔCÓCÄcÈ$×J]ÑJ]ÓF^Ñ^Ð^r   Nr[   rt   ©r#   r$   r%   r&   rZ   rs   r{   r   r   r   r     s   „ ñ
óô _r   r   c                  ó    — e Zd ZdZdd„Zdd„Zy)ÚProportionalBatchSamplera|  
    Batch sampler that samples from each dataset in proportion to its size, until all are exhausted simultaneously.
    With this sampler, all samples from each dataset are used and larger datasets are sampled from more frequently.

    Args:
        dataset (ConcatDataset): A concatenation of multiple datasets.
        batch_samplers (List[BatchSampler]): A list of batch samplers, one for each dataset in the ConcatDataset.
        generator (torch.Generator, optional): A generator for reproducible sampling. Defaults to None.
        seed (int): Seed for the random number generator to ensure reproducibility. Defaults to 0.
    c              #  ó¼  K  — | j                   j                  | j                  | j                  z   «       | j                  j
                  D cg c]  }t        |«      ‘Œ }}dgt        t        |«      «      z   }| j                  D cg c]  }t        |«      ‘Œ }}t        |«      D cg c]  \  }}t        |«      D ]  }|‘Œ Œ }	}}}t        |	| j                   ¬«      }
| j                  D cg c]  }t        |«      ‘Œ }}|
D ])  }||   }	 t        ||   «      D cg c]  }||z   ‘Œ	 c}–— Œ+ y c c}w c c}w c c}}}w c c}w c c}w # t        $ r Y ŒSw xY w­w)Nr   rP   )r0   rQ   r1   r   r2   rx   rD   r@   r   ry   rA   r‚   r   r   rƒ   r„   )r   r2   rJ   r…   r†   Únum_batchesr‰   ÚlengthÚ_Údataset_indicesÚdataset_idx_samplerry   r‡   rˆ   s                 r   rZ   z!ProportionalBatchSampler.__iter__K  sC  è ø€ Ø‰×"Ñ" 4§9¡9¨t¯z©zÑ#9Ô:à37·<±<×3HÑ3HÖI¨”s˜7•|ÐIˆÐIØ˜œt¤J¨{Ó$;Ó<Ñ<ˆà37×3FÑ3FÖG¨”s˜7•|ÐGˆÐGÜ2;¸KÓ2H×`Ð`¡; 3¨ÔRWÐX^ÓR_Ò`ÈQš3Ð`˜3Ð`ˆÒ`Ü1°/ÈTÏ^É^Ô\Ðà7;×7JÑ7JÖK¨Gœ$˜w-ÐKˆÐKØ.ò 	ˆKØ*¨;Ñ7ˆMðÜ6:¸>È+Ñ;VÓ6WÖX¨ss˜]Ó*ÒXÓXñ	ùò Jùò HùÜ`ùò Lùò YøÜ ò Ùðüsl   ‚AEÁD2Á(EÂD7ÂEÂ*D<Ã)EÃ/EÄEÄEÄEÄ*EÄ/EÅEÅ	EÅEÅEÅEc                ód   — t        | j                  D cg c]  }t        |«      ‘Œ c}«      S c c}w r   )Úsumry   rD   )r   r†   s     r   rs   z ProportionalBatchSampler.__len__]  s%   € Ü°×0CÑ0CÖD W”C˜•LÒDÓEÐEùÒDs   ”-Nr[   rt   r   r{   r   r   r‘   r‘   ?  s   „ ñ	óô$Fr   r‘   )"Ú
__future__r   ÚloggingÚabcr   r   Úcollectionsr   Úcollections.abcr   Ú	itertoolsr   r	   Útypingr
   rS   Útorch.utils.datar   r   r   Úsentence_transformers.utilr   rx   r   Ú	getLoggerr#   Úloggerr   r*   r9   r^   rv   r   r‘   r{   r   r   ú<module>r¥      s¬   ðÝ "ã ß #Ý #Ý $ß 'Ý ã ß MÑ Må <áÔÝ à	ˆ×	Ñ	˜8Ó	$€÷ñ ô˜-¨ô ôDT Ð2ô T ônXPÐ2ô XPôv$ m°\À3ô $ôN_Ð<ô _ôBFÐ>õ Fr   