Aricate-base / README.md

Update README.md

b6d893a verified 28 days ago

4.54 kB

	---
	license: mit
	language:
	- en
	pipeline_tag: text-generation
	---

	# 🚀 Aricate-Base (V4) : Le Modèle Prêt pour l'Ajustement

	![ARICATE](http://www.image-heberg.fr/files/17611970001178407767.jpg)

	Félicitations \! Vous êtes sur le point d'utiliser Aricate-Base, le socle de l'architecture Aricate V4. Ce modèle a été conçu pour fournir une base linguistique solide, prête à être ajustée (Fine-Tunée) sur votre tâche spécifique (Q/A, classification, résumé, etc.).

	\| Caractéristique \| Valeur \|
	\| :--- \| :--- \|
	\| Architecture \| GRU + Attention Additive (Aricate V4) \|
	\| But du Pré-entraînement \| Prédiction du Mot Suivant \|
	\| Usage Principal \| Fine-Tuning (Ajustement) \|

	### Pourquoi choisir Aricate-Base ?

	Aricate-Base résout l'instabilité de la génération souvent rencontrée par les modèles de petite taille :

	* Cohérence Garanti (Adieu les charabia) : Aricate-Base garantit une cohérence grammaticale et orthographique impeccable. Le modèle sait comment former des phrases correctes.
	* Rapidité de l'Ajustement : Vous n'aurez besoin que de quelques époques de Fine-Tuning sur votre propre jeu de données pour spécialiser le modèle. Cela réduit considérablement les coûts et le temps d'entraînement.

	-----

	## ⚠️ Spécificité Linguistique : Dominance de l'Anglais

	Il est impératif de noter que, bien que le corpus d'entraînement initial ait inclus du français, la nature du split et du dataset (Wikitext-2) a conduit à une forte dominance des schémas et du vocabulaire anglais dans les poids du modèle pré-entraîné.

	\| Scénario \| Conséquence pour Aricate-Base \| Effort de Fine-Tuning \|
	\| :--- \| :--- \| :--- \|
	\| Modèle Final en Anglais \| Idéal. Le modèle a déjà une excellente base anglaise. \| Minimal. Concentration sur la tâche (Q/A, etc.). \|
	\| Modèle Final en Français \| Le modèle aura tendance à utiliser des structures syntaxiques anglaises et à produire des mots/concepts anglais s'il n'est pas certain (ex: 'antimony' vu dans les tests). \| Élevé. Nécessite un Fine-Tuning sur une large et dense dataset en français. \|

	### L'Option "Aricate from Scratch" (Expert) 💡

	Si vous exigez un contrôle total sur le langage et souhaitez éliminer tout biais linguistique dès la base, nous recommandons de réaliser un Aricate from Scratch.

	* Avantages : Contrôle total du vocabulaire, de la sémantique et de la langue principale.
	* Inconvénients : Nécessite une connaissance approfondie de l'architecture et une préparation de dataset massivement en français. Cet effort est plus exigeant en temps et en ressources que le Fine-Tuning de cette base.

	-----

	## 🛠️ Instructions pour le Fine-Tuning

	La puissance d'Aricate-Base réside dans sa capacité à apprendre rapidement de nouvelles tâches.

	### 1\. Prérequis et Dépendances

	```bash
	pip install torch huggingface-hub safetensors datasets
	```

	### 2\. Chargement du Modèle et du Tokenizer

	Vous aurez besoin des classes `AricateModel` et `WordTokenizer` (fournies par l'auteur) pour charger correctement le modèle.

	```python
	voir l'exemple de code dans le readme du modèle Lam-2
	```

	### 3\. Préparation de la Dataset Ciblée

	Votre jeu de données doit être formaté pour la Prédiction du Mot Suivant, en incluant les tokens spéciaux (`<sep>`, `<eos>`).

	Exemple pour une tâche Question/Réponse (Q/A) :

	Chaque paire doit être transformée en une séquence unique :
	$$`Question\ W_1\ W_2\ ...\ <sep>\ Réponse\ A_1\ A_2\ ...\ <eos>`$$

	### 4\. Paramètres de Fine-Tuning Recommandés ⚙️

	\| Paramètre \| Recommandation \| Justification \|
	\| :--- \| :--- \| :--- \|
	\| Taux d'Apprentissage (LR) \| $10^{-4}$ à $10^{-5}$ (Très faible) \| Empêche l'écrasement des connaissances linguistiques pré-acquises. \|
	\| Nombre d'Époques \| 5 à 20 \| Suffisant pour spécialiser le modèle sans sur-apprentissage (overfitting). \|
	\| Batch Size \| 32 à 128 \| Dépendant du GPU. Plus petit pour économiser la VRAM. \|
	\| Optimiseur \| Adam ou AdamW \| Fonctionne bien avec les architectures RNN modernes. \|

	Ce modèle est prêt à devenir l'outil spécialisé dont vous avez besoin. Bon Fine-Tuning \! 🚀

	Aricate-base est a L'architecture Aricate se que le gpt2 original de transformers est a transformers

	Fichier quantifier de Aricate-base : aricate_quantized.arica (présent juste à côté des poids de Aricate-base dans son dépôt)