|
|
--- |
|
|
license: mit |
|
|
language: |
|
|
- en |
|
|
pipeline_tag: text-generation |
|
|
--- |
|
|
|
|
|
# 🚀 Aricate-Base (V4) : Le Modèle Prêt pour l'Ajustement |
|
|
|
|
|
 |
|
|
|
|
|
Félicitations \! Vous êtes sur le point d'utiliser **Aricate-Base**, le socle de l'architecture **Aricate V4**. Ce modèle a été conçu pour fournir une base linguistique solide, prête à être ajustée (*Fine-Tunée*) sur **votre tâche spécifique** (Q/A, classification, résumé, etc.). |
|
|
|
|
|
| Caractéristique | Valeur | |
|
|
| :--- | :--- | |
|
|
| **Architecture** | GRU + Attention Additive (Aricate V4) | |
|
|
| **But du Pré-entraînement** | Prédiction du Mot Suivant | |
|
|
| **Usage Principal** | **Fine-Tuning** (Ajustement) | |
|
|
|
|
|
### Pourquoi choisir Aricate-Base ? |
|
|
|
|
|
Aricate-Base résout l'instabilité de la génération souvent rencontrée par les modèles de petite taille : |
|
|
|
|
|
* **Cohérence Garanti (Adieu les charabia) :** Aricate-Base garantit une **cohérence grammaticale et orthographique impeccable**. Le modèle sait *comment* former des phrases correctes. |
|
|
* **Rapidité de l'Ajustement :** Vous n'aurez besoin que de **quelques époques de Fine-Tuning** sur votre propre jeu de données pour spécialiser le modèle. Cela réduit considérablement les coûts et le temps d'entraînement. |
|
|
|
|
|
----- |
|
|
|
|
|
## ⚠️ Spécificité Linguistique : Dominance de l'Anglais |
|
|
|
|
|
Il est impératif de noter que, bien que le corpus d'entraînement initial ait inclus du français, la nature du *split* et du *dataset* (Wikitext-2) a conduit à une **forte dominance des schémas et du vocabulaire anglais** dans les poids du modèle pré-entraîné. |
|
|
|
|
|
| Scénario | Conséquence pour Aricate-Base | Effort de Fine-Tuning | |
|
|
| :--- | :--- | :--- | |
|
|
| **Modèle Final en Anglais** | Idéal. Le modèle a déjà une excellente base anglaise. | **Minimal.** Concentration sur la tâche (Q/A, etc.). | |
|
|
| **Modèle Final en Français** | Le modèle aura tendance à **utiliser des structures syntaxiques anglaises** et à produire des *mots/concepts anglais* s'il n'est pas certain (ex: 'antimony' vu dans les tests). | **Élevé.** Nécessite un *Fine-Tuning* sur une large et dense *dataset* en français. | |
|
|
|
|
|
### L'Option "Aricate from Scratch" (Expert) 💡 |
|
|
|
|
|
Si vous exigez un contrôle total sur le langage et souhaitez éliminer tout biais linguistique dès la base, nous recommandons de réaliser un **Aricate from Scratch**. |
|
|
|
|
|
* **Avantages :** Contrôle total du vocabulaire, de la sémantique et de la langue principale. |
|
|
* **Inconvénients :** Nécessite une connaissance approfondie de l'architecture et une préparation de *dataset* massivement en français. Cet effort est **plus exigeant en temps et en ressources** que le Fine-Tuning de cette base. |
|
|
|
|
|
----- |
|
|
|
|
|
## 🛠️ Instructions pour le Fine-Tuning |
|
|
|
|
|
La puissance d'Aricate-Base réside dans sa capacité à apprendre rapidement de nouvelles tâches. |
|
|
|
|
|
### 1\. Prérequis et Dépendances |
|
|
|
|
|
```bash |
|
|
pip install torch huggingface-hub safetensors datasets |
|
|
``` |
|
|
|
|
|
### 2\. Chargement du Modèle et du Tokenizer |
|
|
|
|
|
Vous aurez besoin des classes `AricateModel` et `WordTokenizer` (fournies par l'auteur) pour charger correctement le modèle. |
|
|
|
|
|
```python |
|
|
voir l'exemple de code dans le readme du modèle Lam-2 |
|
|
``` |
|
|
|
|
|
### 3\. Préparation de la Dataset Ciblée |
|
|
|
|
|
Votre jeu de données doit être formaté pour la **Prédiction du Mot Suivant**, en incluant les tokens spéciaux (`<sep>`, `<eos>`). |
|
|
|
|
|
**Exemple pour une tâche Question/Réponse (Q/A) :** |
|
|
|
|
|
Chaque paire doit être transformée en une séquence unique : |
|
|
$$`Question\ W_1\ W_2\ ...\ <sep>\ Réponse\ A_1\ A_2\ ...\ <eos>`$$ |
|
|
|
|
|
### 4\. Paramètres de Fine-Tuning Recommandés ⚙️ |
|
|
|
|
|
| Paramètre | Recommandation | Justification | |
|
|
| :--- | :--- | :--- | |
|
|
| **Taux d'Apprentissage (LR)** | **$10^{-4}$ à $10^{-5}$** (Très faible) | Empêche l'écrasement des connaissances linguistiques pré-acquises. | |
|
|
| **Nombre d'Époques** | **5 à 20** | Suffisant pour spécialiser le modèle sans sur-apprentissage (overfitting). | |
|
|
| **Batch Size** | **32 à 128** | Dépendant du GPU. Plus petit pour économiser la VRAM. | |
|
|
| **Optimiseur** | Adam ou AdamW | Fonctionne bien avec les architectures RNN modernes. | |
|
|
|
|
|
Ce modèle est prêt à devenir l'outil spécialisé dont vous avez besoin. Bon *Fine-Tuning* \! 🚀 |
|
|
|
|
|
**Aricate-base est a L'architecture Aricate se que le gpt2 original de transformers est a transformers** |
|
|
|
|
|
**Fichier quantifier de Aricate-base** : aricate_quantized.arica (présent juste à côté des poids de Aricate-base dans son dépôt) |