Spaces:

Clemylia
/

Dog-game-guide

Sleeping

App Files Files Community

Clemylia commited on Oct 15

Commit

582ec29

verified ·

1 Parent(s): b41442d

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -48

app.py CHANGED Viewed

@@ -1,39 +1,37 @@
 import gradio as gr
 import numpy as np
 import os
-import time
 # Bibliothèques d'IA et de RL
-# **IMPORTANT:** Assurez-vous que gymnasium est importé ici
 import gymnasium as gym
 from gymnasium import register, spaces
 from stable_baselines3 import PPO
 from huggingface_hub import hf_hub_download
 # --- PARAMÈTRES DU DÉPÔT HUGGING FACE ---
-REPO_ID = "Clemylia/MiRobot" # Utilisation du nom de repo montré sur le screenshot
 MODEL_FILE = "mirobot_final_model.zip"
 ENV_SCRIPT_FILE = "MiRobotEnv.py"
 ENV_ID = 'MiRobot-v0'
 # --- CONSTANTES DE JEU ---
 GRID_SIZE = 10
-MOVE_DISTANCE = 1
-MAX_FAIM = 1.0
-FAIM_PENALTY_THRESHOLD = 0.9 # 90% de faim = Défaite
 INITIAL_LEVEL = 1
-# --- ÉTATS DU MODÈLE MiRobot (Doit correspondre à MiRobotEnv.py) ---
 CMD_AVANCER = 0
 CMD_TOURNER = 1
 ETAT_FAIM = 2
 ETAT_SOMMEIL = 3
 ETAT_HUMEUR = 4
-# Map des actions du modèle
 ACTION_MAP_MODEL = {0: "S'Arrêter", 1: "Avancer", 2: "Tourner G", 3: "Tourner D"}
-# Map des commandes utilisateur aux ID d'action du modèle (si obéissance)
 ACTION_MAP_USER = {
     "AVANCER": 1,
     "TOURNER À GAUCHE": 2,
@@ -41,7 +39,7 @@ ACTION_MAP_USER = {
 }
 # ----------------------------------------------------------------------
-# 1. PRÉPARATION DU MODÈLE ET DE L'ENVIRONNEMENT (CORRECTION INCLUSES)
 # ----------------------------------------------------------------------
 model = None
@@ -60,22 +58,16 @@ try:
     env_path = hf_hub_download(repo_id=REPO_ID, filename=ENV_SCRIPT_FILE, local_dir=TEMP_DIR)
     # INJECTION DE DÉPENDANCES pour que MiRobotEnv.py fonctionne
-    env_globals = {
-        'gym': gym,
-        'np': np,
-        'spaces': spaces
-    }
     with open(env_path, 'r') as f:
         exec(f.read(), env_globals)
-    # Récupérer la classe MiRobotEnv
     MiRobotEnv = env_globals['MiRobotEnv']
     print("Classe MiRobotEnv définie avec succès.")
     # --- 2. Enregistrement de l'environnement Custom ---
-    # On passe la classe elle-même à entry_point
     register(
         id=ENV_ID,
         entry_point=MiRobotEnv,
@@ -88,7 +80,7 @@ try:
     model = PPO.load(model_path)
     env = gym.make(ENV_ID)
-    env.reset() # Initialise l'état interne
     # Lecture des états initiaux pour l'interface Gradio (Utilisation sûre)
     initial_faim = env.state[ETAT_FAIM] * 100
@@ -98,19 +90,17 @@ try:
 except Exception as e:
     print(f"❌ ERREUR CRITIQUE lors du chargement de MiRobot: {e}")
-    # Les valeurs initial_faim/humeur restent à 0.0, évitant l'AttributeError
 # ----------------------------------------------------------------------
 # 2. LOGIQUE DU JEU
 # ----------------------------------------------------------------------
-# L'état initial du jeu (dépend des constantes et des valeurs lues)
 game_state_initial = {
     'level': INITIAL_LEVEL,
     'puppy_pos': [GRID_SIZE // 2, GRID_SIZE // 2],
     'reward_pos': [0, 0],
-    'last_command': 'S_ARRETER',
-    'last_action_id': 0,
     'message': 'Bienvenue ! Téléchargez une récompense et commencez !',
     'reward_asset_path': None
 }
@@ -121,9 +111,7 @@ def _reset_game(reward_path):
     new_state = game_state_initial.copy()
     if env is not None:
-        obs, info = env.reset() # Réinitialisation de l'environnement RL
-        # Mettre à jour les valeurs de sortie après reset
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
     else:
@@ -137,40 +125,32 @@ def _reset_game(reward_path):
     return new_state, new_state['puppy_pos'][0], new_state['puppy_pos'][1], new_state['reward_pos'][0], new_state['reward_pos'][1], faim_display, humeur_display, new_state['message']
-def _get_faim_humeur():
-    """Récupère le niveau de faim et d'humeur actuel du chiot."""
-    if env is None or env.state is None:
-        return 0.0, 0.0
-    return env.state[ETAT_FAIM], env.state[ETAT_HUMEUR]
 def handle_user_command(current_state, command_text, reward_path):
-    """
-    Fonction principale appelée par Gradio pour gérer une commande utilisateur.
-    """
     game_state = current_state
     if model is None or env is None:
         return game_state, command_text, 5, 5, 0, 0, '❌ Erreur: Le modèle MiRobot n\'a pas pu être chargé !'
     game_state['reward_asset_path'] = reward_path
     # 2. Vérification de la faim (condition de défaite)
-    faim_actuelle, humeur_actuelle = _get_faim_humeur()
     if faim_actuelle >= FAIM_PENALTY_THRESHOLD:
         game_state['message'] = f'💔 Défaite ! MiRobot a trop faim ({faim_actuelle:.0%}) et ne peut plus obéir. Jeu réinitialisé au Niveau 1.'
         return _reset_game(reward_path)
     # 3. Traitement de la commande utilisateur
     command_upper = command_text.upper()
     if command_upper not in ACTION_MAP_USER:
-        game_state['message'] = f"🤔 MiRobot n'a pas compris l'ordre '{command_text}'. Essayez 'AVANCER', 'TOURNER À GAUCHE', ou 'TOURNER À DROITE'."
         env.state[CMD_AVANCER] = 0.0
         env.state[CMD_TOURNER] = 0.0
         new_obs, mirobot_action, reward, terminated, truncated, info = env.step(0)
-        game_state['last_action_id'] = mirobot_action
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
@@ -179,16 +159,20 @@ def handle_user_command(current_state, command_text, reward_path):
     # 4. Exécution de la décision du Modèle
     command_action_name = command_upper
     env.state[CMD_AVANCER] = 1.0 if command_action_name == "AVANCER" else 0.0
     env.state[CMD_TOURNER] = 1.0 if command_action_name.startswith("TOURNER") else 0.0
     obs = env.state
     mirobot_action_id, _ = model.predict(obs, deterministic=True)
     new_obs, reward, terminated, truncated, info = env.step(mirobot_action_id)
-    # 4.2. Traduire l'action réelle du modèle en mouvement sur la grille
     dx, dy = 0, 0
     if mirobot_action_id == ACTION_MAP_USER[command_action_name]:
@@ -198,7 +182,7 @@ def handle_user_command(current_state, command_text, reward_path):
             rx, ry = game_state['reward_pos']
             px, py = game_state['puppy_pos']
-            # Déplacement simple d'une unité vers la récompense
             if abs(rx - px) > abs(ry - py):
                 dx = 1 if rx > px else -1
             elif abs(ry - py) > 0:
@@ -208,11 +192,10 @@ def handle_user_command(current_state, command_text, reward_path):
         real_action_name = ACTION_MAP_MODEL[mirobot_action_id]
         game_state['message'] = f"😥 MiRobot a désobéi ! Il a fait '{real_action_name}' au lieu de '{command_action_name}'. Faim ou Humeur faible ? Récompense RL: {reward:.2f}"
-    # 4.3. Mise à jour de la position et de l'état du chiot
     new_x = np.clip(game_state['puppy_pos'][0] + dx, 0, GRID_SIZE - 1)
     new_y = np.clip(game_state['puppy_pos'][1] + dy, 0, GRID_SIZE - 1)
     game_state['puppy_pos'] = [new_x, new_y]
-    game_state['last_action_id'] = mirobot_action_id
     faim_display = env.state[ETAT_FAIM] * 100
     humeur_display = env.state[ETAT_HUMEUR]
@@ -220,11 +203,10 @@ def handle_user_command(current_state, command_text, reward_path):
 def handle_bravo(current_state):
-    """Gère l'événement de récompense (le chiot a atteint la zone de récompense)."""
     game_state = current_state
     if env is None:
-        # Sortie sûre en cas d'échec de chargement
         return game_state, game_state['puppy_pos'][0], game_state['puppy_pos'][1], 0, 0, '❌ Erreur: Modèle non chargé.'
     px, py = game_state['puppy_pos']
@@ -233,6 +215,7 @@ def handle_bravo(current_state):
     if px == rx and py == ry:
         game_state['level'] += 1
         env.state[ETAT_FAIM] = np.clip(env.state[ETAT_FAIM] - 0.5, 0.0, 1.0)
         env.state[ETAT_HUMEUR] = np.clip(env.state[ETAT_HUMEUR] + 0.5, -1.0, 1.0)
@@ -246,7 +229,7 @@ def handle_bravo(current_state):
 def _draw_grid(puppy_pos, reward_pos, reward_path):
-    """Dessine la grille de jeu avec le chiot et la récompense."""
     if reward_path is None:
         return "<p style='text-align: center; color: red;'>Veuillez télécharger une image de récompense pour afficher la grille.</p>"
@@ -305,6 +288,8 @@ else:
         gr.Markdown(
             f"""
             # MiRobot - Le Jeu d'Obéissance 🐾
             Bienvenue dans la simulation interactive de votre modèle RL **{REPO_ID}** !
             **Objectif :** Guider MiRobot vers la récompense en donnant des ordres. Attention, sa **Faim** augmente à chaque pas !
             """
@@ -324,7 +309,7 @@ else:
             with gr.Column(scale=1):
                 level_display = gr.Markdown(f"### Niveau Actuel : {INITIAL_LEVEL}")
-                # Correction: Utilisation des valeurs initiales sûres
                 faim_bar = gr.Slider(minimum=0, maximum=100, value=initial_faim, label="Faim de MiRobot (%)", interactive=False)
                 humeur_bar = gr.Slider(minimum=-1.0, maximum=1.0, value=initial_humeur, label="Humeur de MiRobot", interactive=False)
@@ -340,13 +325,13 @@ else:
         message_output = gr.Markdown(f"**Message :** {game_state_initial['message']}")
-        # États cachés pour la position du chiot (Correction: utilisation des valeurs initiales sûres)
         puppy_pos_x = gr.State(game_state_initial['puppy_pos'][0])
         puppy_pos_y = gr.State(game_state_initial['puppy_pos'][1])
         faim_state = gr.State(initial_faim)
         humeur_state = gr.State(initial_humeur)
-        # --- ÉVÉNEMENTS (Le flow des événements est inchangé) ---
         reward_x.change(
             fn=update_reward_pos,

 import gradio as gr
 import numpy as np
 import os
 # Bibliothèques d'IA et de RL
 import gymnasium as gym
 from gymnasium import register, spaces
 from stable_baselines3 import PPO
 from huggingface_hub import hf_hub_download
 # --- PARAMÈTRES DU DÉPÔT HUGGING FACE ---
+# Basé sur vos fichiers.
+REPO_ID = "Clemylia/MiRobot"
 MODEL_FILE = "mirobot_final_model.zip"
 ENV_SCRIPT_FILE = "MiRobotEnv.py"
 ENV_ID = 'MiRobot-v0'
 # --- CONSTANTES DE JEU ---
 GRID_SIZE = 10
+FAIM_PENALTY_THRESHOLD = 0.9
 INITIAL_LEVEL = 1
+# --- INDICES D'ÉTAT ---
+# Basé sur votre MiRobotEnv.py
 CMD_AVANCER = 0
 CMD_TOURNER = 1
 ETAT_FAIM = 2
 ETAT_SOMMEIL = 3
 ETAT_HUMEUR = 4
+# Map des actions du modèle pour l'affichage
 ACTION_MAP_MODEL = {0: "S'Arrêter", 1: "Avancer", 2: "Tourner G", 3: "Tourner D"}
+# Map des commandes utilisateur aux ID d'action du modèle
 ACTION_MAP_USER = {
     "AVANCER": 1,
     "TOURNER À GAUCHE": 2,
 }
 # ----------------------------------------------------------------------
+# 1. PRÉPARATION DU MODÈLE ET DE L'ENVIRONNEMENT (CORRECTION DE L'INITIALISATION)
 # ----------------------------------------------------------------------
 model = None
     env_path = hf_hub_download(repo_id=REPO_ID, filename=ENV_SCRIPT_FILE, local_dir=TEMP_DIR)
     # INJECTION DE DÉPENDANCES pour que MiRobotEnv.py fonctionne
+    env_globals = {'gym': gym, 'np': np, 'spaces': spaces}
     with open(env_path, 'r') as f:
         exec(f.read(), env_globals)
     MiRobotEnv = env_globals['MiRobotEnv']
     print("Classe MiRobotEnv définie avec succès.")
     # --- 2. Enregistrement de l'environnement Custom ---
     register(
         id=ENV_ID,
         entry_point=MiRobotEnv,
     model = PPO.load(model_path)
     env = gym.make(ENV_ID)
+    env.reset() # Initialise l'état interne (self.state est créé ici)
     # Lecture des états initiaux pour l'interface Gradio (Utilisation sûre)
     initial_faim = env.state[ETAT_FAIM] * 100
 except Exception as e:
     print(f"❌ ERREUR CRITIQUE lors du chargement de MiRobot: {e}")
+    # Si échec, model et env restent None, et les valeurs initiales restent 0.0
 # ----------------------------------------------------------------------
 # 2. LOGIQUE DU JEU
 # ----------------------------------------------------------------------
+# L'état initial du jeu
 game_state_initial = {
     'level': INITIAL_LEVEL,
     'puppy_pos': [GRID_SIZE // 2, GRID_SIZE // 2],
     'reward_pos': [0, 0],
     'message': 'Bienvenue ! Téléchargez une récompense et commencez !',
     'reward_asset_path': None
 }
     new_state = game_state_initial.copy()
     if env is not None:
+        obs, info = env.reset() # IMPORTANT : Assure la création de self.state
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
     else:
     return new_state, new_state['puppy_pos'][0], new_state['puppy_pos'][1], new_state['reward_pos'][0], new_state['reward_pos'][1], faim_display, humeur_display, new_state['message']
 def handle_user_command(current_state, command_text, reward_path):
+    """Fonction principale appelée par Gradio pour gérer une commande utilisateur."""
     game_state = current_state
     if model is None or env is None:
+        # Sortie sécurisée en cas d'échec de chargement
         return game_state, command_text, 5, 5, 0, 0, '❌ Erreur: Le modèle MiRobot n\'a pas pu être chargé !'
     game_state['reward_asset_path'] = reward_path
     # 2. Vérification de la faim (condition de défaite)
+    faim_actuelle = env.state[ETAT_FAIM]
     if faim_actuelle >= FAIM_PENALTY_THRESHOLD:
         game_state['message'] = f'💔 Défaite ! MiRobot a trop faim ({faim_actuelle:.0%}) et ne peut plus obéir. Jeu réinitialisé au Niveau 1.'
         return _reset_game(reward_path)
     # 3. Traitement de la commande utilisateur
     command_upper = command_text.upper()
     if command_upper not in ACTION_MAP_USER:
+        game_state['message'] = f"🤔 MiRobot n'a pas compris l'ordre '{command_text}'. Sa faim augmente..."
+        # Simuler un pas de temps (Action 0: S'arrêter) sans commande active pour laisser la faim monter
         env.state[CMD_AVANCER] = 0.0
         env.state[CMD_TOURNER] = 0.0
         new_obs, mirobot_action, reward, terminated, truncated, info = env.step(0)
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
     # 4. Exécution de la décision du Modèle
     command_action_name = command_upper
+    # 4.1. Injecter la commande dans l'état de l'environnement (Observation)
     env.state[CMD_AVANCER] = 1.0 if command_action_name == "AVANCER" else 0.0
     env.state[CMD_TOURNER] = 1.0 if command_action_name.startswith("TOURNER") else 0.0
+    # 4.2. Le modèle prédit l'action réelle (Obéissance ou gestion de besoin)
     obs = env.state
     mirobot_action_id, _ = model.predict(obs, deterministic=True)
+    # 4.3. Exécuter l'action PRÉDITE par le modèle (mise à jour de la faim, humeur)
     new_obs, reward, terminated, truncated, info = env.step(mirobot_action_id)
+    # 4.4. Traduire l'action réelle du modèle en mouvement sur la grille
     dx, dy = 0, 0
     if mirobot_action_id == ACTION_MAP_USER[command_action_name]:
             rx, ry = game_state['reward_pos']
             px, py = game_state['puppy_pos']
+            # Déplacement d'une unité vers la récompense
             if abs(rx - px) > abs(ry - py):
                 dx = 1 if rx > px else -1
             elif abs(ry - py) > 0:
         real_action_name = ACTION_MAP_MODEL[mirobot_action_id]
         game_state['message'] = f"😥 MiRobot a désobéi ! Il a fait '{real_action_name}' au lieu de '{command_action_name}'. Faim ou Humeur faible ? Récompense RL: {reward:.2f}"
+    # 4.5. Mise à jour de la position et de l'état du chiot
     new_x = np.clip(game_state['puppy_pos'][0] + dx, 0, GRID_SIZE - 1)
     new_y = np.clip(game_state['puppy_pos'][1] + dy, 0, GRID_SIZE - 1)
     game_state['puppy_pos'] = [new_x, new_y]
     faim_display = env.state[ETAT_FAIM] * 100
     humeur_display = env.state[ETAT_HUMEUR]
 def handle_bravo(current_state):
+    """Gère l'événement de récompense."""
     game_state = current_state
     if env is None:
         return game_state, game_state['puppy_pos'][0], game_state['puppy_pos'][1], 0, 0, '❌ Erreur: Modèle non chargé.'
     px, py = game_state['puppy_pos']
     if px == rx and py == ry:
         game_state['level'] += 1
+        # Réduction de la faim et augmentation de l'humeur
         env.state[ETAT_FAIM] = np.clip(env.state[ETAT_FAIM] - 0.5, 0.0, 1.0)
         env.state[ETAT_HUMEUR] = np.clip(env.state[ETAT_HUMEUR] + 0.5, -1.0, 1.0)
 def _draw_grid(puppy_pos, reward_pos, reward_path):
+    """Dessine la grille de jeu avec le chiot et la récompense (via HTML/CSS)."""
     if reward_path is None:
         return "<p style='text-align: center; color: red;'>Veuillez télécharger une image de récompense pour afficher la grille.</p>"
         gr.Markdown(
             f"""
             # MiRobot - Le Jeu d'Obéissance 🐾
+            **ATTENTION :** Votre Space a atteint sa limite de stockage (50G). Pour que l'application fonctionne, vous devez supprimer des fichiers ou augmenter la capacité de votre Space.
             Bienvenue dans la simulation interactive de votre modèle RL **{REPO_ID}** !
             **Objectif :** Guider MiRobot vers la récompense en donnant des ordres. Attention, sa **Faim** augmente à chaque pas !
             """
             with gr.Column(scale=1):
                 level_display = gr.Markdown(f"### Niveau Actuel : {INITIAL_LEVEL}")
+                # Utilisation des valeurs initiales sûres
                 faim_bar = gr.Slider(minimum=0, maximum=100, value=initial_faim, label="Faim de MiRobot (%)", interactive=False)
                 humeur_bar = gr.Slider(minimum=-1.0, maximum=1.0, value=initial_humeur, label="Humeur de MiRobot", interactive=False)
         message_output = gr.Markdown(f"**Message :** {game_state_initial['message']}")
+        # États cachés
         puppy_pos_x = gr.State(game_state_initial['puppy_pos'][0])
         puppy_pos_y = gr.State(game_state_initial['puppy_pos'][1])
         faim_state = gr.State(initial_faim)
         humeur_state = gr.State(initial_humeur)
+        # --- ÉVÉNEMENTS ---
         reward_x.change(
             fn=update_reward_pos,