Spaces:

Clemylia
/

Dog-game-guide

Sleeping

App Files Files Community

Clemylia commited on Oct 15

Commit

7b209a1

verified ·

1 Parent(s): 582ec29

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -45

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ from stable_baselines3 import PPO
 from huggingface_hub import hf_hub_download
 # --- PARAMÈTRES DU DÉPÔT HUGGING FACE ---
-# Basé sur vos fichiers.
 REPO_ID = "Clemylia/MiRobot"
 MODEL_FILE = "mirobot_final_model.zip"
 ENV_SCRIPT_FILE = "MiRobotEnv.py"
@@ -21,17 +20,14 @@ FAIM_PENALTY_THRESHOLD = 0.9
 INITIAL_LEVEL = 1
 # --- INDICES D'ÉTAT ---
-# Basé sur votre MiRobotEnv.py
 CMD_AVANCER = 0
 CMD_TOURNER = 1
 ETAT_FAIM = 2
 ETAT_SOMMEIL = 3
 ETAT_HUMEUR = 4
-# Map des actions du modèle pour l'affichage
 ACTION_MAP_MODEL = {0: "S'Arrêter", 1: "Avancer", 2: "Tourner G", 3: "Tourner D"}
-# Map des commandes utilisateur aux ID d'action du modèle
 ACTION_MAP_USER = {
     "AVANCER": 1,
     "TOURNER À GAUCHE": 2,
@@ -39,7 +35,7 @@ ACTION_MAP_USER = {
 }
 # ----------------------------------------------------------------------
-# 1. PRÉPARATION DU MODÈLE ET DE L'ENVIRONNEMENT (CORRECTION DE L'INITIALISATION)
 # ----------------------------------------------------------------------
 model = None
@@ -54,12 +50,11 @@ try:
     TEMP_DIR = "./mirobot_assets"
     os.makedirs(TEMP_DIR, exist_ok=True)
-    # --- 1. Téléchargement et Chargement de la classe MiRobotEnv ---
     env_path = hf_hub_download(repo_id=REPO_ID, filename=ENV_SCRIPT_FILE, local_dir=TEMP_DIR)
     # INJECTION DE DÉPENDANCES pour que MiRobotEnv.py fonctionne
     env_globals = {'gym': gym, 'np': np, 'spaces': spaces}
     with open(env_path, 'r') as f:
         exec(f.read(), env_globals)
@@ -72,7 +67,6 @@ try:
         id=ENV_ID,
         entry_point=MiRobotEnv,
     )
-    print(f"Environnement '{ENV_ID}' enregistré avec succès.")
     # --- 3. Chargement du Modèle et de l'Environnement ---
@@ -80,9 +74,8 @@ try:
     model = PPO.load(model_path)
     env = gym.make(ENV_ID)
-    env.reset() # Initialise l'état interne (self.state est créé ici)
-    # Lecture des états initiaux pour l'interface Gradio (Utilisation sûre)
     initial_faim = env.state[ETAT_FAIM] * 100
     initial_humeur = env.state[ETAT_HUMEUR]
@@ -90,8 +83,8 @@ try:
 except Exception as e:
     print(f"❌ ERREUR CRITIQUE lors du chargement de MiRobot: {e}")
-    # Si échec, model et env restent None, et les valeurs initiales restent 0.0
 # ----------------------------------------------------------------------
 # 2. LOGIQUE DU JEU
 # ----------------------------------------------------------------------
@@ -106,12 +99,12 @@ game_state_initial = {
 }
 def _reset_game(reward_path):
-    """Réinitialise les positions et l'état interne du chiot pour un nouveau jeu."""
     new_state = game_state_initial.copy()
     if env is not None:
-        obs, info = env.reset() # IMPORTANT : Assure la création de self.state
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
     else:
@@ -123,34 +116,31 @@ def _reset_game(reward_path):
         'message': f'Jeu réinitialisé. Niveau {INITIAL_LEVEL}. Placez la récompense !'
     })
     return new_state, new_state['puppy_pos'][0], new_state['puppy_pos'][1], new_state['reward_pos'][0], new_state['reward_pos'][1], faim_display, humeur_display, new_state['message']
 def handle_user_command(current_state, command_text, reward_path):
-    """Fonction principale appelée par Gradio pour gérer une commande utilisateur."""
     game_state = current_state
     if model is None or env is None:
-        # Sortie sécurisée en cas d'échec de chargement
         return game_state, command_text, 5, 5, 0, 0, '❌ Erreur: Le modèle MiRobot n\'a pas pu être chargé !'
     game_state['reward_asset_path'] = reward_path
-    # 2. Vérification de la faim (condition de défaite)
     faim_actuelle = env.state[ETAT_FAIM]
     if faim_actuelle >= FAIM_PENALTY_THRESHOLD:
-        game_state['message'] = f'💔 Défaite ! MiRobot a trop faim ({faim_actuelle:.0%}) et ne peut plus obéir. Jeu réinitialisé au Niveau 1.'
         return _reset_game(reward_path)
-    # 3. Traitement de la commande utilisateur
     command_upper = command_text.upper()
     if command_upper not in ACTION_MAP_USER:
         game_state['message'] = f"🤔 MiRobot n'a pas compris l'ordre '{command_text}'. Sa faim augmente..."
-        # Simuler un pas de temps (Action 0: S'arrêter) sans commande active pour laisser la faim monter
         env.state[CMD_AVANCER] = 0.0
         env.state[CMD_TOURNER] = 0.0
-        new_obs, mirobot_action, reward, terminated, truncated, info = env.step(0)
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
@@ -160,19 +150,13 @@ def handle_user_command(current_state, command_text, reward_path):
     # 4. Exécution de la décision du Modèle
     command_action_name = command_upper
-    # 4.1. Injecter la commande dans l'état de l'environnement (Observation)
     env.state[CMD_AVANCER] = 1.0 if command_action_name == "AVANCER" else 0.0
     env.state[CMD_TOURNER] = 1.0 if command_action_name.startswith("TOURNER") else 0.0
-    # 4.2. Le modèle prédit l'action réelle (Obéissance ou gestion de besoin)
-    obs = env.state
-    mirobot_action_id, _ = model.predict(obs, deterministic=True)
-    # 4.3. Exécuter l'action PRÉDITE par le modèle (mise à jour de la faim, humeur)
     new_obs, reward, terminated, truncated, info = env.step(mirobot_action_id)
-    # 4.4. Traduire l'action réelle du modèle en mouvement sur la grille
     dx, dy = 0, 0
     if mirobot_action_id == ACTION_MAP_USER[command_action_name]:
@@ -190,9 +174,9 @@ def handle_user_command(current_state, command_text, reward_path):
     else:
         real_action_name = ACTION_MAP_MODEL[mirobot_action_id]
-        game_state['message'] = f"😥 MiRobot a désobéi ! Il a fait '{real_action_name}' au lieu de '{command_action_name}'. Faim ou Humeur faible ? Récompense RL: {reward:.2f}"
-    # 4.5. Mise à jour de la position et de l'état du chiot
     new_x = np.clip(game_state['puppy_pos'][0] + dx, 0, GRID_SIZE - 1)
     new_y = np.clip(game_state['puppy_pos'][1] + dy, 0, GRID_SIZE - 1)
     game_state['puppy_pos'] = [new_x, new_y]
@@ -215,7 +199,6 @@ def handle_bravo(current_state):
     if px == rx and py == ry:
         game_state['level'] += 1
-        # Réduction de la faim et augmentation de l'humeur
         env.state[ETAT_FAIM] = np.clip(env.state[ETAT_FAIM] - 0.5, 0.0, 1.0)
         env.state[ETAT_HUMEUR] = np.clip(env.state[ETAT_HUMEUR] + 0.5, -1.0, 1.0)
@@ -228,8 +211,11 @@ def handle_bravo(current_state):
     return game_state, game_state['puppy_pos'][0], game_state['puppy_pos'][1], faim_display, humeur_display, game_state['message']
-def _draw_grid(puppy_pos, reward_pos, reward_path):
-    """Dessine la grille de jeu avec le chiot et la récompense (via HTML/CSS)."""
     if reward_path is None:
         return "<p style='text-align: center; color: red;'>Veuillez télécharger une image de récompense pour afficher la grille.</p>"
@@ -244,11 +230,14 @@ def _draw_grid(puppy_pos, reward_pos, reward_path):
             style = "border: 1px dotted #ccc; display: flex; align-items: center; justify-content: center; position: relative;"
             content = ""
-            if [x, y] == puppy_pos:
                 content = puppy_icon
-            if [x, y] == reward_pos:
-                if [x, y] == puppy_pos:
                     style += "background-color: #d4edda;"
                 else:
                     content += f"<img src='{reward_src}' style='width: 80%; height: 80%; object-fit: contain;'/>"
@@ -273,6 +262,12 @@ def update_reward_pos(current_state, reward_x, reward_y, reward_path):
 # 3. INTERFACE GRADIO
 # ----------------------------------------------------------------------
 if model is None:
     demo = gr.Interface(
         fn=lambda: "Le modèle MiRobot n'a pas pu être chargé. Vérifiez les logs ou le REPO_ID.",
@@ -288,8 +283,6 @@ else:
         gr.Markdown(
             f"""
             # MiRobot - Le Jeu d'Obéissance 🐾
-            **ATTENTION :** Votre Space a atteint sa limite de stockage (50G). Pour que l'application fonctionne, vous devez supprimer des fichiers ou augmenter la capacité de votre Space.
             Bienvenue dans la simulation interactive de votre modèle RL **{REPO_ID}** !
             **Objectif :** Guider MiRobot vers la récompense en donnant des ordres. Attention, sa **Faim** augmente à chaque pas !
             """
@@ -304,7 +297,7 @@ else:
                     reward_x = gr.Slider(minimum=0, maximum=GRID_SIZE - 1, step=1, value=0, label="2. Pos. Récompense X")
                     reward_y = gr.Slider(minimum=0, maximum=GRID_SIZE - 1, step=1, value=0, label="2. Pos. Récompense Y")
-                grid_display = gr.HTML(label="Plateau de Jeu (10x10)", value=_draw_grid(game_state_initial['puppy_pos'], game_state_initial['reward_pos'], None))
             with gr.Column(scale=1):
                 level_display = gr.Markdown(f"### Niveau Actuel : {INITIAL_LEVEL}")
@@ -333,13 +326,15 @@ else:
         # --- ÉVÉNEMENTS ---
         reward_x.change(
             fn=update_reward_pos,
             inputs=[game_state_json, reward_x, reward_y, reward_file],
             outputs=[game_state_json, message_output]
         ).then(
             fn=_draw_grid,
-            inputs=[[puppy_pos_x, puppy_pos_y], [reward_x, reward_y], reward_file],
             outputs=grid_display
         )
@@ -348,11 +343,13 @@ else:
             inputs=[game_state_json, reward_x, reward_y, reward_file],
             outputs=[game_state_json, message_output]
         ).then(
             fn=_draw_grid,
-            inputs=[[puppy_pos_x, puppy_pos_y], [reward_x, reward_y], reward_file],
             outputs=grid_display
         )
         action_btn.click(
             fn=handle_user_command,
             inputs=[game_state_json, command_input, reward_file],
@@ -361,8 +358,14 @@ else:
             fn=lambda g, f, h: [f"### Niveau Actuel : {g['level']}", f, h],
             inputs=[game_state_json, faim_state, humeur_state],
             outputs=[level_display, faim_bar, humeur_bar]
         )
         bravo_btn.click(
             fn=handle_bravo,
             inputs=[game_state_json],
@@ -371,8 +374,14 @@ else:
             fn=lambda g, f, h: [f"### Niveau Actuel : {g['level']}", f, h],
             inputs=[game_state_json, faim_state, humeur_state],
             outputs=[level_display, faim_bar, humeur_bar]
         )
         reset_btn.click(
             fn=_reset_game,
             inputs=[reward_file],
@@ -381,11 +390,18 @@ else:
             fn=lambda g: f"### Niveau Actuel : {g['level']}",
             inputs=[game_state_json],
             outputs=level_display
         )
         reward_file.change(
-            fn=lambda path, x, y, px, py: _draw_grid([px, py], [x, y], path),
-            inputs=[reward_file, reward_x, reward_y, puppy_pos_x, puppy_pos_y],
             outputs=grid_display
         )

 from huggingface_hub import hf_hub_download
 # --- PARAMÈTRES DU DÉPÔT HUGGING FACE ---
 REPO_ID = "Clemylia/MiRobot"
 MODEL_FILE = "mirobot_final_model.zip"
 ENV_SCRIPT_FILE = "MiRobotEnv.py"
 INITIAL_LEVEL = 1
 # --- INDICES D'ÉTAT ---
 CMD_AVANCER = 0
 CMD_TOURNER = 1
 ETAT_FAIM = 2
 ETAT_SOMMEIL = 3
 ETAT_HUMEUR = 4
+# Map des actions
 ACTION_MAP_MODEL = {0: "S'Arrêter", 1: "Avancer", 2: "Tourner G", 3: "Tourner D"}
 ACTION_MAP_USER = {
     "AVANCER": 1,
     "TOURNER À GAUCHE": 2,
 }
 # ----------------------------------------------------------------------
+# 1. PRÉPARATION DU MODÈLE ET DE L'ENVIRONNEMENT
 # ----------------------------------------------------------------------
 model = None
     TEMP_DIR = "./mirobot_assets"
     os.makedirs(TEMP_DIR, exist_ok=True)
+    # --- 1. Chargement de la classe MiRobotEnv ---
     env_path = hf_hub_download(repo_id=REPO_ID, filename=ENV_SCRIPT_FILE, local_dir=TEMP_DIR)
     # INJECTION DE DÉPENDANCES pour que MiRobotEnv.py fonctionne
     env_globals = {'gym': gym, 'np': np, 'spaces': spaces}
     with open(env_path, 'r') as f:
         exec(f.read(), env_globals)
         id=ENV_ID,
         entry_point=MiRobotEnv,
     )
     # --- 3. Chargement du Modèle et de l'Environnement ---
     model = PPO.load(model_path)
     env = gym.make(ENV_ID)
+    env.reset() # IMPORTANT : Assure la création de self.state
     initial_faim = env.state[ETAT_FAIM] * 100
     initial_humeur = env.state[ETAT_HUMEUR]
 except Exception as e:
     print(f"❌ ERREUR CRITIQUE lors du chargement de MiRobot: {e}")
+    # initial_faim/humeur restent à 0.0
 # ----------------------------------------------------------------------
 # 2. LOGIQUE DU JEU
 # ----------------------------------------------------------------------
 }
 def _reset_game(reward_path):
+    """Réinitialise les positions et l'état interne du chiot."""
     new_state = game_state_initial.copy()
     if env is not None:
+        obs, info = env.reset()
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
     else:
         'message': f'Jeu réinitialisé. Niveau {INITIAL_LEVEL}. Placez la récompense !'
     })
+    # On retourne les composants séparément
     return new_state, new_state['puppy_pos'][0], new_state['puppy_pos'][1], new_state['reward_pos'][0], new_state['reward_pos'][1], faim_display, humeur_display, new_state['message']
 def handle_user_command(current_state, command_text, reward_path):
+    """Gère une commande utilisateur et l'action du modèle RL."""
     game_state = current_state
     if model is None or env is None:
         return game_state, command_text, 5, 5, 0, 0, '❌ Erreur: Le modèle MiRobot n\'a pas pu être chargé !'
     game_state['reward_asset_path'] = reward_path
+    # Vérification de la faim (défaite)
     faim_actuelle = env.state[ETAT_FAIM]
     if faim_actuelle >= FAIM_PENALTY_THRESHOLD:
+        game_state['message'] = f'💔 Défaite ! MiRobot a trop faim ({faim_actuelle:.0%}). Jeu réinitialisé.'
         return _reset_game(reward_path)
     command_upper = command_text.upper()
     if command_upper not in ACTION_MAP_USER:
         game_state['message'] = f"🤔 MiRobot n'a pas compris l'ordre '{command_text}'. Sa faim augmente..."
         env.state[CMD_AVANCER] = 0.0
         env.state[CMD_TOURNER] = 0.0
+        env.step(0) # Action 0: S'arrêter
         faim_display = env.state[ETAT_FAIM] * 100
         humeur_display = env.state[ETAT_HUMEUR]
     # 4. Exécution de la décision du Modèle
     command_action_name = command_upper
     env.state[CMD_AVANCER] = 1.0 if command_action_name == "AVANCER" else 0.0
     env.state[CMD_TOURNER] = 1.0 if command_action_name.startswith("TOURNER") else 0.0
+    mirobot_action_id, _ = model.predict(env.state, deterministic=True)
     new_obs, reward, terminated, truncated, info = env.step(mirobot_action_id)
     dx, dy = 0, 0
     if mirobot_action_id == ACTION_MAP_USER[command_action_name]:
     else:
         real_action_name = ACTION_MAP_MODEL[mirobot_action_id]
+        game_state['message'] = f"😥 MiRobot a désobéi ! Il a fait '{real_action_name}' au lieu de '{command_action_name}'. Récompense RL: {reward:.2f}"
+    # Mise à jour de la position
     new_x = np.clip(game_state['puppy_pos'][0] + dx, 0, GRID_SIZE - 1)
     new_y = np.clip(game_state['puppy_pos'][1] + dy, 0, GRID_SIZE - 1)
     game_state['puppy_pos'] = [new_x, new_y]
     if px == rx and py == ry:
         game_state['level'] += 1
         env.state[ETAT_FAIM] = np.clip(env.state[ETAT_FAIM] - 0.5, 0.0, 1.0)
         env.state[ETAT_HUMEUR] = np.clip(env.state[ETAT_HUMEUR] + 0.5, -1.0, 1.0)
     return game_state, game_state['puppy_pos'][0], game_state['puppy_pos'][1], faim_display, humeur_display, game_state['message']
+def _draw_grid(px, py, rx, ry, reward_path):
+    """
+    Dessine la grille de jeu avec le chiot et la récompense.
+    REMARQUE : Prend maintenant les coordonnées séparément.
+    """
     if reward_path is None:
         return "<p style='text-align: center; color: red;'>Veuillez télécharger une image de récompense pour afficher la grille.</p>"
             style = "border: 1px dotted #ccc; display: flex; align-items: center; justify-content: center; position: relative;"
             content = ""
+            is_puppy = (x == px and y == py)
+            is_reward = (x == rx and y == ry)
+            if is_puppy:
                 content = puppy_icon
+            if is_reward:
+                if is_puppy:
                     style += "background-color: #d4edda;"
                 else:
                     content += f"<img src='{reward_src}' style='width: 80%; height: 80%; object-fit: contain;'/>"
 # 3. INTERFACE GRADIO
 # ----------------------------------------------------------------------
+# Assurer une valeur initiale pour l'affichage de la grille
+initial_grid_html = _draw_grid(game_state_initial['puppy_pos'][0], game_state_initial['puppy_pos'][1],
+                               game_state_initial['reward_pos'][0], game_state_initial['reward_pos'][1],
+                               None)
 if model is None:
     demo = gr.Interface(
         fn=lambda: "Le modèle MiRobot n'a pas pu être chargé. Vérifiez les logs ou le REPO_ID.",
         gr.Markdown(
             f"""
             # MiRobot - Le Jeu d'Obéissance 🐾
             Bienvenue dans la simulation interactive de votre modèle RL **{REPO_ID}** !
             **Objectif :** Guider MiRobot vers la récompense en donnant des ordres. Attention, sa **Faim** augmente à chaque pas !
             """
                     reward_x = gr.Slider(minimum=0, maximum=GRID_SIZE - 1, step=1, value=0, label="2. Pos. Récompense X")
                     reward_y = gr.Slider(minimum=0, maximum=GRID_SIZE - 1, step=1, value=0, label="2. Pos. Récompense Y")
+                grid_display = gr.HTML(label="Plateau de Jeu (10x10)", value=initial_grid_html)
             with gr.Column(scale=1):
                 level_display = gr.Markdown(f"### Niveau Actuel : {INITIAL_LEVEL}")
         # --- ÉVÉNEMENTS ---
+        # 1. Mise à jour de la position de la récompense
         reward_x.change(
             fn=update_reward_pos,
             inputs=[game_state_json, reward_x, reward_y, reward_file],
             outputs=[game_state_json, message_output]
         ).then(
+             # CORRECTION MAJEURE: Passer puppy_pos_x et puppy_pos_y séparément
             fn=_draw_grid,
+            inputs=[puppy_pos_x, puppy_pos_y, reward_x, reward_y, reward_file],
             outputs=grid_display
         )
             inputs=[game_state_json, reward_x, reward_y, reward_file],
             outputs=[game_state_json, message_output]
         ).then(
+            # CORRECTION MAJEURE: Passer puppy_pos_x et puppy_pos_y séparément
             fn=_draw_grid,
+            inputs=[puppy_pos_x, puppy_pos_y, reward_x, reward_y, reward_file],
             outputs=grid_display
         )
+        # 2. Gestion de l'Action (Bouton "Donner l'Ordre")
         action_btn.click(
             fn=handle_user_command,
             inputs=[game_state_json, command_input, reward_file],
             fn=lambda g, f, h: [f"### Niveau Actuel : {g['level']}", f, h],
             inputs=[game_state_json, faim_state, humeur_state],
             outputs=[level_display, faim_bar, humeur_bar]
+        ).then(
+            # Mise à jour de la grille après le mouvement du chiot
+            fn=_draw_grid,
+            inputs=[puppy_pos_x, puppy_pos_y, reward_x, reward_y, reward_file],
+            outputs=grid_display
         )
+        # 3. Gestion du "Bravo"
         bravo_btn.click(
             fn=handle_bravo,
             inputs=[game_state_json],
             fn=lambda g, f, h: [f"### Niveau Actuel : {g['level']}", f, h],
             inputs=[game_state_json, faim_state, humeur_state],
             outputs=[level_display, faim_bar, humeur_bar]
+        ).then(
+            # Mise à jour de la grille (même si la position ne change pas, les couleurs peuvent)
+            fn=_draw_grid,
+            inputs=[puppy_pos_x, puppy_pos_y, reward_x, reward_y, reward_file],
+            outputs=grid_display
         )
+        # 4. Réinitialisation du Jeu
         reset_btn.click(
             fn=_reset_game,
             inputs=[reward_file],
             fn=lambda g: f"### Niveau Actuel : {g['level']}",
             inputs=[game_state_json],
             outputs=level_display
+        ).then(
+             # Mise à jour de la grille après réinitialisation
+            fn=_draw_grid,
+            inputs=[puppy_pos_x, puppy_pos_y, reward_x, reward_y, reward_file],
+            outputs=grid_display
         )
+        # Mise à jour de la grille lorsque le fichier de récompense change
         reward_file.change(
+             # CORRECTION MAJEURE: on passe les états de position (x, y) au lieu de les reconstruire
+            fn=_draw_grid,
+            inputs=[puppy_pos_x, puppy_pos_y, reward_x, reward_y, reward_file],
             outputs=grid_display
         )