Spaces:

whyu
/

MM-Vet_Evaluator

Running

App Files Files Community

whyu commited on Sep 21

Commit

2bf38f8

1 Parent(s): fe5a20d

support free gpt-4.1 with our key

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +71 -49
requirements.txt +1 -1

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🐨
 colorFrom: gray
 colorTo: gray
 sdk: gradio
-sdk_version: 4.36.0
 app_file: app.py
 pinned: false
 license: apache-2.0

 colorFrom: gray
 colorTo: gray
 sdk: gradio
+sdk_version: 5.46.1
 app_file: app.py
 pinned: false
 license: apache-2.0

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-import openai
 import json
 import os
 import uuid
@@ -52,9 +52,16 @@ def schedule_cleanup(paths, delay=600):
     threading.Thread(target=_clean, daemon=True).start()
-def grade(file_obj, key, model, progress=gr.Progress()):
-    # set set api key
-    openai.api_key = key
     gpt_model = model
     workdir = tempfile.mkdtemp(prefix="mmvet_grade_")
@@ -135,9 +142,9 @@ def grade(file_obj, key, model, progress=gr.Progress()):
     # model_results_file = os.path.join(result_path, f"{model}.json")
     model_results_file = file_obj.name
-    grade_file = os.path.join(workdir, f'{model_name}_{gpt_model}-grade-{num_run}runs_{uid}.json')
-    cap_score_file = os.path.join(workdir, f'{model_name}_{sub_set_name}{gpt_model}-cap-score-{num_run}runs_{uid}.csv')
-    cap_int_score_file = os.path.join(workdir, f'{model_name}_{sub_set_name}{gpt_model}-cap-int-score-{num_run}runs_{uid}.csv')
     zip_file = os.path.join(workdir, f"results_{uid}.zip")
@@ -189,13 +196,13 @@ def grade(file_obj, key, model, progress=gr.Progress()):
                 num_sleep = 0
                 while not grade_sample_run_complete:
                     try:
-                        response = openai.ChatCompletion.create(
                             model=gpt_model,
                             # engine=gpt_model, # For Azure OpenAI
                             max_tokens=3,
                             temperature=temperature,
                             messages=messages)
-                        content = response['choices'][0]['message']['content']
                         flag = True
                         try_time = 1
                         while flag:
@@ -210,13 +217,13 @@ def grade(file_obj, key, model, progress=gr.Progress()):
                                 messages = [
                                 {"role": "user", "content": question},
                                 ]
-                                response = openai.ChatCompletion.create(
                                     model=gpt_model,
                                     # engine=gpt_model, # For Azure OpenAI
                                     max_tokens=3,
                                     temperature=temperature,
                                     messages=messages)
-                                content = response['choices'][0]['message']['content']
                                 try_time += 1
                                 temperature += 0.5
                                 print(f"{id} try {try_time} times")
@@ -238,7 +245,7 @@ def grade(file_obj, key, model, progress=gr.Progress()):
                         time.sleep(5)
-                resp_model = str(response.get('model', gpt_model))
                 content_str = str(content)
                 if len(sample_grade['model']) >= j + 1:
@@ -292,14 +299,14 @@ def grade(file_obj, key, model, progress=gr.Progress()):
     cap_socres['std'] = std
     cap_socres['runs'] = runs
-    df.loc[model] = cap_socres
     for k, v in cap_socres2.items():
         cap_socres2[k] = round(np.mean(np.array(v) / counter2[k] *100), decimal_places)
     cap_socres2['std'] = std
     cap_socres2['runs'] = runs
-    df2.loc[model] = cap_socres2
     df.to_csv(cap_score_file)
     df2.to_csv(cap_int_score_file)
@@ -325,37 +332,25 @@ def grade(file_obj, key, model, progress=gr.Progress()):
 # --- Validate key and model before running grading ---
 def validate_key_and_model(key: str, model: str, api_base: str = None):
-    openai.api_key = key.strip()
-    if api_base and api_base.strip():
-        openai.api_base = api_base.strip()   # 用户自定义 api_base
-    else:
-        openai.api_base = "https://api.openai.com/v1"  # ���认官方 OpenAI
     try:
-        openai.Model.retrieve(model)
         return True, "OK"
-    except openai.error.AuthenticationError:
-        return False, "Invalid OpenAI API key. Please check and try again."
-    except openai.error.InvalidRequestError as e:
-        msg = str(e)
-        if "does not exist" in msg or "You do not have access" in msg or "model_not_found" in msg:
-            return False, f"API key is valid, but you do not have access to model `{model}`."
-        return False, f"Invalid request: {msg}"
-    except openai.error.RateLimitError:
-        return False, "Rate limit or quota exceeded. Please try again later."
-    except openai.error.APIConnectionError:
-        return False, "Failed to connect to OpenAI service. Please check your network."
-    except openai.error.OpenAIError as e:
-        return False, f"OpenAI returned an error: {e}"
     except Exception as e:
-        return False, f"Unexpected error: {e}"
 # --- Wrapper for the grading function ---
 def run_grade(file_obj, key, model, api_base, progress=gr.Progress(track_tqdm=True)):
-    ok, msg = validate_key_and_model(key, model, api_base)
-    if not ok:
-        raise gr.Error(msg)
-    return grade(file_obj, key, model, progress=progress)
 markdown = """
@@ -378,21 +373,48 @@ The grading results will be downloaded as a zip file.
 with gr.Blocks() as demo:
     gr.Markdown(markdown)
-    key = gr.Textbox(label=f"Enter your OpenAI API Key (this space will not save your API Key). [Pay Attention]: this evaluaiton may cost several dollars, please notice your OpenAI API Key balance.", type="password")
-    api_base = gr.Textbox(
-        label="Enter your OpenAI API Base (leave empty to use official OpenAI)",
-        value=""
-    )
     model = gr.Dropdown(
-        choices=["gpt-4-0613", "gpt-4.1", "gpt-4-turbo"],
         value="gpt-4.1",
-        label="Select GPt-4 model version (gpt-4-0613 is the default in the paper). Price per 1M input tokens: gpt-4.1 $2.00, gpt-4-turbo $10.00, gpt-4-0613 $30.00"
     )
     with gr.Row():
-        inp = gr.File(file_types=[".json"])
-        out = gr.File(file_types=[".zip"])
     btn = gr.Button("Start grading", variant="primary")
-    btn.click(fn=run_grade, inputs=[inp, key, model, api_base], outputs=out)
 if __name__ == "__main__":
     demo.queue(max_size=8).launch()

 import gradio as gr
+from openai import OpenAI
 import json
 import os
 import uuid
     threading.Thread(target=_clean, daemon=True).start()
+def grade(file_obj, key, model, api_base, progress=gr.Progress()):
+    if "mmvet" in model:
+        # use our api key for users
+        key = os.environ.get("AZURE_OPENAI_KEY")
+        api_base = os.environ.get("AZURE_OPENAI_ENDPOINT")
+    client = OpenAI(
+        base_url=api_base.strip() if api_base and api_base.strip() else "https://api.openai.com/v1",
+        api_key=key.strip()
+    )
     gpt_model = model
     workdir = tempfile.mkdtemp(prefix="mmvet_grade_")
     # model_results_file = os.path.join(result_path, f"{model}.json")
     model_results_file = file_obj.name
+    grade_file = os.path.join(workdir, f'{model_name}_{gpt_model.replace("-mmvet", "")}-grade-{num_run}runs_{uid}.json')
+    cap_score_file = os.path.join(workdir, f'{model_name}_{sub_set_name}{gpt_model.replace("-mmvet", "")}-cap-score-{num_run}runs_{uid}.csv')
+    cap_int_score_file = os.path.join(workdir, f'{model_name}_{sub_set_name}{gpt_model.replace("-mmvet", "")}-cap-int-score-{num_run}runs_{uid}.csv')
     zip_file = os.path.join(workdir, f"results_{uid}.zip")
                 num_sleep = 0
                 while not grade_sample_run_complete:
                     try:
+                        response = client.chat.completions.create(
                             model=gpt_model,
                             # engine=gpt_model, # For Azure OpenAI
                             max_tokens=3,
                             temperature=temperature,
                             messages=messages)
+                        content = response.choices[0].message.content
                         flag = True
                         try_time = 1
                         while flag:
                                 messages = [
                                 {"role": "user", "content": question},
                                 ]
+                                response = client.chat.completions.create(
                                     model=gpt_model,
                                     # engine=gpt_model, # For Azure OpenAI
                                     max_tokens=3,
                                     temperature=temperature,
                                     messages=messages)
+                                content = response.choices[0].message.content
                                 try_time += 1
                                 temperature += 0.5
                                 print(f"{id} try {try_time} times")
                         time.sleep(5)
+                resp_model = (getattr(response, "model", None) or gpt_model)
                 content_str = str(content)
                 if len(sample_grade['model']) >= j + 1:
     cap_socres['std'] = std
     cap_socres['runs'] = runs
+    df.loc[gpt_model.replace("-mmvet", "")] = cap_socres
     for k, v in cap_socres2.items():
         cap_socres2[k] = round(np.mean(np.array(v) / counter2[k] *100), decimal_places)
     cap_socres2['std'] = std
     cap_socres2['runs'] = runs
+    df2.loc[gpt_model.replace("-mmvet", "")] = cap_socres2
     df.to_csv(cap_score_file)
     df2.to_csv(cap_int_score_file)
 # --- Validate key and model before running grading ---
 def validate_key_and_model(key: str, model: str, api_base: str = None):
     try:
+        client = OpenAI(
+            base_url=api_base.strip() if api_base and api_base.strip() else "https://api.openai.com/v1",
+            api_key=key.strip()
+        )
+        client.models.retrieve(model)
         return True, "OK"
     except Exception as e:
+        return False, str(e)
 # --- Wrapper for the grading function ---
 def run_grade(file_obj, key, model, api_base, progress=gr.Progress(track_tqdm=True)):
+    if model is None:
+        model = "gpt-4.1-mmvet"
+    if "mmvet" not in model:
+        ok, msg = validate_key_and_model(key, model, api_base)
+        if not ok:
+            raise gr.Error(msg)
+    return grade(file_obj, key, model, api_base, progress=progress)
 markdown = """
 with gr.Blocks() as demo:
     gr.Markdown(markdown)
+    # Model selection
     model = gr.Dropdown(
+        choices=["gpt-4.1", "gpt-4-0613", "gpt-4-turbo"],
         value="gpt-4.1",
+        label="Select model (gpt-4.1 is free with our api key)"
     )
+    # User OpenAI fields (only for non-Azure models)
+    with gr.Row():
+        user_key = gr.Textbox(
+            label="Your OpenAI API Key (required for gpt-4-0613 (default in the paper) / gpt-4-turbo). The evaluation may cost several dollars, please notice your OpenAI API Key balance. 1M input tokens: gpt-4-turbo $10.00, gpt-4-0613 $30.00",
+            type="password",
+            visible=False
+        )
+        user_api_base = gr.Textbox(
+            label="Your OpenAI Base URL (optional, leave empty for official)",
+            value="",
+            visible=False
+        )
+    # File I/O
     with gr.Row():
+        inp = gr.File(file_types=[".json"], label="Upload your model result JSON")
+        out = gr.File(file_types=[".zip"], label="Download grading results")
     btn = gr.Button("Start grading", variant="primary")
+    # Toggle fields based on selection
+    def _toggle_fields(selected):
+        if selected == "gpt-4.1":
+            return gr.update(visible=False), gr.update(visible=False)
+        else:
+            return gr.update(visible=True), gr.update(visible=True)
+    model.change(_toggle_fields, inputs=[model], outputs=[user_key, user_api_base])
+    # Click handler
+    btn.click(
+        fn=run_grade,
+        inputs=[inp, model, user_key, user_api_base],
+        outputs=out
+    )
 if __name__ == "__main__":
     demo.queue(max_size=8).launch()

requirements.txt CHANGED Viewed

	@@ -1 +1 @@
1	- openai==0.28.1


1	+ openai==1.108.1