Spaces:

LbejchJakub
/

ClickBaitRaterCZ01

Runtime error

App Files Files Community

LbejchJakub commited on Aug 19

Commit

193fd12

verified ·

1 Parent(s): e940d52

Upload 4 files

Browse files

Files changed (4) hide show

Dockerfile +21 -20
app.py +29 -0
model.py +161 -0
requirements.txt +6 -3

Dockerfile CHANGED Viewed

@@ -1,20 +1,21 @@
-FROM python:3.13.5-slim
-WORKDIR /app
-RUN apt-get update && apt-get install -y \
-    build-essential \
-    curl \
-    git \
-    && rm -rf /var/lib/apt/lists/*
-COPY requirements.txt ./
-COPY src/ ./src/
-RUN pip3 install -r requirements.txt
-EXPOSE 8501
-HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
-ENTRYPOINT ["streamlit", "run", "src/streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"]

+# Použijeme oficiální Python image
+FROM python:3.10-slim
+# Nastavíme pracovní adresář v kontejneru
+WORKDIR /app
+# Zkopírujeme soubor se závislostmi
+COPY requirements.txt ./
+# Nainstalujeme závislosti
+RUN pip install --no-cache-dir -r requirements.txt
+# Zkopírujeme zbytek kódu aplikace
+COPY . .
+# Vystavíme port, na kterém poběží Streamlit
+EXPOSE 8080
+# Příkaz, který se spustí při startu kontejneru
+# Spustí Streamlit aplikaci na portu 8080
+CMD ["streamlit", "run", "app.py", "--server.port=8080", "--server.address=0.0.0.0"]

app.py ADDED Viewed

	@@ -0,0 +1,29 @@

+# =========================
+# app.py
+# =========================
+import streamlit as st
+import pandas as pd
+from model import process_headlines
+st.set_page_config(layout="wide")
+st.title("🧪 Detektor clickbaitu")
+st.markdown("Vložte jeden nebo více titulků (každý na nový řádek) a klikněte na 'Analyzovat'.")
+# Vstupní pole pro text
+input_text = st.text_area("Zadejte titulky:", height=200, placeholder="Např.:\nŠokující odhalení!\nToto neuvěříte!\nBěžná zpráva o počasí.")
+# Tlačítko pro spuštění analýzy
+if st.button("Analyzovat"):
+    if input_text.strip():
+        # Rozdělení textu na řádky a odstranění prázdných
+        headlines = [line.strip() for line in input_text.split('\n') if line.strip()]
+        with st.spinner("Probíhá analýza... Modely se poprvé stahují, může to trvat i několik minut."):
+            try:
+                results_df = process_headlines(headlines)
+                st.success("Analýza dokončena!")
+                st.dataframe(results_df)
+            except Exception as e:
+                st.error(f"Při analýze došlo k chybě: {e}")
+    else:
+        st.warning("Zadejte prosím alespoň jeden titulek.")

model.py ADDED Viewed

	@@ -0,0 +1,161 @@

+# =========================
+# model.py
+# =========================
+import re
+import torch
+import numpy as np
+import pandas as pd
+from transformers import (
+    AutoModelForPreTraining,
+    AutoTokenizer,
+    pipeline,
+)
+import streamlit as st # Přidáme pro cachování
+# =========================
+# CONFIG (stejné jako u vás)
+# =========================
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+ELECTRA_MODEL = "Seznam/small-e-czech"
+CLF_MODEL = "Stremie/xlm-roberta-base-clickbait"
+RTD_CLICKBAIT_TH = 0.20
+RTD_BORDERLINE_TH = 0.15
+CLF_CLICK_TH = 0.65
+CLF_NOT_TH   = 0.35
+COMB_CLICK_TH = 0.60
+COMB_NOT_TH   = 0.40
+# =========================
+# LOAD MODELS (s cachováním)
+# =========================
+# Použijeme @st.cache_resource, aby se modely načetly jen jednou
+@st.cache_resource
+def load_models():
+    """Načte a vrátí oba modely a tokenizer."""
+    print("Načítám modely...")
+    disc = AutoModelForPreTraining.from_pretrained(ELECTRA_MODEL).to(DEVICE).eval()
+    tok  = AutoTokenizer.from_pretrained(ELECTRA_MODEL)
+    clf = pipeline(
+        "text-classification",
+        model=CLF_MODEL,
+        device=0 if DEVICE == "cuda" else -1
+    )
+    # ---- Robust label mapping pro klasifikátor ----
+    id2label = getattr(clf.model.config, "id2label", {}) or {}
+    label_values_upper = {str(v).upper() for v in id2label.values()}
+    if not ({"CLICKBAIT", "NOT"} <= label_values_upper):
+        clf.model.config.id2label = {0: "NOT", 1: "CLICKBAIT"}
+        clf.model.config.label2id = {"NOT": 0, "CLICKBAIT": 1}
+    print("Modely načteny.")
+    return disc, tok, clf
+# Všechny vaše ostatní funkce (rtd_token_scores_batch, classify_supervised, atd.)
+# zde zkopírujte BEZE ZMĚN.
+# ... (vložte sem zbytek funkcí z vašeho skriptu) ...
+@torch.no_grad()
+def rtd_token_scores_batch(texts, disc, tok, batch_size=32):
+    all_scores = []
+    for i in range(0, len(texts), batch_size):
+        enc = tok(texts[i:i+batch_size], return_tensors="pt", padding=True, truncation=True).to(DEVICE)
+        out = disc(**enc)
+        probs = torch.sigmoid(out.logits).detach().cpu().numpy()
+        all_scores.extend(probs)
+    return all_scores
+def clickbait_score_rtd_from_probs(probs, k_top: int = 5) -> float:
+    core = probs[1:-1] if len(probs) >= 2 else probs
+    if core.size == 0: return 0.0
+    k = min(k_top, core.size)
+    topk = np.partition(core, -k)[-k:]
+    score = float(np.mean(topk))
+    return max(0.0, min(1.0, score))
+def rtd_label_from_score(p: float) -> str:
+    if p >= RTD_CLICKBAIT_TH: return "CLICKBAIT"
+    if p >= RTD_BORDERLINE_TH: return "BORDERLINE"
+    return "NOT"
+def _normalize_label_to_index(lbl, LABEL2ID):
+    if isinstance(lbl, int): return lbl
+    s = str(lbl)
+    if s in LABEL2ID: return LABEL2ID[s]
+    m = re.search(r"(\d+)$", s)
+    if m: return int(m.group(1))
+    return None
+def classify_supervised(texts, clf):
+    ID2LABEL = clf.model.config.id2label
+    LABEL2ID = clf.model.config.label2id
+    sanitized = [str(t).strip() if pd.notna(t) else "" for t in texts]
+    outs = clf(sanitized, top_k=None, truncation=True, max_length=256)
+    results = []
+    for scores in outs:
+        prob_click, prob_not = 0.0, 0.0
+        for s in scores:
+            idx = _normalize_label_to_index(s["label"], LABEL2ID)
+            if idx is None: continue
+            name = ID2LABEL.get(idx, str(s["label"])).upper()
+            if name == "CLICKBAIT": prob_click = float(s["score"])
+            elif name == "NOT": prob_not = float(s["score"])
+        binary_label = "CLICKBAIT" if prob_click >= prob_not else "NOT"
+        if prob_click >= CLF_CLICK_TH: tri_label = "CLICKBAIT"
+        elif prob_click <= CLF_NOT_TH: tri_label = "NOT"
+        else: tri_label = "BORDERLINE"
+        clf_margin = abs(prob_click - prob_not)
+        results.append({
+            "clf_prob_clickbait": prob_click, "clf_prob_not": prob_not,
+            "clf_label": binary_label, "clf_label_3way": tri_label,
+            "clf_margin": clf_margin,
+        })
+    return results
+# =========================
+# HLAVNÍ FUNKCE PRO ZPRACOVÁNÍ
+# =========================
+def process_headlines(headlines: list[str], k_top: int = 5) -> pd.DataFrame:
+    """Zpracuje seznam titulků a vrátí DataFrame s výsledky."""
+    if not headlines or all(s.isspace() for s in headlines):
+        return pd.DataFrame()
+    disc, tok, clf = load_models()
+    df = pd.DataFrame({"Titulek": headlines})
+    # RTD
+    rtd_probs_all = rtd_token_scores_batch(headlines, disc, tok, batch_size=32)
+    rtd_scores = [clickbait_score_rtd_from_probs(p, k_top=k_top) for p in rtd_probs_all]
+    rtd_labels = [rtd_label_from_score(p) for p in rtd_scores]
+    # Supervised
+    sup_rows = classify_supervised(headlines, clf)
+    df_sup = pd.DataFrame(sup_rows)
+    # Sestavení výsledků
+    df_out = df.copy()
+    df_out["rtd_score"] = rtd_scores
+    df_out["rtd_label"] = rtd_labels
+    df_out = pd.concat([df_out, df_sup], axis=1)
+    df_out["combined_score"] = (0.85 * df_out["clf_prob_clickbait"] + 0.15 * df_out["rtd_score"])
+    final_labels = []
+    for s in df_out["combined_score"]:
+        if s >= COMB_CLICK_TH: final_labels.append("CLICKBAIT")
+        elif s <= COMB_NOT_TH: final_labels.append("NOT")
+        else: final_labels.append("BORDERLINE")
+    df_out["final_label"] = final_labels
+    # Vybereme a přejmenujeme sloupce pro přehlednost
+    final_cols = {
+        "Titulek": "Titulek",
+        "final_label": "Výsledek",
+        "combined_score": "Kombinované skóre",
+        "clf_prob_clickbait": "Pravděpodobnost clickbaitu",
+        "rtd_score": "RTD skóre",
+    }
+    return df_out[final_cols.keys()].rename(columns=final_cols)

requirements.txt CHANGED Viewed

@@ -1,3 +1,6 @@
-altair
-pandas
-streamlit

+pandas==2.2.2
+torch --index-url https://download.pytorch.org/whl/cpu
+transformers
+accelerate
+streamlit
+sentencepiece # Požadováno některými tokenizéry