Spaces:

Loversofdeath
/

lepidus

Sleeping

App Files Files Community

Loversofdeath commited on Apr 10

Commit

a73e1ef

verified ·

1 Parent(s): d10e6c0

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -54

app.py CHANGED Viewed

@@ -1,57 +1,58 @@
-import gradio as gr
 import os
-import re
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
-from langchain.llms import HuggingFaceHub
-# Убираем спецсимволы (кроме базовой пунктуации)
-def clean_text(text):
-    return re.sub(r"[^\w\s.,!?–—:;()«»\"'-]", "", text, flags=re.UNICODE)
-# Собираем весь лор из нескольких файлов
-def load_all_lore_texts(folder="."):
-    texts = []
-    for filename in os.listdir(folder):
-        if filename.startswith("lore") and filename.endswith(".txt"):
-            with open(os.path.join(folder, filename), "r", encoding="utf-8") as f:
-                content = clean_text(f.read())
-                texts.append(content)
-    return "\n".join(texts)
-# Загрузка и разбиение текста
-full_lore = load_all_lore_texts()
-splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-chunks = splitter.split_text(full_lore)
-# Векторизация
-embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")  # поддерживает русский
-db = FAISS.from_texts(chunks, embeddings)
-retriever = db.as_retriever()
-# Русскоязычная LLM
-llm = HuggingFaceHub(
-    repo_id="cointegrated/rugpt3large_based_on_gpt2",
-    model_kwargs={"temperature":0.6, "max_new_tokens":300}
-)
-qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
-# Ответ бота
-def ask_bot(question):
-    cleaned_question = clean_text(question)
-    return qa_chain.run(cleaned_question)
-# Интерфейс
-iface = gr.Interface(
-    fn=ask_bot,
-    inputs=gr.Textbox(lines=2, placeholder="Спроси что-нибудь по лору..."),
-    outputs="text",
-    title="ЛорБот",
-    description="Задавайте вопросы о вселенной. Поддерживается русский язык."
-)
-iface.launch()

 import os
+from langchain_community.document_loaders import TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
+from langchain_community.llms import HuggingFaceHub
+import gradio as gr
+import re
+# 1. Загрузка и очистка всех .txt файлов
+def load_documents(folder_path):
+    documents = []
+    for file_name in os.listdir(folder_path):
+        if file_name.endswith(".txt"):
+            loader = TextLoader(os.path.join(folder_path, file_name), encoding="utf-8")
+            docs = loader.load()
+            for doc in docs:
+                # Очищаем спецсимволы типа [=/ и прочую ерунду
+                doc.page_content = re.sub(r'\[=/.*?\]', '', doc.page_content)
+                documents.append(doc)
+    return documents
+# 2. Разбивка на чанки
+def split_documents(documents):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=700, chunk_overlap=100)
+    return splitter.split_documents(documents)
+# 3. Создание эмбеддингов
+def create_embeddings():
+    return HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+# 4. Загрузка модели
+def load_llm():
+    return HuggingFaceHub(
+        repo_id="IlyaGusev/saiga_mistral_7b_gguf",  # можно заменить на что-то другое, если будет падать
+        model_kwargs={"temperature": 0.6, "max_new_tokens": 300}
+    )
+# 5. Построение цепочки
+def build_qa_chain():
+    raw_docs = load_documents("lore")  # Папка lore/ рядом с app.py
+    docs = split_documents(raw_docs)
+    embeddings = create_embeddings()
+    db = FAISS.from_documents(docs, embeddings)
+    retriever = db.as_retriever()
+    llm = load_llm()
+    return RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
+# 6. Интерфейс
+qa_chain = build_qa_chain()
+def answer_question(question):
+    result = qa_chain.run(question)
+    return result
+iface = gr.Interface(fn=answer_question, inputs="text", outputs="text", title="Чат по Лору (RU)")
+iface.launch()