Spaces:

gaidasalsaa
/

xstress-api-hf

Sleeping

App Files Files Community

gaidasalsaa commited on 18 days ago

Commit

776b898

1 Parent(s): 176915d

add all

Browse files

Files changed (1) hide show

app.py +73 -68

app.py CHANGED Viewed

@@ -3,32 +3,45 @@ from pydantic import BaseModel
 from typing import Optional
 import requests
 import torch
-from transformers import AutoTokenizer, BertForSequenceClassification
 from huggingface_hub import hf_hub_download
 import logging
 logger = logging.getLogger("app")
 logging.basicConfig(level=logging.INFO)
-# =====================================================
 # CONFIG
-# =====================================================
 HF_MODEL_REPO = "gaidasalsaa/model-indobertweet-terbaru"
 BASE_MODEL = "indolem/indobertweet-base-uncased"
 PT_FILE = "model_indobertweet.pth"
-BEARER_TOKEN = "AAAAAAAAAAAAAAAAAAAAAInr5gEAAAAAmyK4L1juMWEzyxjbaaa8%2BqlxhDo%3DuDE84RKZ6Dd602ir7XB1Ts6gYOOUMAFFnlr0y1Owu3OV7Dk2SX"
-# =====================================================
-# GLOBAL MODEL STORAGE
-# =====================================================
 tokenizer = None
 model = None
-# =====================================================
-# LOAD MODEL
-# =====================================================
 def load_model_once():
     global tokenizer, model
@@ -36,51 +49,37 @@ def load_model_once():
         logger.info("Model already loaded.")
         return
-    logger.info("Starting model loading...")
-    device = "cpu"
-    logger.info(f"Using device: {device}")
-    # ---- load tokenizer ----
     logger.info("Loading tokenizer...")
     tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-    logger.info("Tokenizer loaded")
-    # ---- download .pth ----
-    logger.info("Downloading best_indobertweet.pth...")
     model_path = hf_hub_download(
         repo_id=HF_MODEL_REPO,
         filename=PT_FILE,
     )
-    logger.info(f"Model file downloaded: {model_path}")
-    logger.info("Loading base model architecture...")
-    model = BertForSequenceClassification.from_pretrained(
         BASE_MODEL,
-        num_labels=2,
     )
-    logger.info("Loading fine-tuned weights (.pth)...")
     state_dict = torch.load(model_path, map_location="cpu")
-    model.load_state_dict(state_dict, strict=True)
-    logger.info("Weights loaded successfully")
-    model.to(device)
     model.eval()
     logger.info("MODEL READY")
-# =====================================================
 # FASTAPI
-# =====================================================
 app = FastAPI(title="Stress Detection API")
 @app.on_event("startup")
 def startup_event():
-    logger.info("Starting model loading on startup...")
     load_model_once()
@@ -89,61 +88,66 @@ class StressResponse(BaseModel):
     data: Optional[dict] = None
-# =====================================================
 # TWITTER API
-# =====================================================
 def get_user_id(username):
     url = f"https://api.x.com/2/users/by/username/{username}"
     headers = {"Authorization": f"Bearer {BEARER_TOKEN}"}
-    r = requests.get(url, headers=headers)
-    if r.status_code != 200:
-        return None, r.json()
-    return r.json()["data"]["id"], r.json()
 def fetch_tweets(user_id, limit=25):
     url = f"https://api.x.com/2/users/{user_id}/tweets"
     params = {"max_results": limit, "tweet.fields": "id,text,created_at"}
     headers = {"Authorization": f"Bearer {BEARER_TOKEN}"}
-    r = requests.get(url, headers=headers, params=params)
-    if r.status_code != 200:
-        return None, r.json()
-    tweets = r.json().get("data", [])
-    return [t["text"] for t in tweets], r.json()
-# =====================================================
-# KEYWORD EXTRACTION
-# =====================================================
 def extract_keywords(tweets):
     stress_words = [
-    "gelisah","cemas","tidur","takut","hati",
-    "resah","sampe","tenang","suka","mulu",
-    "sedih","ngerasa","gimana","gatau",
-    "perasaan","nangis","deg","khawatir",
-    "pikiran","harap","gabisa","bener","pengen",
-    "sakit","susah","bangun","biar","jam","kaya",
-    "bingung","mikir","tuhan","mikirin",
-    "bawaannya","marah","tbtb","anjir","cape",
-    "panik","enak","kali","pusing","semoga",
-    "kadang","langsung","kemarin","tugas",
-    "males"
     ]
     found = set()
     for t in tweets:
         lower = t.lower()
-        for word in stress_words:
-            if word in lower:
-                found.add(word)
     return list(found)
-# =====================================================
 # INFERENCE
-# =====================================================
 def predict_stress(text):
     inputs = tokenizer(
         text,
         return_tensors="pt",
@@ -156,16 +160,17 @@ def predict_stress(text):
         outputs = model(**inputs)
         probs = torch.softmax(outputs.logits, dim=1)[0]
-    label = torch.argmax(probs).item()
     return label, float(probs[1])
-# =====================================================
-# API ROUTE
-# =====================================================
 @app.get("/analyze/{username}", response_model=StressResponse)
 def analyze(username: str):
     user_id, _ = get_user_id(username)
     if user_id is None:
         return StressResponse(message="Failed to fetch profile", data=None)
@@ -174,9 +179,9 @@ def analyze(username: str):
         return StressResponse(message="No tweets available", data=None)
     labels = [predict_stress(t)[0] for t in tweets]
     stress_percentage = round(sum(labels) / len(labels) * 100, 2)
     if stress_percentage <= 25:
         status = 0
     elif stress_percentage <= 50:

 from typing import Optional
 import requests
 import torch
+import re
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
 from huggingface_hub import hf_hub_download
 import logging
 logger = logging.getLogger("app")
 logging.basicConfig(level=logging.INFO)
+# ===========================
 # CONFIG
+# ===========================
 HF_MODEL_REPO = "gaidasalsaa/model-indobertweet-terbaru"
 BASE_MODEL = "indolem/indobertweet-base-uncased"
 PT_FILE = "model_indobertweet.pth"
+BEARER_TOKEN = "AAAAAAAAAAAAAAAAAAAAADXr5gEAAAAAnQZgkYRrC4iM5WTblBxDyt58oj8%3DriQZkuHuvRL6Suc3rmDhD3umqbHaxwim2Tfb34rfQpnKqf9Xhd"
+# ===========================
+# GLOBAL MODEL
+# ===========================
 tokenizer = None
 model = None
+# ===========================
+# TEXT CLEANING
+# ===========================
+def clean_text(t):
+    t = t.lower()
+    t = re.sub(r"http\S+|www\.\S+", "", t)
+    t = re.sub(r"@\w+", "", t)
+    t = re.sub(r"#(\w+)", r"\1", t)
+    return t.strip()
+# ===========================
+# LOAD MODEL
+# ===========================
 def load_model_once():
     global tokenizer, model
         logger.info("Model already loaded.")
         return
     logger.info("Loading tokenizer...")
     tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+    logger.info("Downloading model weights...")
     model_path = hf_hub_download(
         repo_id=HF_MODEL_REPO,
         filename=PT_FILE,
     )
+    logger.info("Loading IndoBERTweet architecture...")
+    model = AutoModelForSequenceClassification.from_pretrained(
         BASE_MODEL,
+        num_labels=2
     )
+    logger.info("Loading state_dict...")
     state_dict = torch.load(model_path, map_location="cpu")
+    model.load_state_dict(state_dict)
     model.eval()
     logger.info("MODEL READY")
+# ===========================
 # FASTAPI
+# ===========================
 app = FastAPI(title="Stress Detection API")
 @app.on_event("startup")
 def startup_event():
     load_model_once()
     data: Optional[dict] = None
+# ===========================
 # TWITTER API
+# ===========================
 def get_user_id(username):
     url = f"https://api.x.com/2/users/by/username/{username}"
     headers = {"Authorization": f"Bearer {BEARER_TOKEN}"}
+    try:
+        r = requests.get(url, headers=headers, timeout=10)
+        if r.status_code != 200:
+            return None, r.json()
+        return r.json()["data"]["id"], r.json()
+    except:
+        return None, {"error": "Request failed"}
 def fetch_tweets(user_id, limit=25):
     url = f"https://api.x.com/2/users/{user_id}/tweets"
     params = {"max_results": limit, "tweet.fields": "id,text,created_at"}
     headers = {"Authorization": f"Bearer {BEARER_TOKEN}"}
+    try:
+        r = requests.get(url, headers=headers, params=params, timeout=10)
+        if r.status_code != 200:
+            return None, r.json()
+        data = r.json().get("data", [])
+        return [t["text"] for t in data], r.json()
+    except:
+        return None, {"error": "Request failed"}
+# ===========================
+# KEYWORDS
+# ===========================
 def extract_keywords(tweets):
     stress_words = [
+        "gelisah","cemas","tidur","takut","hati","resah","sampe","tenang",
+        "suka","mulu","sedih","ngerasa","gimana","gatau","perasaan",
+        "nangis","deg","khawatir","pikiran","harap","gabisa","bener",
+        "pengen","sakit","susah","bangun","biar","jam","kaya","bingung",
+        "mikir","tuhan","mikirin","bawaannya","marah","tbtb","anjir",
+        "cape","panik","enak","kali","pusing","semoga","kadang","langsung",
+        "kemarin","tugas","males"
     ]
     found = set()
     for t in tweets:
         lower = t.lower()
+        for w in stress_words:
+            if w in lower:
+                found.add(w)
     return list(found)
+# ===========================
 # INFERENCE
+# ===========================
 def predict_stress(text):
+    text = clean_text(text)
     inputs = tokenizer(
         text,
         return_tensors="pt",
         outputs = model(**inputs)
         probs = torch.softmax(outputs.logits, dim=1)[0]
+    label = int(torch.argmax(probs).item())
     return label, float(probs[1])
+# ===========================
+# ROUTE
+# ===========================
 @app.get("/analyze/{username}", response_model=StressResponse)
 def analyze(username: str):
     user_id, _ = get_user_id(username)
     if user_id is None:
         return StressResponse(message="Failed to fetch profile", data=None)
         return StressResponse(message="No tweets available", data=None)
     labels = [predict_stress(t)[0] for t in tweets]
     stress_percentage = round(sum(labels) / len(labels) * 100, 2)
+    # 4-level status
     if stress_percentage <= 25:
         status = 0
     elif stress_percentage <= 50: