Init Commit

2025-10-29 17:07:48 +07:00 · 2025-10-29 17:07:48 +07:00 · 16f0042508
commit 16f0042508
14 changed files with 1354 additions and 0 deletions
--- a/.DS_Store
+++ b/.DS_Store
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,12 @@
 .env
 main_old.py
 sijalinmaja.json
 venv/
 pdf/
 data_cache/
 cache/
 testing/
 test-ai/
 uploads/
--- a/core/config.py
+++ b/core/config.py
@ -0,0 +1,19 @@
 from pathlib import Path
 from dotenv import load_dotenv
 import os
 load_dotenv()
 POSTGIS_URL = os.getenv("POSTGIS_URL")
 UPLOAD_FOLDER = Path(os.getenv("UPLOAD_FOLDER", "./uploads"))
 MAX_FILE_MB = int(os.getenv("MAX_FILE_MB", 200))
 REFERENCE_DB_URL = os.getenv("REFERENCE_DB_URL")
 REFERENCE_SCHEMA = os.getenv("REFERENCE_SCHEMA", "batas_wilayah")
 REF_COLUMN_MAP = {
    'desa': 'NAMOBJ',
    'kecamatan': 'NAMA_KECAMATAN',
    'kabupaten': 'NAMOBJ'
 }
 CACHE_FOLDER = Path(os.getenv("CACHE_FOLDER", "./cache"))
--- a/database/connection.py
+++ b/database/connection.py
@ -0,0 +1,6 @@
 from sqlalchemy import create_engine
 from sqlalchemy.orm import sessionmaker
 from core.config import POSTGIS_URL
 engine = create_engine(POSTGIS_URL, pool_pre_ping=True)
 SessionLocal = sessionmaker(bind=engine)
--- a/database/models.py
+++ b/database/models.py
@ -0,0 +1,16 @@
 from sqlalchemy import Column, Integer, String, Text, TIMESTAMP
 from sqlalchemy.ext.declarative import declarative_base
 from sqlalchemy.sql import func
 Base = declarative_base()
 class UploadLog(Base):
    __tablename__ = "upload_logs"
    id = Column(Integer, primary_key=True, index=True)
    filename = Column(String, nullable=False)
    table_name = Column(String, nullable=False)
    file_type = Column(String, nullable=False)
    rows_count = Column(Integer)
    uploaded_at = Column(TIMESTAMP, server_default=func.now())
    status = Column(String)
    message = Column(Text)
--- a/database/uploader.py
+++ b/database/uploader.py
@ -0,0 +1,16 @@
 import geopandas as gpd
 import pandas as pd
 from database.connection import engine
 from sqlalchemy import text
 def save_dataframe_dynamic(df: pd.DataFrame, table_name: str):
    """Save pandas DataFrame to Postgres (non-geo)."""
    df.to_sql(table_name, engine, if_exists="replace", index=False, method='multi', chunksize=1000)
 def save_geodataframe(gdf: gpd.GeoDataFrame, table_name: str):
    """Save GeoDataFrame to PostGIS (requires geoalchemy/geopandas)."""
    # ensure geometry column exists and CRS set
    if gdf.crs is None:
        gdf = gdf.set_crs("EPSG:4326", allow_override=True)
    # geopandas >= 0.10 has to_postgis in some installs; fallback using SQLAlchemy + GeoAlchemy2:
    gdf.to_postgis(table_name, engine, if_exists="replace")
--- a/init_db.py
+++ b/init_db.py
@ -0,0 +1,3 @@
 from database.connection import engine
 from database.models import Base
 Base.metadata.create_all(bind=engine)
--- a/main.py
+++ b/main.py
@ -0,0 +1,437 @@
 import os
 import pandas as pd
 import geopandas as gpd
 import numpy as np
 import zipfile
 from shapely.geometry.base import BaseGeometry
 from shapely.geometry import base as shapely_base
 from fastapi import FastAPI, File, UploadFile, HTTPException
 from fastapi.responses import JSONResponse
 from core.config import UPLOAD_FOLDER, MAX_FILE_MB
 from services.reader_csv import read_csv
 from services.reader_shp import read_shp
 from services.reader_gdb import read_gdb
 from services.reader_pdf import convert_df, read_pdf
 from services.geometry_detector import detect_and_build_geometry
 from services.geometry_detector import attach_polygon_geometry_auto
 from database.connection import engine
 from database.models import Base
 import time
 import pathlib
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from typing import List
 from shapely import wkt
 from sqlalchemy import text
 UPLOAD_FOLDER.mkdir(parents=True, exist_ok=True)
 app = FastAPI(title="ETL Geo Upload Service")
 origins = [
    "http://localhost:3000",
    "http://127.0.0.1:3000",
    "http://localhost:5173",
    "http://127.0.0.1:5173",
 ]
 app.add_middleware(
    CORSMiddleware,
    allow_origins=origins,          
    allow_credentials=True,
    allow_methods=["*"],            
    allow_headers=["*"],            
 )
 # Create upload_logs table if not exists
 Base.metadata.create_all(bind=engine)
 def generate_table_name(filename: str, prefix: str = "data"):
    name = pathlib.Path(filename).stem
    ts = time.strftime("%Y%m%d%H%M%S")
    safe = "".join([c if c.isalnum() or c=='_' else '_' for c in name])
    return f"{prefix}_{safe}_{ts}"
 def is_geom_empty(g):
    if g is None:
        return True
    if isinstance(g, float) and pd.isna(g):
        return True
    if isinstance(g, BaseGeometry):
        return g.is_empty
    return False
 def safe_json(value):
    """Konversi aman untuk semua tipe numpy/pandas/shapely ke tipe JSON-serializable"""
    if isinstance(value, (np.int64, np.int32)):
        return int(value)
    if isinstance(value, (np.float64, np.float32)):
        return float(value)
    if isinstance(value, pd.Timestamp):
        return value.isoformat()
    if isinstance(value, shapely_base.BaseGeometry):
        return str(value)  # ubah ke WKT string
    if pd.isna(value):
        return None
    return value
 def detect_zip_type(zip_path: str) -> str:
    with zipfile.ZipFile(zip_path, "r") as zip_ref:
        files = zip_ref.namelist()
    if any(f.lower().endswith(".gdb/") or ".gdb/" in f.lower() for f in files):
        return "gdb"
    if any(f.lower().endswith(ext) for ext in [".gdbtable", ".gdbtablx", ".gdbindexes", ".spx"] for f in files):
        return "gdb"
    if any(f.lower().endswith(".shp") for f in files):
        return "shp"
    return "unknown"
@app.post("/upload")
 async def upload_file(file: UploadFile = File(...)):
    fname = file.filename
    ext = os.path.splitext(fname)[1].lower()
    contents = await file.read()
    size_mb = len(contents) / (1024*1024)
    if size_mb > MAX_FILE_MB:
        raise HTTPException(status_code=413, detail="File too large")
    tmp_path = UPLOAD_FOLDER / fname
    with open(tmp_path, "wb") as f:
        f.write(contents)
    try:
        df = None
        print('ext', ext)
        if ext == ".csv":
            df = read_csv(str(tmp_path))
        elif ext == ".pdf":
            tbl = read_pdf(tmp_path)
            if len(tbl) > 1:
                response = {
                    "message": "File berhasil dibaca dan dianalisis.",
                    "tables": tbl,
                    "file_type": ext
                }
                return JSONResponse(content=response)
            else:
                df = convert_df(tbl[0])
        elif ext == ".zip":
            zip_type = detect_zip_type(str(tmp_path))
            if zip_type == "shp":
                print("[INFO] ZIP terdeteksi sebagai Shapefile.")
                df = read_shp(str(tmp_path))
            elif zip_type == "gdb":
                print("[INFO] ZIP terdeteksi sebagai Geodatabase (GDB).")
                df = read_gdb(str(tmp_path))
            else:
                raise HTTPException(
                    status_code=400,
                    detail="ZIP file tidak mengandung SHP atau GDB yang valid."
                )
        else:
            raise HTTPException(status_code=400, detail="Unsupported file type")
        if df is None or (hasattr(df, "empty") and df.empty):
            return JSONResponse({"error": "No valid table detected"}, status_code=400)
        result = detect_and_build_geometry(df, master_polygons=None)
        if not hasattr(result, "geometry") or result.geometry.isna().all():
            result = attach_polygon_geometry_auto(result)
        if isinstance(result, gpd.GeoDataFrame) and "geometry" in result.columns:
            geom_type = ", ".join([g for g in result.geometry.geom_type.unique() if g]) \
                if not result.empty else "None"
            null_geom = result.geometry.isna().sum()
            print(f"[INFO] Tipe Geometry: {geom_type}")
            print(f"[INFO] Jumlah geometry kosong: {null_geom}")
        else:
            response = {
                "message": "Tidak menemukan tabel yang relevan.",
                "file_type": ext,
                "rows": 0,
                "columns": 0,
                "geometry_valid": 0,
                "geometry_empty": 0,
                "geometry_valid_percent": 0,
                "warnings": [],
                "warning_examples": [],
                "preview": []
            }
            return JSONResponse(content=response)
        tmp_path.unlink(missing_ok=True)
        result = result.replace([pd.NA, float('inf'), float('-inf')], None)
        if isinstance(result, gpd.GeoDataFrame) and 'geometry' in result.columns:
            result['geometry'] = result['geometry'].apply(
                lambda g: g.wkt if g is not None else None
            )
        empty_count = result['geometry'].apply(is_geom_empty).sum()
        valid_count = len(result) - empty_count
        match_percentage = (valid_count / len(result)) * 100
        warnings = []
        if empty_count > 0:
            warnings.append(
                f"{empty_count} dari {len(result)} baris tidak memiliki geometry yang valid "
                f"({100 - match_percentage:.2f}% data gagal cocok)."
            )
        if empty_count > 0:
            examples = result[result['geometry'].apply(is_geom_empty)].head(500)
            warning_examples = examples.to_dict(orient="records")
        else:
            warning_examples = []
        preview_data = result.to_dict(orient="records")
        preview_safe = [
            {k: safe_json(v) for k, v in row.items()} for row in preview_data
        ]
        warning_safe = [
            {k: safe_json(v) for k, v in row.items()} for row in warning_examples
        ]
        response = {
            "message": "File berhasil dibaca dan dianalisis.",
            "rows": int(len(result)),
            "columns": list(map(str, result.columns)),
            "geometry_valid": int(valid_count),
            "geometry_empty": int(empty_count),
            "geometry_valid_percent": float(round(match_percentage, 2)),
            "warnings": warnings,
            "warning_examples": warning_safe,
            "preview": preview_safe
        }
        return JSONResponse(content=response)
    except Exception as e:
        print(f"[ERROR] {e}")
        return JSONResponse({"error": str(e)}, status_code=500)
    # finally:
    #     db_session.close()
 class PdfRequest(BaseModel):
    title: str
    columns: List[str]
    rows: List[List]
@app.post("/process-pdf")
 async def upload_file(payload: PdfRequest):
    try:
        df = convert_df(payload.model_dump())
        if df is None or (hasattr(df, "empty") and df.empty):
            return JSONResponse({"error": "No valid table detected"}, status_code=400)
        result = detect_and_build_geometry(df, master_polygons=None)
        if not hasattr(result, "geometry") or result.geometry.isna().all():
            print("[INFO] Mencoba menambahkan geometry (MultiPolygon) berdasarkan nama wilayah...")
            result = attach_polygon_geometry_auto(result)
        print("\n" + "="*80)
        if isinstance(result, gpd.GeoDataFrame) and "geometry" in result.columns:
            geom_type = ", ".join([g for g in result.geometry.geom_type.unique() if g]) \
                if not result.empty else "None"
            null_geom = result.geometry.isna().sum()
            print(f"[INFO] Tipe Geometry: {geom_type}")
            print(f"[INFO] Jumlah geometry kosong: {null_geom}")
        else:
            print("[WARN] Object bukan GeoDataFrame atau tidak punya kolom geometry.")
            print(f"[DEBUG] Kolom saat ini: {list(result.columns)}")
            response = {
                "message": "Tidak menemukan tabel yang relevan.",
                "file_type": ".pdf",
                "rows": 0,
                "columns": 0,
                "geometry_valid": 0,
                "geometry_empty": 0,
                "geometry_valid_percent": 0,
                "warnings": [],
                "warning_examples": [],
                "preview": []
            }
            return JSONResponse(content=response)
        result = result.replace([pd.NA, float('inf'), float('-inf')], None)
        if isinstance(result, gpd.GeoDataFrame) and 'geometry' in result.columns:
            result['geometry'] = result['geometry'].apply(
                lambda g: g.wkt if g is not None else None
            )
        empty_count = result['geometry'].apply(is_geom_empty).sum()
        valid_count = len(result) - empty_count
        match_percentage = (valid_count / len(result)) * 100
        warnings = []
        if empty_count > 0:
            warnings.append(
                f"{empty_count} dari {len(result)} baris tidak memiliki geometry yang valid "
                f"({100 - match_percentage:.2f}% data gagal cocok)."
            )
        if empty_count > 0:
            examples = result[result['geometry'].apply(is_geom_empty)].head(500)
            warning_examples = examples.to_dict(orient="records")
        else:
            warning_examples = []
        # preview_data = result.head(5).to_dict(orient="records")
        preview_data = result.to_dict(orient="records")
        preview_safe = [
            {k: safe_json(v) for k, v in row.items()} for row in preview_data
        ]
        warning_safe = [
            {k: safe_json(v) for k, v in row.items()} for row in warning_examples
        ]
        response = {
            "message": "File berhasil dibaca dan dianalisis.",
            "rows": int(len(result)),
            "columns": list(map(str, result.columns)),
            "geometry_valid": int(valid_count),
            "geometry_empty": int(empty_count),
            "geometry_valid_percent": float(round(match_percentage, 2)),
            "warnings": warnings,
            "warning_examples": warning_safe,
            "preview": preview_safe
        }
        return JSONResponse(content=response)
    except Exception as e:
        print(f"[ERROR] {e}")
        return JSONResponse({"error": str(e)}, status_code=500)
    # finally:
    #     db_session.close()
 VALID_WKT_PREFIXES = (
    "POINT",
    "POINT Z",
    "POINT M",
    "POINT ZM",
    "MULTIPOINT",
    "MULTIPOINT Z",
    "MULTIPOINT M",
    "MULTIPOINT ZM",
    "LINESTRING",
    "LINESTRING Z",
    "LINESTRING M",
    "LINESTRING ZM",
    "MULTILINESTRING",
    "MULTILINESTRING Z",
    "MULTILINESTRING M",
    "MULTILINESTRING ZM",
    "POLYGON",
    "POLYGON Z",
    "POLYGON M",
    "POLYGON ZM",
    "MULTIPOLYGON",
    "MULTIPOLYGON Z",
    "MULTIPOLYGON M",
    "MULTIPOLYGON ZM",
    "GEOMETRYCOLLECTION",
    "GEOMETRYCOLLECTION Z",
    "GEOMETRYCOLLECTION M",
    "GEOMETRYCOLLECTION ZM",
 )
 class UploadRequest(BaseModel):
    title: str
    rows: List[dict]
    columns: List[str]
@app.post("/upload_to_postgis")
 def upload_to_postgis(payload: UploadRequest):
    try:
        table_name = payload.title.lower().replace(" ", "_")
        df = pd.DataFrame(payload.rows)
        print(f"[INFO] Diterima {len(df)} baris data dari frontend.")
        if "geometry" in df.columns:
            df["geometry"] = df["geometry"].apply(
                lambda g: wkt.loads(g) if isinstance(g, str) and g.strip().upper().startswith(VALID_WKT_PREFIXES) else None
            )
            gdf = gpd.GeoDataFrame(df, geometry="geometry", crs="EPSG:4326")
        else:
            raise HTTPException(status_code=400, detail="Kolom geometry tidak ditemukan dalam data.")
        with engine.begin() as conn:
            conn.execute(text(f"DROP TABLE IF EXISTS {table_name}"))
        gdf.to_postgis(table_name, engine, if_exists="replace", index=False)
        with engine.begin() as conn:
            conn.execute(text(f'ALTER TABLE "{table_name}" ADD COLUMN _id SERIAL PRIMARY KEY;'))
        print(f"[INFO] Tabel '{table_name}' berhasil dibuat di PostGIS ({len(gdf)} baris).")
        return {
            "table_name": table_name,
            "status": "success",
            "message": f"Tabel '{table_name}' berhasil diunggah ke PostGIS.",
            "total_rows": len(gdf),
            "geometry_type": list(gdf.geom_type.unique())
        }
    except Exception as e:
        print(f"[ERROR] Gagal upload ke PostGIS: {e}")
        raise HTTPException(status_code=500, detail=str(e))   
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,25 @@
 fastapi
 uvicorn[standard]
 pandas
 numpy
 geopandas
 shapely
 fiona
 pyproj
 SQLAlchemy
 sqlalchemy
 psycopg2-binary
 rapidfuzz
 pdfplumber
 zipfile36
 python-dotenv
 pydantic
 python-multipart
 aiofiles
 starlette
 openpyxl
 requests
 pathlib
 # --- jika menggunakan ai ---
 groq
--- a/services/geometry_detector.py
+++ b/services/geometry_detector.py
@ -0,0 +1,376 @@
 import geopandas as gpd
 from shapely.geometry import Point, LineString
 import pandas as pd
 import re
 from shapely import wkt
 from rapidfuzz import process, fuzz
 from sqlalchemy import create_engine
 from shapely.geometry.base import BaseGeometry
 from core.config import REFERENCE_DB_URL, REFERENCE_SCHEMA, REF_COLUMN_MAP
 # ============================================================
 # KONFIGURASI DAN KONSTANTA
 # ============================================================
 COLUMN_ALIASES = {
    'desa': ['desa', 'kelurahan', 'desa_kelurahan', 'desa/kelurahan', 'nama_desa', 'nama_kelurahan', 'Desa/Kel'],
    'kecamatan': ['kec', 'kecamatan', 'nama_kec', 'nama_kecamatan'],
    'kabupaten': ['kab', 'kabupaten', 'kota', 'kabupaten_kota', 'kota_kabupaten', 'kab/kota', 'kota/kabupaten', 'kota/kab']
 }
 # ============================================================
 # FUNGSI BANTU ADMINISTRATIF
 # ============================================================
 def find_admin_column(df, aliases):
    """Mencari kolom yang paling cocok untuk tiap level admin (desa/kec/kab)"""
    matched = {}
    for level, alias_list in aliases.items():
        for col in df.columns:
            col_norm = col.strip().lower().replace(' ', '_').replace('/', '_')
            if any(alias in col_norm for alias in alias_list):
                matched[level] = col
                break
    return matched
 def detect_smallest_admin_level(df):
    """Mendeteksi level administratif terkecil yang ada di DataFrame"""
    cols = [c.lower() for c in df.columns]
    if any('desa' in c or 'kelurahan' in c for c in cols):
        return 'desa'
    elif any('kecamatan' in c for c in cols):
        return 'kecamatan'
    elif any('kab' in c or 'kota' in c for c in cols):
        return 'kabupaten'
    return None
 def fuzzy_merge(df, master, left_key, right_key, threshold=85):
    """Melakukan fuzzy matching antar nama wilayah"""
    matches = df[left_key].apply(
        lambda x: process.extractOne(str(x), master[right_key], score_cutoff=threshold)
    )
    df['match'] = matches.apply(lambda m: m[0] if m else None)
    merged = df.merge(master, left_on='match', right_on=right_key, how='left')
    return merged
 def normalize_name(name: str, level: str = None):
    if not isinstance(name, str):
        return None
    name = name.strip()
    if not name:
        return None
    raw = name.lower()
    raw = re.sub(r'^(desa|kelurahan|kel|dusun|kampung)\s+', '', raw)
    raw = re.sub(r'^(kecamatan|kec)\s+', '', raw)
    raw = re.sub(r'^(kabupaten|kab\.?|kab)\s+', '', raw)
    if level in ["kabupaten", "kota"]:
        raw = re.sub(r'^(kota\s+)', '', raw)
    raw = re.sub(r'[^a-z\s]', '', raw)
    raw = re.sub(r'\s+', ' ', raw).strip()
    tokens = raw.split()
    merged_tokens = []
    i = 0
    while i < len(tokens):
        if i < len(tokens) - 1:
            sim = fuzz.ratio(tokens[i], tokens[i + 1])
            if sim > 75:
                merged_tokens.append(tokens[i] + tokens[i + 1])
                i += 2
                continue
        merged_tokens.append(tokens[i])
        i += 1
    cleaned_tokens = []
    prev = None
    for tok in merged_tokens:
        if prev and fuzz.ratio(prev, tok) > 95:
            continue 
        cleaned_tokens.append(tok)
        prev = tok
    raw = " ".join(cleaned_tokens)
    formatted = raw.title()
    if level in ["kabupaten", "kota"]:
        if "kota" in name.lower():
            if not formatted.startswith("Kota "):
                formatted = f"Kota {formatted}"
        else:
            formatted = formatted.replace("Kota ", "")
    return formatted
 def is_geom_empty(g):
    """True jika geometry None, NaN, atau geometry Shapely kosong."""
    if g is None:
        return True
    if isinstance(g, float) and pd.isna(g):
        return True
    if isinstance(g, BaseGeometry):
        return g.is_empty
    return False
 # ============================================================
 # FUNGSI UTAMA GEOMETRY DETECTION (LAT/LON / PATH)
 # ============================================================
 def detect_and_build_geometry(df: pd.DataFrame, master_polygons: gpd.GeoDataFrame = None):
    """
    Mendeteksi dan membentuk geometry dari DataFrame.
    Bisa dari lat/lon, WKT, atau join ke master polygon (jika disediakan).
    """
    if isinstance(df, gpd.GeoDataFrame):
        if "geometry" in df.columns and df.geometry.notna().any():
            geom_count = df.geometry.notna().sum()
            geom_type = list(df.geom_type.unique())
            print(f"[INFO] Detected existing geometry in GeoDataFrame ({geom_count} features, {geom_type}).")
            return df
    lat_col = next(
        (c for c in df.columns if re.search(r'\b(lat|latitude|y[_\s]*coord|y$)\b', c.lower())), None
    )
    lon_col = next(
        (c for c in df.columns if re.search(r'\b(lon|long|longitude|x[_\s]*coord|x$)\b', c.lower())), None
    )
    if lat_col and lon_col:
        df[lat_col] = pd.to_numeric(df[lat_col], errors='coerce')
        df[lon_col] = pd.to_numeric(df[lon_col], errors='coerce')
        gdf = gpd.GeoDataFrame(df, geometry=gpd.points_from_xy(df[lon_col], df[lat_col]), crs="EPSG:4326")
        print("[INFO] Geometry dibangun dari kolom lat/lon.")
        return gdf
    coord_col = next(
        (c for c in df.columns if re.search(r'(geom|geometry|wkt|shp|shape|path|coord)', c.lower())), None
    )
    if coord_col and df[coord_col].notnull().any():
        sample_val = str(df[coord_col].dropna().iloc[0]).strip()
        if sample_val.startswith('['):
            def parse_geom(val):
                try:
                    pts = eval(val)
                    return LineString(pts)
                except Exception:
                    return None
            df['geometry'] = df[coord_col].apply(parse_geom)
            gdf = gpd.GeoDataFrame(df, geometry='geometry', crs="EPSG:4326")
            print("[INFO] Geometry dibangun dari kolom koordinat/path (list of points).")
            return gdf
        elif any(x in sample_val.upper() for x in ["POINT", "LINESTRING", "POLYGON"]):
            try:
                df['geometry'] = df[coord_col].apply(
                    lambda g: wkt.loads(g) if isinstance(g, str) and any(
                        x in g.upper() for x in ["POINT", "LINESTRING", "POLYGON"]
                    ) else None
                )
                gdf = gpd.GeoDataFrame(df, geometry='geometry', crs="EPSG:4326")
                print("[INFO] Geometry dibangun dari kolom WKT (Point/Line/Polygon/MultiPolygon).")
                return gdf
            except Exception as e:
                print(f"[WARN] Gagal parsing kolom geometry sebagai WKT: {e}")
    if master_polygons is not None:
        df.columns = df.columns.str.lower().str.strip().str.replace(' ', '_').str.replace('/', '_')
        matches = find_admin_column(df, COLUMN_ALIASES)
        if 'desa' in matches:
            admin_col = matches['desa']
            merged = df.merge(master_polygons, left_on=admin_col, right_on='nama_desa', how='left')
            if merged['geometry'].isna().sum() > 0:
                merged = fuzzy_merge(df, master_polygons, admin_col, 'nama_desa')
            gdf = gpd.GeoDataFrame(merged, geometry='geometry', crs=master_polygons.crs)
            return gdf
        elif 'kecamatan' in matches:
            admin_col = matches['kecamatan']
            merged = df.merge(master_polygons, left_on=admin_col, right_on='nama_kecamatan', how='left')
            gdf = gpd.GeoDataFrame(merged, geometry='geometry', crs=master_polygons.crs)
            return gdf
        elif 'kabupaten' in matches:
            admin_col = matches['kabupaten']
            merged = df.merge(master_polygons, left_on=admin_col, right_on='nama_kabupaten', how='left')
            gdf = gpd.GeoDataFrame(merged, geometry='geometry', crs=master_polygons.crs)
            return gdf
    print("[WARN] Tidak ditemukan geometry (lat/lon, path, atau master).")
    return df
 def get_reference_polygons(level):
    """Mengambil data batas wilayah (MultiPolygon) dari DB referensi"""
    table_map = {
        'desa': f"{REFERENCE_SCHEMA}.administrasi_ar_keldesa_jatim",
        'kecamatan': f"{REFERENCE_SCHEMA}.administrasi_ar_kec_jatim",
        'kabupaten': f"{REFERENCE_SCHEMA}.administrasi_ar_kabkot_jatim"
    }
    table_name = table_map.get(level)
    if not table_name:
        raise ValueError(f"Tidak ada tabel referensi untuk level '{level}'.")
    engine = create_engine(REFERENCE_DB_URL)
    query = f"SELECT *, ST_Multi(geom) AS geometry FROM {table_name}"
    gdf = gpd.read_postgis(query, engine, geom_col='geometry')
    print(f"[INFO] {len(gdf)} data referensi '{level}' berhasil dimuat dari {table_name}.")
    return gdf
 # ============================================================
 # FUNGSI: AUTO ATTACH POLYGON KE DATAFRAME NON-SPASIAL
 # ============================================================
 def attach_polygon_geometry_auto(df: pd.DataFrame):
    """
    Tambahkan kolom geometry MultiPolygon berdasarkan kombinasi
    (desa/kelurahan + kecamatan + kabupaten/kota), tanpa duplikasi baris.
    """
    level = detect_smallest_admin_level(df)
    if not level:
        print("[WARN] Tidak ditemukan kolom administratif (desa/kecamatan/kabupaten).")
        return df
    print(f"[INFO] Detected smallest admin level: {level}")
    ref_gdf = get_reference_polygons(level)
    desa_col = next((c for c in df.columns if any(x in c.lower() for x in ['desa', 'kelurahan'])), None)
    kec_col = next((c for c in df.columns if 'kec' in c.lower()), None)
    kab_col = next((c for c in df.columns if any(x in c.lower() for x in ['kab', 'kota'])), None)
    if desa_col and (not kec_col or not kab_col):
        print("[ERROR] Kolom 'Desa' ditemukan tetapi kolom 'Kecamatan' dan/atau 'Kabupaten' tidak lengkap.")
        print(f"[DEBUG] Ditemukan: Desa={desa_col}, Kec={kec_col}, Kab={kab_col}")
        return df
    elif not desa_col and kec_col and not kab_col:
        print("[ERROR] Kolom 'Kecamatan' ditemukan tetapi kolom 'Kabupaten/Kota' tidak ditemukan.")
        print(f"[DEBUG] Ditemukan: Desa={desa_col}, Kec={kec_col}, Kab={kab_col}")
        return df
    elif kab_col and not desa_col and not kec_col :
        print("[INFO] Struktur kolom administratif valid (minimal Kabupaten/Kota ditemukan).")
        print(f"[DEBUG] Ditemukan: Desa={desa_col}, Kec={kec_col}, Kab={kab_col}")
    elif not desa_col and not kec_col and not kab_col:
        print("[WARN] Tidak ditemukan kolom administratif apapun (Desa/Kecamatan/Kabupaten).")
        print(f"[DEBUG] Kolom CSV: {list(df.columns)}")
        return df
    # kolom di referensi
    desa_ref = "WADMKD"
    kec_ref = "WADMKC"
    kab_ref = "WADMKK"
    if desa_col is not None:
        df[desa_col] = df[desa_col].astype(str).apply(lambda x: normalize_name(x, "desa"))
    if kec_col is not None:
        df[kec_col] = df[kec_col].astype(str).apply(lambda x: normalize_name(x, "kecamatan"))
    if kab_col is not None:
        df[kab_col] = df[kab_col].astype(str).apply(lambda x: normalize_name(x, "kabupaten"))
    if desa_ref is not None:
        ref_gdf[desa_ref] = ref_gdf[desa_ref].astype(str).apply(lambda x: normalize_name(x, "desa"))
    if kec_ref is not None:
        ref_gdf[kec_ref] = ref_gdf[kec_ref].astype(str).apply(lambda x: normalize_name(x, "kecamatan"))
    if kab_ref is not None:
        ref_gdf[kab_ref] = ref_gdf[kab_ref].astype(str).apply(lambda x: normalize_name(x, "kabupaten"))
    join_cols = [col for col in [desa_col, kec_col, kab_col] if col]
    if not join_cols:
        print("[ERROR] Tidak ada kolom administratif yang bisa digunakan untuk join key.")
    else:
        join_cols_df = [col for col in [desa_col, kec_col, kab_col] if col]
        join_cols_ref = [col for col in [desa_ref, kec_ref, kab_ref] if col]
        common_depth = min(len(join_cols_df), len(join_cols_ref))
        join_cols_df = join_cols_df[-common_depth:]    
        join_cols_ref = join_cols_ref[-common_depth:]  
        # print(f"[DEBUG] Join kolom DF  : {join_cols_df}")
        # print(f"[DEBUG] Join kolom REF : {join_cols_ref}")
        df["_join_key"] = df[join_cols_df].astype(str).agg("|".join, axis=1)
        ref_gdf["_join_key"] = ref_gdf[join_cols_ref].astype(str).agg("|".join, axis=1)
        # print(f"[INFO] Join key berhasil dibuat dari kolom: {join_cols_df}")
    ref_lookup = ref_gdf[["_join_key", "geometry"]].drop_duplicates(subset=["_join_key"])
    df = df.merge(ref_lookup, how="left", on="_join_key")
    matched = df["geometry"].notna().sum()
    # print(f"[INFO] {matched} dari {len(df)} baris cocok langsung berdasarkan (desa + kec + kab/kota).")
    if matched < len(df):
        unmatched = df[df["geometry"].isna()]
        # print(f"[INFO] Melakukan fuzzy match untuk {len(unmatched)} baris yang belum cocok...")
        ref_dict = dict(zip(ref_lookup["_join_key"], ref_lookup["geometry"]))
        def find_fuzzy_geom(row):
            key = row["_join_key"]
            if not isinstance(key, str):
                return None
            # fuzzy old
            # match = process.extractOne(key, list(ref_dict.keys()), scorer=fuzz.token_sort_ratio)
            # fuzzy new
            match = process.extractOne(
                key, list(ref_dict.keys()), scorer=fuzz.token_set_ratio, score_cutoff=80
            )
            if match and match[1] >= 85:
                return ref_dict[match[0]]
            return None
        df.loc[df["geometry"].isna(), "geometry"] = df[df["geometry"].isna()].apply(find_fuzzy_geom, axis=1)
    df = df.drop(columns=["_join_key"], errors="ignore")
    # admin_cols = [col for col in [desa_col, kec_col, kab_col] if col and col in df.columns]
    # if matched < len(df):
    #     diff = df[df['geometry'].isna()][admin_cols]
    #     print("[DEBUG] Baris yang tidak match:")
    #     if diff.empty:
    #         print("(semua baris berhasil match)")
    #     else:
    #         print(diff.to_string(index=False))
    # print(f"[REPORT] Total match: {df['geometry'].notna().sum()} / {len(df)} ({df['geometry'].notna().mean()*100:.2f}%)")
    return gpd.GeoDataFrame(df, geometry="geometry", crs="EPSG:4326")
--- a/services/reader_csv.py
+++ b/services/reader_csv.py
@ -0,0 +1,59 @@
 # import pandas as pd
 # def read_csv(path: str):
 #     df = pd.read_csv(path)
 #     df.columns = [c.strip() for c in df.columns]
 #     return df
 # services/reader_csv.py
 import pandas as pd
 import re
 def detect_header_line(path, max_rows=10):
    """
    Mendeteksi baris header (nama kolom) di CSV.
    Mengembalikan index baris header (0-based).
    """
    with open(path, 'r', encoding='utf-8', errors='ignore') as f:
        lines = [next(f) for _ in range(max_rows)]
    header_line_idx = 0
    best_score = -1
    for i, line in enumerate(lines):
        # Pisahkan berdasarkan koma / titik koma / tab
        cells = re.split(r'[;,|\t]', line.strip())
        # Heuristik: jika banyak huruf & sedikit angka → kemungkinan header
        alpha_ratio = sum(bool(re.search(r'[A-Za-z]', c)) for c in cells) / max(len(cells), 1)
        digit_ratio = sum(bool(re.search(r'\d', c)) for c in cells) / max(len(cells), 1)
        score = alpha_ratio - digit_ratio  # makin tinggi makin mirip header
        if score > best_score:
            best_score = score
            header_line_idx = i
    return header_line_idx
 def read_csv(path: str):
    """
    Membaca CSV dengan deteksi otomatis baris header.
    """
    try:
        header_line = detect_header_line(path)
        print(f"[INFO] Detected header line: {header_line + 1}")
        df = pd.read_csv(path, header=header_line, encoding='utf-8', low_memory=False)
    except Exception as e:
        print(f"[WARN] Gagal deteksi header otomatis: {e}, fallback ke baris pertama")
        df = pd.read_csv(path, encoding='utf-8', low_memory=False)
    # Bersihkan kolom kosong / unnamed
    df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
    df.columns = [str(c).strip() for c in df.columns]
    # Hapus baris kosong total
    df = df.dropna(how='all')
    return df
--- a/services/reader_gdb.py
+++ b/services/reader_gdb.py
@ -0,0 +1,75 @@
 import geopandas as gpd
 import fiona
 import zipfile
 import tempfile
 import os
 import shutil
 def read_gdb(zip_path: str, layer: str = None):
    if not zip_path.lower().endswith(".zip"):
        raise ValueError("File GDB harus berupa ZIP yang berisi folder .gdb atau file .gdbtable")
    tmpdir = tempfile.mkdtemp()
    with zipfile.ZipFile(zip_path, "r") as zip_ref:
        zip_ref.extractall(tmpdir)
    macosx_path = os.path.join(tmpdir, "__MACOSX")
    if os.path.exists(macosx_path):
        shutil.rmtree(macosx_path)
    gdb_folders = []
    for root, dirs, _ in os.walk(tmpdir):
        for d in dirs:
            if d.lower().endswith(".gdb"):
                gdb_folders.append(os.path.join(root, d))
    if not gdb_folders:
        gdbtable_files = []
        for root, _, files in os.walk(tmpdir):
            for f in files:
                if f.lower().endswith(".gdbtable"):
                    gdbtable_files.append(os.path.join(root, f))
        if gdbtable_files:
            first_folder = os.path.dirname(gdbtable_files[0])
            base_name = os.path.basename(first_folder)
            gdb_folder_path = os.path.join(tmpdir, f"{base_name}.gdb")
            os.makedirs(gdb_folder_path, exist_ok=True)
            for fpath in os.listdir(first_folder):
                if ".gdb" in fpath.lower():
                    shutil.move(os.path.join(first_folder, fpath), os.path.join(gdb_folder_path, fpath))
            gdb_folders.append(gdb_folder_path)
            # print(f"[INFO] Rebuilt GDB folder from nested structure: {gdb_folder_path}")
        else:
            # print("[DEBUG] Isi ZIP:", os.listdir(tmpdir))
            shutil.rmtree(tmpdir)
            raise ValueError("Tidak ditemukan folder .gdb atau file .gdbtable di dalam ZIP")
    gdb_path = gdb_folders[0]
    layers = fiona.listlayers(gdb_path)
    # print(f"[INFO] Layer tersedia: {layers}")
    chosen_layer = layer or (layers[0] if layers else None)
    if not chosen_layer:
        shutil.rmtree(tmpdir)
        raise ValueError("Tidak ada layer GDB yang bisa dibaca.")
    print(f"[DEBUG] Membaca layer: {chosen_layer}")
    try:
        gdf = gpd.read_file(gdb_path, layer=chosen_layer)
    except Exception as e:
        shutil.rmtree(tmpdir)
        raise ValueError(f"Gagal membaca layer dari GDB: {e}")
    if gdf.crs is None:
        # print("[WARN] CRS tidak terdeteksi, diasumsikan EPSG:4326")
        gdf.set_crs("EPSG:4326", inplace=True)
    shutil.rmtree(tmpdir)
    return gdf
--- a/services/reader_pdf.py
+++ b/services/reader_pdf.py
@ -0,0 +1,250 @@
 import pdfplumber
 import re
 import pandas as pd
 def is_number(s):
    if s is None:
        return False
    s = str(s).strip().replace(',', '').replace('.', '')
    return s.isdigit()
 def row_ratio(row):
    non_empty = [c for c in row if c not in (None, '', ' ')]
    if not non_empty:
        return 0
    num_count = sum(is_number(c) for c in non_empty)
    return num_count / len(non_empty)
 def has_mixed_text_and_numbers(row):
    non_empty = [c for c in row if c not in (None, '', ' ')]
    has_text = any(isinstance(c, str) and re.search(r'[A-Za-z]', str(c)) for c in non_empty)
    has_num = any(is_number(c) for c in non_empty)
    return has_text and has_num
 def is_short_text_row(row):
    """Deteksi baris teks pendek (1-2 kolom teks pendek)."""
    non_empty = [str(c).strip() for c in row if c not in (None, '', ' ')]
    if not non_empty:
        return False
    text_only = all(not is_number(c) for c in non_empty)
    joined = " ".join(non_empty)
    return text_only and len(non_empty) <= 2 and len(joined) < 20
 def detect_header_rows(rows):
    if not rows:
        return []
    ratios = [row_ratio(r) for r in rows]
    body_start_index = None
    for i in range(1, len(rows)):
        row = rows[i]
        if has_mixed_text_and_numbers(row):
            body_start_index = i
            break
        if ratios[i] > 0.3:
            body_start_index = i
            break
        if any(isinstance(c, str) and re.match(r'^\d+$', c.strip()) for c in row):
            body_start_index = i
            break
        if ratios[i - 1] == 0 and ratios[i] > 0:
            body_start_index = i
            break
    if body_start_index is None:
        body_start_index = len(rows)
    potential_headers = rows[:body_start_index]
    body_filtered = rows[body_start_index:]
    header_filtered = []
    for idx, row in enumerate(potential_headers):
        if is_short_text_row(row):
            if idx + 1 < len(potential_headers) and ratios[idx + 1] == 0:
                header_filtered.append(row)
            else:
                continue
        else:
            header_filtered.append(row)
    return header_filtered, body_filtered
 def merge_multiline_header(header_rows):
    final_header = []
    for col in zip(*header_rows):
        val = next((v for v in reversed(col) if v and str(v).strip()), '')
        val = str(val).replace('\n', ' ').strip()
        final_header.append(val)
    final_header = [v for v in final_header if v not in ['', None]]
    # header_string = ' | '.join(final_header)
    # return header_string
    return final_header
 NUMBER_HEADER_KEYWORDS = ["no","no.","no .","no . ","no :","no : ","nomor","nomor.","nomor :","nomor urut","no urut","no. urut","no-urut","no_urut","nomor_urut","nomor-urut","No","NO","NO.","No.","No :","NO :","Nomor","NOMOR","Nomor Urut","NOMOR URUT","No Urut","NO URUT","No. Urut","NO. URUT","No /","No / ","No / Nama","No -","No - ","Nomor /","Nomor -","Number","No. of","No of","Index","Serial","Order","ID","ID No","ID No.","Sr No","Sr. No","S/N","SN","Sl No","Sl. No","N0","N0.","N0 :","NOM0R","NOM0R URUT","N0MOR",]
 def has_number_header(header):
    """Periksa apakah header mengandung kolom No/Nomor."""
    header_text = header
    return any(keyword in header_text for keyword in NUMBER_HEADER_KEYWORDS)
 def is_numbering_column(col_values):
    """Periksa apakah kolom pertama diisi nomor urut seperti 1, 01, 2, dst."""
    numeric_like = 0
    total = 0
    for v in col_values:
        if not v or not isinstance(v, str):
            continue
        total += 1
        if re.fullmatch(r"0*\d{1,3}", v.strip()):
            numeric_like += 1
    return total > 0 and (numeric_like / total) > 0.6
 def is_numeric_value(v):
    """Cek apakah suatu nilai termasuk angka (int, float, atau string angka)."""
    if v is None:
        return False
    if isinstance(v, (int, float)):
        return True
    if isinstance(v, str) and re.fullmatch(r"0*\d{1,3}", v.strip()):
        return True
    return False
 def cleaning_column(headers, bodies):
    cleaned_bodies = []
    for header, body in zip(headers, bodies):
        if not body:
            cleaned_bodies.append(body)
            continue
        header_has_number = has_number_header(header)
        first_col = [row[0] for row in body if row and len(row) > 0]
        first_col_is_numbering = is_numbering_column(first_col)
        if not header_has_number and first_col_is_numbering:
            new_body = []
            for row in body:
                if not row:
                    continue
                first_val = row[0]
                if is_numeric_value(first_val) and len(row) > 1:
                    new_body.append(row[1:])
                else:
                    new_body.append(row)
            body = new_body
        header_len = len(headers)
        filtered_body = [row for row in body if len(row) == header_len]
        cleaned_bodies.append(filtered_body)
    return cleaned_bodies
 def read_pdf(path: str):
    pdf_path = path
    tables_data = [] 
    with pdfplumber.open(pdf_path) as pdf:
        page = pdf.pages[0]
        tables = page.find_tables()
        for i, t in enumerate(tables, start=1):
            table = t.extract()  
            if len(table) > 4:
                tables_data.append(table)
        print(f"\nTotal tabel valid: {len(tables_data)}\n")
        header_only = []
        body_only = []
        for tbl in tables_data:
            head, body = detect_header_rows(tbl)
            header_only.append(head)
            body_only.append(body)
        clean_header = []
        for h in header_only:
            clean_header.append(merge_multiline_header(h))
        clean_body=[]
        for i, raw_body in enumerate(body_only):
            con_body = [[cell for cell in row if cell not in (None, '')] for row in raw_body]
            cleaned = cleaning_column(clean_header[i], [con_body])
            # clean_body.append(con_body)
            clean_body.append(cleaned[0])
        # print(clean_header)
        # print(clean_body)
        parsed = []
        # for cols, rows in zip(clean_header, clean_body):
        #     parsed.append({
        #         "title": "",
        #         "columns": cols,
        #         "rows": rows
        #     })
        for i, (cols, rows) in enumerate(zip(clean_header, clean_body), start=1):
            parsed.append({
                "title": str(i),  # bisa juga f"Table {i}" kalau mau format tertentu
                "columns": cols,
                "rows": rows
            })
        return parsed
 def convert_df(payload):
    # Validasi dasar
    print(f'payload {payload}')
    # Cek apakah keys ada
    if "columns" not in payload or "rows" not in payload:
        raise ValueError("Payload tidak memiliki key 'columns' atau 'rows'.")
    # Pastikan columns dan rows berupa list
    if not isinstance(payload["columns"], list):
        raise TypeError("'columns' harus berupa list.")
    if not isinstance(payload["rows"], list):
        raise TypeError("'rows' harus berupa list.")
    # Pastikan setiap baris punya jumlah kolom yang sama
    for i, row in enumerate(payload["rows"]):
        if len(row) != len(payload["columns"]):
            raise ValueError(f"Jumlah elemen di baris ke-{i} tidak sesuai jumlah kolom.")
    # Konversi menjadi DataFrame
    df = pd.DataFrame(payload["rows"], columns=payload["columns"])
    # Tambahkan atribut title kalau ada
    if "title" in payload:
        df.attrs["title"] = payload["title"]
    return df
 def test_read_pdf():
    # single
    # parsed = [{'title': 'Tabel 3.49. Potensi Penduduk Terpapar Bencana Banjir di Provinsi Jawa Timur', 'columns': ['No', 'Kabupaten/Kota', 'Jumlah Penduduk Terpapar (Jiwa)', 'Penduduk Umur Rentan', 'Penduduk Miskin', 'Penduduk Disabilitas', 'Kelas'], 'rows': [['1', 'PACITAN', '111.309', '14.142', '9.307', '781', 'SEDANG'], ['2', 'PONOROGO', '381.579', '50.815', '44.256', '2.346', 'SEDANG'], ['3', 'TRENGGALEK', '284.509', '34.304', '33.653', '1.945', 'SEDANG'], ['4', 'TULUNGAGUNG', '777.174', '86.452', '67.952', '3.200', 'SEDANG'], ['5', 'BLITAR', '226.767', '25.032', '22.554', '909', 'SEDANG'], ['6', 'KEDIRI', '545.961', '59.272', '74.578', '2.539', 'SEDANG'], ['7', 'MALANG', '238.170', '23.646', '25.388', '641', 'SEDANG'], ['8', 'LUMAJANG', '267.926', '30.206', '33.738', '970', 'SEDANG'], ['9', 'JEMBER', '1.061.703', '109.355', '105.958', '2.424', 'SEDANG'], ['10', 'BANYUWANGI', '442.290', '51.294', '44.107', '1.168', 'SEDANG'], ['11', 'BONDOWOSO', '143.452', '18.178', '21.676', '517', 'SEDANG'], ['12', 'SITUBONDO', '233.211', '26.799', '54.221', '928', 'SEDANG'], ['13', 'PROBOLINGGO', '326.005', '37.002', '58.562', '1.323', 'SEDANG'], ['14', 'PASURUAN', '485.143', '49.285', '65.076', '1.576', 'SEDANG'], ['15', 'SIDOARJO', '1.930.615', '172.191', '132.673', '3.987', 'SEDANG'], ['16', 'MOJOKERTO', '498.583', '52.453', '49.831', '1.491', 'SEDANG'], ['17', 'JOMBANG', '876.937', '92.415', '107.447', '4.985', 'SEDANG'], ['18', 'NGANJUK', '829.022', '95.454', '117.127', '3.029', 'SEDANG'], ['19', 'MADIUN', '363.763', '44.997', '44.877', '1.695', 'SEDANG'], ['20', 'MAGETAN', '117.247', '15.706', '11.051', '652', 'SEDANG'], ['21', 'NGAWI', '419.065', '49.864', '65.877', '1.572', 'SEDANG'], ['22', 'BOJONEGORO', '910.377', '100.800', '117.977', '3.557', 'SEDANG'], ['23', 'TUBAN', '507.407', '51.775', '60.834', '2.206', 'SEDANG'], ['24', 'LAMONGAN', '884.503', '99.928', '96.031', '3.960', 'SEDANG'], ['25', 'GRESIK', '613.133', '59.848', '49.854', '1.666', 'SEDANG'], ['26', 'BANGKALAN', '312.149', '31.075', '36.099', '1.169', 'SEDANG'], ['27', 'SAMPANG', '239.656', '28.756', '39.790', '1.280', 'SEDANG'], ['28', 'PAMEKASAN', '216.423', '25.831', '30.296', '776', 'SEDANG'], ['29', 'SUMENEP', '217.805', '24.741', '33.293', '1.088', 'SEDANG'], ['1', 'KOTA KEDIRI', '162.064', '17.129', '13.997', '363', 'SEDANG'], ['2', 'KOTA BLITAR', '21.390', '2.242', '1.185', '79', 'SEDANG'], ['3', 'KOTA MALANG', '148.072', '15.499', '6.142', '201', 'SEDANG'], ['4', 'KOTA PROBOLINGGO', '117.911', '12.708', '10.913', '420', 'SEDANG'], ['5', 'KOTA PASURUAN', '199.602', '20.199', '19.721', '516', 'SEDANG'], ['6', 'KOTA MOJOKERTO', '139.962', '14.486', '6.971', '584', 'SEDANG'], ['7', 'KOTA MADIUN', '149.468', '17.255', '6.300', '304', 'SEDANG'], ['8', 'KOTA SURABAYA', '2.469.639', '244.061', '133.953', '3.838', 'SEDANG'], ['9', 'KOTA BATU', '8.858', '939', '529', '13', 'SEDANG'], ['-', 'Provinsi Jawa Timur', '17.878.850', '1.906.134', '1.853.794', '60.698', 'SEDANG']]}]
    # double 
    parsed = [{"title":"Luas Catchment Area (km2) Pada Wilayah Sungai di Provinsi Jawa Timur","columns":["Wilayah Sungai","Luas (km2)","Jumlah DAS"],"rows":[["Bengawan Solo","13.070,00","94 DAS"],["Brantas","13.880,00","20 DAS"],["Welang -Rejoso","2.601,00","36 DAS"],["Pekalen -Sampean","3.953,00","56 DAS"],["Baru -Bajulmati","3.675,00","60 DAS"],["Bondoyudo -Bedadung","5.364,00","47 DAS"],["Madura","4.575,00","173 DAS"]]},{"title":"Jumlah dan Kepadatan Penduduk Menurut Kabupaten\/kota di Provinsi Jawa Timur Tahun 2021","columns":["Kabupaten\/Kota","Jumlah Penduduk","Persentase","Kepadatan Penduduk (Jiwa per Km2)"],"rows":[["Bangkalan","1.082.759","2,64","1.081,20"],["Banyuwangi","1.749.773","4,27","302,60"],["Blitar","1.228.292","3,00","919,05"],["Bojonegoro","1.343.895","3,28","611,20"],["Bondowoso","801.541","1,96","525,27"],["Gresik","1.283.961","3,13","1.077,83"],["Jember","2.581.486","6,30","834,80"],["Jombang","1.350.483","3,29","1.211,10"],["Kediri","1.671.821","4,08","1.206,18"],["Lamongan","1.379.731","3,37","774,24"],["Lumajang","1.091.856","2,66","609,67"],["Madiun","754.263","1,84","726,94"],["Magetan","689.369","1,68","1.000,77"],["Malang","2.611.907","6,37","739,78"],["Mojokerto","1.126.540","2,75","1.569,37"],["Nganjuk","1.133.556","2,77","925,92"],["Ngawi","896.768","2,19","691,96"],["Pacitan","597.580","1,46","429,94"],["Pamekasan","840.790","2,05","1.061,28"],["Pasuruan","1.603.754","3,91","1.088,01"],["Ponorogo","968.681","2,36","741,89"],["Probolinggo","1.156.570","2,82","681,86"],["Sampang","902.514","2,20","731,92"],["Sidoarjo","1.951.723","4,76","3.076,58"],["Situbondo","666.245","1,63","398,98"],["Sumenep","1.134.750","2,77","567,79"],["Trenggalek","746.734","1,82","650,91"],["Tuban","1.223.257","2,98","666,93"],["Tulungagung","1.126.679","2,75","1.067,28"],["Kota Batu","215.248","0,53","1.574,14"],["Kota Blitar","158.123","0,39","4.854,87"],["Kota Kediri","292.363","0,71","4.611,40"],["Kota Madiun","201.243","0,49","6.045,15"],["Kota Malang","866.356","2,11","5.963,35"],["Kota Mojokerto","139.961","0,34","8.497,94"],["Kota Pasuruan","210.341","0,51","5.960,36"],["Kota Probolinggo","242.246","0,59","4.274,68"],["Kota Surabaya","2.970.843","7,25","8.475,05"],["Provinsi Jawa Timur","40.994.002","100,00","76.228,17"]]}]
    # df = convert_df(parsed, table_index=0) 
    return parsed
--- a/services/reader_shp.py
+++ b/services/reader_shp.py
@ -0,0 +1,60 @@
 import geopandas as gpd
 import fiona
 import zipfile
 import tempfile
 import os
 import shutil
 from shapely.geometry import shape
 def read_shp(path: str):
    if not path:
        raise ValueError("Path shapefile tidak boleh kosong.")
    tmpdir = None
    shp_path = None
    if path.lower().endswith(".zip"):
        tmpdir = tempfile.mkdtemp()
        with zipfile.ZipFile(path, "r") as zip_ref:
            zip_ref.extractall(tmpdir)
        shp_files = []
        for root, _, files in os.walk(tmpdir):
            for f in files:
                if f.lower().endswith(".shp"):
                    shp_files.append(os.path.join(root, f))
        if not shp_files:
            raise ValueError("Tidak ditemukan file .shp di dalam ZIP.")
        shp_path = shp_files[0]
        print(f"[DEBUG] Membaca shapefile: {os.path.basename(shp_path)}")
    else:
        shp_path = path
    try:
        gdf = gpd.read_file(shp_path)
    except Exception as e:
        raise ValueError(f"Gagal membaca shapefile: {e}")
    if "geometry" not in gdf.columns or gdf.geometry.is_empty.all():
        print("[WARN] Geometry kosong. Mencoba membangun ulang dari fitur mentah...")
        with fiona.open(shp_path) as src:
            features = []
            for feat in src:
                geom = shape(feat["geometry"]) if feat["geometry"] else None
                props = feat["properties"]
                props["geometry"] = geom
                features.append(props)
            gdf = gpd.GeoDataFrame(features, geometry="geometry", crs=src.crs)
    if gdf.crs is None:
        # print("[WARN] CRS tidak terdeteksi. Diasumsikan EPSG:4326")
        gdf.set_crs("EPSG:4326", inplace=True)
    if tmpdir and os.path.exists(tmpdir):
        shutil.rmtree(tmpdir)
    return gdf