Pakistan Real Estate — EDA Dashboard

153 430 biens · 5 villes · Karachi · Lahore · Islamabad · Rawalpindi · Faisalabad

Biens analysés
153k
After cleaning
Prix médian
8.7M
PKR · For Sale
Prix max
2B
PKR · outliers
Villes
5
Marchés distincts
Distribution par ville
Karachi 36%
Lahore 25%
Islamabad 22%
Rawalpindi 12%
Faisalabad 5%
Vente vs Location
72%
For Sale · 110 247 biens
28%
For Rent · 43 183 biens
Prix médian par ville (PKR)
Prix médian par ville · For Sale vs For Rent
Surface médiane (Marla)
Top quartiers (médiane prix)
Observations clés
  • Lahore = marché premium (médiane 16.5M PKR) malgré des surfaces similaires à Islamabad
  • Islamabad : écart médiane/moyenne énorme → forte présence de biens de luxe qui tirent la moyenne
  • DHA Defence est le quartier le plus cher et le plus représenté (20 932 biens, médiane 24.5M PKR)
  • Rawalpindi et Faisalabad : marchés accessibles, bon potentiel pour un modèle segmenté
Prix médian par type de bien (PKR)
Volume par type
Prix médian par nb de chambres · For Sale
Observations clés
  • House = 63% du dataset → le modèle sera principalement entraîné sur ce type
  • Farm House : médiane 37.5M PKR mais seulement 626 biens → risque d'overfitting sur ce segment
  • Rooms & Lower/Upper Portions : prix très bas (15k–50k PKR) → probablement des locations mal taggées
  • Progression quasi-linéaire du prix avec le nombre de chambres (1→7 chambres)
Matrice de corrélation avec le prix
INTERPRÉTATION
Bedrooms → Prix
r = 0.31 · corrélation modérée positive
Baths → Prix
r = 0.22 · proxy de standing
Area → Prix
r = 0.11 · surprenant ! La ville compte plus que la surface
Distribution des prix — quantiles
Signal fort pour le modèle ML
  • La corrélation faible entre surface et prix confirme que la localisation est la feature dominante
  • Bedrooms et baths sont très corrélés entre eux (r=0.66) → risque de multicolinéarité
  • Distribution très asymétrique → log-transformation du prix recommandée avant modélisation
  • 50% des biens sous 8.7M PKR mais la moyenne à 18.4M → présence d'outliers extrêmes
Recommandations pipeline ML
01 · Preprocessing
  • → log(price) comme target
  • → Filtrer price > 0
  • → Supprimer outliers > 99e percentile
  • → Séparer vente / location
02 · Feature Engineering
  • → Encoder city (Target Encoding)
  • → Encoder location (fréquence + prix médian)
  • → price_per_marla = price / area
  • → ratio baths/bedrooms
03 · Modèle
  • → XGBoost baseline
  • → LightGBM (comparaison)
  • → SHAP pour explicabilité
  • → Validation croisée 5-fold
Segments recommandés
Modèle principal
House · For Sale · 3-5 chambres
Modèle appartements
Flat · Penthouse · Karachi + Lahore
Modèle location
For Rent · Features temporelles
Features les + prometteuses