Pakistan Real Estate — EDA Dashboard
153 430 biens · 5 villes · Karachi · Lahore · Islamabad · Rawalpindi · Faisalabad
Vue d'ensemble
Par ville
Types de biens
Features & Corrélations
Insights ML
Biens analysés
153k
After cleaning
Prix médian
8.7M
PKR · For Sale
Prix max
2B
PKR · outliers
Villes
5
Marchés distincts
Distribution par ville
Karachi 36%
Lahore 25%
Islamabad 22%
Rawalpindi 12%
Faisalabad 5%
Vente vs Location
72%
For Sale · 110 247 biens
28%
For Rent · 43 183 biens
Prix médian par ville (PKR)
Prix médian par ville · For Sale vs For Rent
Surface médiane (Marla)
Top quartiers (médiane prix)
Observations clés
Lahore = marché premium (médiane 16.5M PKR) malgré des surfaces similaires à Islamabad
Islamabad : écart médiane/moyenne énorme → forte présence de biens de luxe qui tirent la moyenne
DHA Defence est le quartier le plus cher et le plus représenté (20 932 biens, médiane 24.5M PKR)
Rawalpindi et Faisalabad : marchés accessibles, bon potentiel pour un modèle segmenté
Prix médian par type de bien (PKR)
Volume par type
Prix médian par nb de chambres · For Sale
Observations clés
House = 63% du dataset → le modèle sera principalement entraîné sur ce type
Farm House : médiane 37.5M PKR mais seulement 626 biens → risque d'overfitting sur ce segment
Rooms & Lower/Upper Portions : prix très bas (15k–50k PKR) → probablement des locations mal taggées
Progression quasi-linéaire du prix avec le nombre de chambres (1→7 chambres)
Matrice de corrélation avec le prix
INTERPRÉTATION
Bedrooms → Prix
r = 0.31 · corrélation modérée positive
Baths → Prix
r = 0.22 · proxy de standing
Area → Prix
r = 0.11 · surprenant ! La ville compte plus que la surface
Distribution des prix — quantiles
Signal fort pour le modèle ML
La corrélation faible entre surface et prix confirme que la localisation est la feature dominante
Bedrooms et baths sont très corrélés entre eux (r=0.66) → risque de multicolinéarité
Distribution très asymétrique → log-transformation du prix recommandée avant modélisation
50% des biens sous 8.7M PKR mais la moyenne à 18.4M → présence d'outliers extrêmes
Recommandations pipeline ML
01 · Preprocessing
→ log(price) comme target
→ Filtrer price > 0
→ Supprimer outliers > 99e percentile
→ Séparer vente / location
02 · Feature Engineering
→ Encoder city (Target Encoding)
→ Encoder location (fréquence + prix médian)
→ price_per_marla = price / area
→ ratio baths/bedrooms
03 · Modèle
→ XGBoost baseline
→ LightGBM (comparaison)
→ SHAP pour explicabilité
→ Validation croisée 5-fold
Segments recommandés
Modèle principal
House · For Sale · 3-5 chambres
Modèle appartements
Flat · Penthouse · Karachi + Lahore
Modèle location
For Rent · Features temporelles
Features les + prometteuses