Standardize data và tính Z-Score cho machine learning
Nhập dữ liệu và click Calculate để xem kết quả
Z-Score Calculator là công cụ tính Z-Score (standard score) để chuẩn hóa dữ liệu. Z-Score = (X - μ) / σ, cho biết một giá trị cách mean bao nhiêu standard deviations. Công cụ tính Z-Score cho single value hoặc batch processing cho entire dataset, tính percentile để biết % values nhỏ hơn, và interpret kết quả. Z-Score được dùng để standardize features trong machine learning, identify outliers, compare values từ different distributions, và normalize data. Sử dụng trong statistics, data science, quality control, và research.
Z-Score (standard score) chuẩn hóa data về cùng một scale, cho phép so sánh values từ different distributions. Ví dụ: Bạn có điểm 80/100 môn Math (mean=70, SD=10) và 75/100 môn English (mean=60, SD=15). Điểm nào tốt hơn? Z-Score Math = (80-70)/10 = 1.0, Z-Score English = (75-60)/15 = 1.0. Cả hai đều tốt như nhau (1 SD trên mean). Z-Score được dùng trong Machine Learning để standardize features (tránh features với scale lớn dominate), identify outliers (|Z| > 3), compare performance across different metrics, và normalize data cho algorithms sensitive to scale (KNN, SVM, Neural Networks).
Formula: Z = (X - μ) / σ, với X là value, μ là mean, σ là standard deviation. Z-Score cho biết X cách mean bao nhiêu SDs. Z = 0: Value = mean. Z = 1: Value cao hơn mean 1 SD. Z = -1: Value thấp hơn mean 1 SD. Z = 2: Value cao hơn mean 2 SDs (top ~2.5%). |Z| < 1: 68% data (bình thường). |Z| < 2: 95% data. |Z| < 3: 99.7% data. |Z| > 3: Outlier (rất khác biệt). Ví dụ: IQ có mean=100, SD=15. IQ=130 → Z=2 → top 2.5%.
Standardization (Z-Score normalization): Transform features về mean=0, SD=1. Công thức: X_scaled = (X - μ) / σ. Tại sao cần: Algorithms như KNN, SVM, Neural Networks sensitive to feature scales. Feature với scale lớn (income: $0-100k) sẽ dominate feature với scale nhỏ (age: 0-100). Standardization đưa tất cả về cùng scale. Khi nào dùng: Khi features có different units/scales. Với algorithms sensitive to scale. Khi muốn interpret coefficients dễ hơn. Lưu ý: Fit scaler trên training set, transform cả train và test. Không dùng với tree-based models (Decision Tree, Random Forest) vì chúng scale-invariant.
Z-Score là method đơn giản để detect outliers. Rule of thumb: |Z| > 3: Outlier (nằm ngoài 99.7% data). |Z| > 2.5: Potential outlier. Ví dụ: Dataset điểm thi có mean=70, SD=10. Điểm 105 → Z=3.5 → outlier (có thể sai data hoặc exceptional case). Advantages: Đơn giản, dễ interpret. Disadvantages: Assume normal distribution. Sensitive to extreme outliers (outliers ảnh hưởng mean và SD). Alternatives: IQR method (robust hơn), Modified Z-Score (dùng median thay mean), Isolation Forest (ML-based). Nên visualize data (boxplot, histogram) trước khi remove outliers.
Z-Score (standard score) cho biết một value cách mean bao nhiêu standard deviations. Z = (X - μ) / σ. Z = 1 nghĩa là value cao hơn mean 1 SD. Z = -2 nghĩa là value thấp hơn mean 2 SDs.
Z > 0: Value cao hơn mean. Z < 0: Value thấp hơn mean. Z = 0: Value bằng mean. Ví dụ: Z = 1.5 nghĩa là value cao hơn mean 1.5 SDs.
Thường dùng |Z| > 3 là outlier (nằm ngoài 99.7% data). Một số dùng |Z| > 2.5 hoặc |Z| > 2 tùy context. Luôn consider domain knowledge, không chỉ dựa vào threshold.
Percentile cho biết % values nhỏ hơn. Z = 0 → 50th percentile (median). Z = 1 → ~84th percentile. Z = 2 → ~97.5th percentile. Z = -1 → ~16th percentile. Dùng normal distribution CDF để convert.
Z-Score (Standardization): Scale về mean=0, SD=1. Giữ shape của distribution. Robust với outliers hơn. Min-Max: Scale về [0,1] hoặc [-1,1]. Sensitive to outliers. Dùng Z-Score cho most ML algorithms. Dùng Min-Max khi cần bounded range.
Có thể tính Z-Score, nhưng interpretation (percentile, outlier detection) assume normal distribution. Với non-normal data, consider transformations (log, sqrt) hoặc dùng robust methods (Modified Z-Score với median).
Fit scaler (tính mean và SD) trên training set. Transform cả train và test set bằng mean và SD từ training set. KHÔNG fit scaler trên test set (data leakage). Ví dụ: train_mean=70, train_sd=10 → dùng cho cả train và test.
Có, Z-Score Calculator hoàn toàn miễn phí và không giới hạn số lần sử dụng. Bạn có thể standardize bao nhiêu datasets tùy thích.
Chúng tôi không chỉ thiết kế website, mà còn giúp doanh nghiệp xây dựng thương hiệu số mạnh mẽ. Cung cấp dịch vụ thiết kế website trọn gói từ thiết kế đến tối ưu SEO. Hãy liên hệ ngay với Tấn Phát Digital để cùng tạo nên những giải pháp công nghệ đột phá, hiệu quả và bền vững cho doanh nghiệp của bạn tại Hồ Chí Minh.
Tính tuổi online, cung hoàng đạo, con giáp.
Tính tỷ lệ khung hình.
Tính BMI online, calo, protein.
Tính giảm giá, khuyến mãi.
Tính khoản vay, lãi suất.
Tính trả góp vay ngân hàng Việt Nam (lãi cố định/giảm dần).
Tính lãi kép, cổ phiếu, tiết kiệm ngân hàng.
Dự tính số tiền cần cho tuổi nghỉ hưu.
Tính thuế TNCN 2026 theo quy định Việt Nam.
Tính lương làm thêm giờ.
Tính phần trăm nhanh.
Máy tính cơ bản.