PDF Practical Statistics for Data Scientists: 50 Essential Concepts - Peter Bruce & Andrew Bruce

Tin đăng trong 'Coding, AI, Big Data, Deep Learning' bởi Mod_Nam, Cập nhật cuối: 11/11/2025 lúc 16:39.

  1. Mod_Nam

    Mod_Nam Moderator Staff Member Quản trị viên

    Tham gia :
    18/12/2024
    Bài viết:
    809
    Lượt thích:
    6
    Điểm thành tích:
    8.288
    Giới tính:
    Nam
    Địa chỉ:
    TP HCM
    [​IMG]
    562 trang

    Dưới đây là tóm tắt các nội dung chính trong các chương đầu của sách:

    Mục đích của sách:
    • Trình bày các khái niệm thống kê cốt lõi, dễ hiểu, có thể tham khảo nhanh, và liên quan đến khoa học dữ liệu.
    • Giải thích những khái niệm nào là quan trọng và hữu ích từ góc độ khoa học dữ liệu, và những khái niệm nào ít quan trọng hơn, cùng với lý do.
    Chương 1: Phân tích Dữ liệu Khám phá (Exploratory Data Analysis - EDA)
    • EDA: Là bước đầu tiên trong bất kỳ dự án khoa học dữ liệu nào, tập trung vào việc khám phá và trực quan hóa dữ liệu.
    • Các Yếu tố của Dữ liệu Có cấu trúc (Structured Data): Phân loại dữ liệu thành:
      • Liên tục (Continuous): Dữ liệu có thể nhận bất kỳ giá trị nào trong một khoảng (ví dụ: nhiệt độ, thời gian).
      • Rời rạc (Discrete): Dữ liệu chỉ có thể nhận giá trị số nguyên, như số đếm (ví dụ: số lần xảy ra sự kiện).
      • Phân loại (Categorical): Dữ liệu đại diện cho một tập hợp các danh mục (ví dụ: loại màn hình TV, tên tiểu bang).
      • Nhị phân (Binary): Trường hợp đặc biệt của dữ liệu phân loại với hai giá trị (ví dụ: 0/1, đúng/sai).
      • Thứ bậc (Ordinal): Dữ liệu phân loại có thứ tự rõ ràng (ví dụ: xếp hạng 1, 2, 3, 4, 5).
    • Dữ liệu Hình chữ nhật (Rectangular Data): Cấu trúc dữ liệu cơ bản giống như bảng tính hoặc bảng cơ sở dữ liệu.
      • Data frame: Cấu trúc dữ liệu cơ bản.
      • Feature (Đặc trưng): Một cột trong bảng (đồng nghĩa: thuộc tính, đầu vào, biến dự đoán, biến số).
      • Outcome (Kết quả): Biến mà dự án đang cố gắng dự đoán (đồng nghĩa: biến phụ thuộc, phản hồi, mục tiêu, đầu ra).
      • Records (Bản ghi): Một hàng trong bảng (đồng nghĩa: trường hợp, ví dụ, thể hiện, quan sát, mẫu).
    • Ước tính Vị trí (Estimates of Location): Các số đo về xu hướng trung tâm của dữ liệu.
      • Mean (Trung bình): Tổng các giá trị chia cho số lượng.
      • Weighted mean (Trung bình có trọng số): Trung bình trong đó mỗi giá trị được nhân với một trọng số.
      • Median (Trung vị): Giá trị nằm ở giữa khi dữ liệu được sắp xếp; là một ước tính mạnh mẽ (robust), ít nhạy cảm với các giá trị cực trị (outlier).
      • Trimmed mean (Trung bình được cắt bớt): Trung bình của các giá trị sau khi loại bỏ một số lượng cố định các giá trị cực trị ở mỗi đầu.
    • Ước tính Độ biến thiên (Estimates of Variability): Các số đo về mức độ phân tán của dữ liệu.
      • Variance (Phương sai) và Standard deviation (Độ lệch chuẩn): Dựa trên độ lệch bình phương từ trung bình; nhạy cảm với outlier.
      • Mean absolute deviation (Độ lệch tuyệt đối trung bình) và Median absolute deviation (MAD): Các số liệu mạnh mẽ hơn.
      • Percentile (Phần trăm vị) và Interquartile range (IQR): Sự khác biệt giữa phân vị 75% và 25%; là các số liệu dựa trên thống kê thứ tự (order statistics).
    • Khám phá Phân phối Dữ liệu:
      • Boxplot (Biểu đồ hộp): Trực quan hóa nhanh về phân phối dữ liệu, dựa trên các phân vị.
      • Frequency table (Bảng tần số) và Histogram (Biểu đồ tần suất): Chia phạm vi biến thành các khoảng bằng nhau và đếm số lượng giá trị rơi vào mỗi khoảng.
      • Density plot (Biểu đồ mật độ): Phiên bản làm mịn của histogram, hiển thị phân phối dữ liệu dưới dạng đường liên tục.
    • Khám phá Dữ liệu Nhị phân và Phân loại:
      • Mode (Yếu vị): Danh mục hoặc giá trị xuất hiện thường xuyên nhất.
      • Expected value (Giá trị kỳ vọng): Tổng của mỗi kết quả nhân với xác suất xảy ra của nó (một dạng trung bình có trọng số).
      • Bar charts (Biểu đồ thanh): Hiển thị tần suất hoặc tỷ lệ của mỗi danh mục.
    • Tương quan (Correlation):
      • Correlation coefficient (Hệ số tương quan): Số liệu đo lường mức độ liên kết giữa hai biến số numeric (từ -1 đến +1).
      • Correlation matrix (Ma trận tương quan): Bảng hiển thị tương quan giữa nhiều biến số.
      • Scatterplot (Biểu đồ phân tán): Trực quan hóa mối quan hệ giữa hai biến số.
    • Khám phá Hai hoặc Nhiều Biến số (Multivariate Analysis):
      • Contingency tables (Bảng liên hợp): Bảng đếm giữa hai hoặc nhiều biến phân loại.
      • Hexagonal binning (Phân loại hình lục giác) và Contour plots (Biểu đồ đường đồng mức): Dùng để trực quan hóa hai biến số numeric với lượng dữ liệu lớn.
      • Violin plots (Biểu đồ violin): Tương tự boxplot nhưng hiển thị ước tính mật độ; dùng để so sánh phân phối của một biến numeric theo một biến phân loại.
    Chương 2: Dữ liệu và Phân phối Mẫu (Data and Sampling Distributions)
    • Lấy mẫu Ngẫu nhiên và Lệch Mẫu (Sample Bias):
      • Sample (Mẫu): Một tập hợp con của dữ liệu từ một tập dữ liệu lớn hơn.
      • Population (Quần thể): Tập dữ liệu lớn hơn mà mẫu được rút ra.
      • Random sampling (Lấy mẫu ngẫu nhiên): Quá trình chọn các phần tử vào mẫu một cách ngẫu nhiên, giúp giảm thiểu sai lệch.
      • Stratified sampling (Lấy mẫu phân tầng): Chia quần thể thành các tầng và lấy mẫu ngẫu nhiên từ mỗi tầng.
      • Sample bias (Lệch mẫu): Mẫu đại diện sai lệch cho quần thể.
    • Bias (Sai lệch): Lỗi đo lường hoặc lấy mẫu mang tính hệ thống.
    • Random Selection (Lựa chọn Ngẫu nhiên): Các phương pháp như lấy mẫu ngẫu nhiên đơn giản và lấy mẫu phân tầng được sử dụng để đạt được tính đại diện.
    • Selection Bias (Lệch Lựa chọn): Thực hành chọn lọc dữ liệu một cách có ý thức hoặc vô thức dẫn đến kết luận sai lệch hoặc phù du.
      • Data snooping (Tìm kiếm dữ liệu): Săn lùng dữ liệu rộng rãi để tìm kiếm điều gì đó thú vị.
      • Vast search effect (Hiệu ứng tìm kiếm lớn): Sai lệch hoặc không thể tái tạo do mô hình hóa dữ liệu lặp đi lặp lại hoặc mô hình hóa dữ liệu với số lượng lớn biến dự đoán.
    • Regression to the Mean (Hồi quy về Trung bình): Hiện tượng các quan sát cực trị có xu hướng được theo sau bởi các quan sát trung tâm hơn.
     
    Practical Statistics for Data Scientists: 50 Essential Concepts - Peter Bruce & Andrew Bruce : Bạn cần để tải tài liệu
    Đang tải...

Chia sẻ trang này