数据科学的主要知识域包括:学科基础、数据类型与分布、数据处理、统计学、可视化、机器学习与深度学习、模型评估、大数据与工具、编程语言与库、应用场景。供初学者或AI工作者标准化应用或备查。
一、学科与概念基础
-
Data Science:综合统计学、计算机科学和业务知识来从数据中获取价值。
-
Statistics:研究数据的收集、分析、解释和推断的方法。
-
Machine Learning:让计算机通过数据自动学习模式并预测的技术。
-
Deep Learning:基于神经网络的机器学习分支,适合处理大规模复杂数据。
-
Business Analytics:利用数据和模型来支持业务决策。
-
Business Intelligence:侧重于通过报表、可视化分析帮助业务洞察。
-
Big Data:数据量庞大、类型多样、增长速度快的数据集合及相关技术。
-
Data Mining:从大量数据中发现模式与知识的过程。
二、数据与变量类型
-
Dataset:数据集合。
-
Dataframe:类似表格的数据结构。
-
Categorical Variable:分类变量,如性别、颜色。
-
Nominal Variable:无顺序的类别变量。
-
Ordinal Variable:有顺序的类别变量。
-
Binary Variable:只能取两种值的变量(如0/1)。
-
Continuous Variable:连续数值型变量。
-
Dependent/Response Variable:被预测或解释的变量。
-
Predictor Variable:自变量,用于预测。
-
Dummy Variable:将分类变量转为数值变量(如0/1)。
-
NaN:缺失值(Not a Number)。
-
Outlier:异常值。
三、统计学与概率分布
-
Descriptive Statistics:描述数据特征,如均值、中位数。
-
Inferential Statistics:基于样本对总体推断。
-
Mean/Median/Mode:均值/中位数/众数。
-
Variance/Standard Deviation:数据分散程度。
-
Range:最大值与最小值差。
-
Quartile/IQR:四分位数与四分位距。
-
Skewness:数据分布偏斜程度。
-
Kurtosis:峰度,分布陡峭程度。
-
Normal Distribution:常见的钟形概率分布。
-
Binomial Distribution:二项分布,描述成功/失败试验次数。
-
Autoregression:基于过去值预测未来值的统计模型。
-
Holt-Winters Forecasting:时间序列预测方法。
-
Bayes Theorem:条件概率公式。
-
Bayesian Statistics:基于贝叶斯定理的统计推断方法。
-
Frequentist Statistics:传统频率学派统计方法。
-
Maximum Likelihood Estimation:估计参数的方法,使观测概率最大。
-
Hypothesis:统计假设。
-
P-Value:假设检验中拒绝原假设的显著性水平。
-
T-Test / Z-Test:均值差异检验。
-
Confidence Interval:总体参数的区间估计。
-
Type I error / Type II error:错误拒绝或错误接受原假设。
-
Degree of Freedom:统计量中可自由变化的数量。
-
Goodness of Fit:模型与数据吻合程度。
-
Monte Carlo Simulation:基于随机采样的模拟方法。
四、数据处理与特征工程
-
ETL:Extract-Transform-Load,抽取、转换、加载数据过程。
-
Data Transformation:对数据进行格式或数值变换。
-
Normalization / Standardization:数据归一化/标准化。
-
Imputation:缺失值填补。
-
Feature Selection/Reduction:选择或减少特征。
-
Feature Hashing:将特征映射到固定维度。
-
One Hot Encoding:将类别转为0/1表示。
-
Bootstrapping:重采样方法。
-
SMOTE:处理类别不平衡的过采样技术。
五、数据可视化
-
Bar Chart:柱状图。
-
Histogram:直方图。
-
Box Plot:箱线图。
-
Pie Chart:饼图。
-
Line Chart:折线图。
-
Dashboard:数据可视化展示工具。
-
Ggplot2 / Dplyr:R语言可视化与数据处理库。
六、机器学习算法与模型
-
Classification:分类任务。
-
Multi-Class Classification:多类别分类。
-
Clustering:聚类。
-
K-Means:常见的聚类算法。
-
DBScan:基于密度的聚类。
-
Hierarchical Clustering:层次聚类。
-
Decision Tree:树结构模型。
-
Random Forest (Bagging):基于装袋的集成方法。
-
Boosting:迭代提升弱模型。
-
Naive Bayes:基于贝叶斯的分类器。
-
Logistic Regression:二分类模型。
-
Linear Regression / Polynomial Regression / Lasso / Ridge / Regression Spline:不同的回归方法。
-
Principal Component Analysis (PCA):降维方法。
-
Factor Analysis:变量关系分析。
-
Market Basket Analysis:购物篮关联分析。
-
Market Mix Modeling:市场投放效果建模。
-
Hidden Markov Model:概率图模型。
七、深度学习与优化
-
Neural Network 基础:
-
Backpropagation:反向传播训练算法。
-
Gradient Descent / Stochastic Gradient Descent (SGD):优化方法。
-
Adam Optimization:常见优化器。
-
Cost Function / Cross Entropy / Log Loss:损失函数。
-
Overfitting / Underfitting:过拟合与欠拟合。
-
Regularization:防止过拟合的方法。
-
Convergence / Convex Function:收敛性与凸优化。
-
-
深度学习模型:
-
CNN (Computer Vision 应用)。
-
RNN / LSTM / GRU:序列建模。
-
Reinforcement Learning:强化学习。
-
Transfer Learning / Pre-trained Model / Few-shot Learning / One-shot Learning:迁移与小样本学习。
-
Spatial-Temporal Reasoning:时空推理任务。
-
八、模型评估指标
-
Accuracy:准确率。
-
Precision and Recall:精确率与召回率。
-
F-Score:调和平均指标。
-
Confusion Matrix:分类结果矩阵。
-
Classification Threshold:分类概率阈值。
-
True Positive / True Negative / False Positive / False Negative:混淆矩阵元素。
-
Root Mean Squared Error (RMSE):回归误差度量。
-
Residual:预测值与实际值差。
-
Evaluation Metrics:通用评估指标。
-
Bias-Variance Trade-off:偏差-方差平衡。
-
Concordant-Discordant Ratio:模型排序一致性度量。
-
Rotational Invariance:模型对旋转的鲁棒性。
九、大数据与工具
-
Hadoop / HDFS:分布式存储与计算框架。
-
MapReduce:分布式计算编程模型。
-
Hive:SQL 查询工具。
-
Pig:数据流脚本语言。
-
Mahout:机器学习库。
-
Spark:内存计算大数据框架。
-
Flume:日志采集。
-
Oozie:工作流调度器。
-
Zookeeper:分布式协调服务。
-
MLaaS:Machine Learning as a Service。
十、编程语言与库
-
Python:数据科学主流语言。
-
R:统计与可视化常用语言。
-
Scala:与 Spark 常配合使用。
-
Julia:高性能科学计算语言。
-
Go:系统级编程语言。
-
Pandas / Numpy:Python 数据分析库。
-
TensorFlow / PyTorch / Torch / Keras:深度学习框架。
引用:https://www.analyticsvidhya.com/glossary-of-common-statistics-and-machine-learning-terms/




