数据科学基础术语

原创梧桐 2025-08-22

174

数据科学的主要知识域包括：学科基础、数据类型与分布、数据处理、统计学、可视化、机器学习与深度学习、模型评估、大数据与工具、编程语言与库、应用场景。供初学者或AI工作者标准化应用或备查。

一、学科与概念基础

Data Science：综合统计学、计算机科学和业务知识来从数据中获取价值。
Statistics：研究数据的收集、分析、解释和推断的方法。
Machine Learning：让计算机通过数据自动学习模式并预测的技术。
Deep Learning：基于神经网络的机器学习分支，适合处理大规模复杂数据。
Business Analytics：利用数据和模型来支持业务决策。
Business Intelligence：侧重于通过报表、可视化分析帮助业务洞察。
Big Data：数据量庞大、类型多样、增长速度快的数据集合及相关技术。
Data Mining：从大量数据中发现模式与知识的过程。

二、数据与变量类型

Dataset：数据集合。
Dataframe：类似表格的数据结构。
Categorical Variable：分类变量，如性别、颜色。
Nominal Variable：无顺序的类别变量。
Ordinal Variable：有顺序的类别变量。
Binary Variable：只能取两种值的变量（如0/1）。
Continuous Variable：连续数值型变量。
Dependent/Response Variable：被预测或解释的变量。
Predictor Variable：自变量，用于预测。
Dummy Variable：将分类变量转为数值变量（如0/1）。
NaN：缺失值（Not a Number）。
Outlier：异常值。

三、统计学与概率分布

Descriptive Statistics：描述数据特征，如均值、中位数。
Inferential Statistics：基于样本对总体推断。
Mean/Median/Mode：均值/中位数/众数。
Variance/Standard Deviation：数据分散程度。
Range：最大值与最小值差。
Quartile/IQR：四分位数与四分位距。
Skewness：数据分布偏斜程度。
Kurtosis：峰度，分布陡峭程度。
Normal Distribution：常见的钟形概率分布。
Binomial Distribution：二项分布，描述成功/失败试验次数。
Autoregression：基于过去值预测未来值的统计模型。
Holt-Winters Forecasting：时间序列预测方法。
Bayes Theorem：条件概率公式。
Bayesian Statistics：基于贝叶斯定理的统计推断方法。
Frequentist Statistics：传统频率学派统计方法。
Maximum Likelihood Estimation：估计参数的方法，使观测概率最大。
Hypothesis：统计假设。
P-Value：假设检验中拒绝原假设的显著性水平。
T-Test / Z-Test：均值差异检验。
Confidence Interval：总体参数的区间估计。
Type I error / Type II error：错误拒绝或错误接受原假设。
Degree of Freedom：统计量中可自由变化的数量。
Goodness of Fit：模型与数据吻合程度。
Monte Carlo Simulation：基于随机采样的模拟方法。

四、数据处理与特征工程

ETL：Extract-Transform-Load，抽取、转换、加载数据过程。
Data Transformation：对数据进行格式或数值变换。
Normalization / Standardization：数据归一化/标准化。
Imputation：缺失值填补。
Feature Selection/Reduction：选择或减少特征。
Feature Hashing：将特征映射到固定维度。
One Hot Encoding：将类别转为0/1表示。
Bootstrapping：重采样方法。
SMOTE：处理类别不平衡的过采样技术。

五、数据可视化

Bar Chart：柱状图。
Histogram：直方图。
Box Plot：箱线图。
Pie Chart：饼图。
Line Chart：折线图。
Dashboard：数据可视化展示工具。
Ggplot2 / Dplyr：R语言可视化与数据处理库。

六、机器学习算法与模型

Classification：分类任务。
Multi-Class Classification：多类别分类。
Clustering：聚类。
K-Means：常见的聚类算法。
DBScan：基于密度的聚类。
Hierarchical Clustering：层次聚类。
Decision Tree：树结构模型。
Random Forest (Bagging)：基于装袋的集成方法。
Boosting：迭代提升弱模型。
Naive Bayes：基于贝叶斯的分类器。
Logistic Regression：二分类模型。
Linear Regression / Polynomial Regression / Lasso / Ridge / Regression Spline：不同的回归方法。
Principal Component Analysis (PCA)：降维方法。
Factor Analysis：变量关系分析。
Market Basket Analysis：购物篮关联分析。
Market Mix Modeling：市场投放效果建模。
Hidden Markov Model：概率图模型。

七、深度学习与优化

Neural Network 基础：
- Backpropagation：反向传播训练算法。
- Gradient Descent / Stochastic Gradient Descent (SGD)：优化方法。
- Adam Optimization：常见优化器。
- Cost Function / Cross Entropy / Log Loss：损失函数。
- Overfitting / Underfitting：过拟合与欠拟合。
- Regularization：防止过拟合的方法。
- Convergence / Convex Function：收敛性与凸优化。
深度学习模型：
- CNN (Computer Vision 应用)。
- RNN / LSTM / GRU：序列建模。
- Reinforcement Learning：强化学习。
- Transfer Learning / Pre-trained Model / Few-shot Learning / One-shot Learning：迁移与小样本学习。
- Spatial-Temporal Reasoning：时空推理任务。

八、模型评估指标

Accuracy：准确率。
Precision and Recall：精确率与召回率。
F-Score：调和平均指标。
Confusion Matrix：分类结果矩阵。
Classification Threshold：分类概率阈值。
True Positive / True Negative / False Positive / False Negative：混淆矩阵元素。
Root Mean Squared Error (RMSE)：回归误差度量。
Residual：预测值与实际值差。
Evaluation Metrics：通用评估指标。
Bias-Variance Trade-off：偏差-方差平衡。
Concordant-Discordant Ratio：模型排序一致性度量。
Rotational Invariance：模型对旋转的鲁棒性。

九、大数据与工具

Hadoop / HDFS：分布式存储与计算框架。
MapReduce：分布式计算编程模型。
Hive：SQL 查询工具。
Pig：数据流脚本语言。
Mahout：机器学习库。
Spark：内存计算大数据框架。
Flume：日志采集。
Oozie：工作流调度器。
Zookeeper：分布式协调服务。
MLaaS：Machine Learning as a Service。

十、编程语言与库

Python：数据科学主流语言。
R：统计与可视化常用语言。
Scala：与 Spark 常配合使用。
Julia：高性能科学计算语言。
Go：系统级编程语言。
Pandas / Numpy：Python 数据分析库。
TensorFlow / PyTorch / Torch / Keras：深度学习框架。

引用：https://www.analyticsvidhya.com/glossary-of-common-statistics-and-machine-learning-terms/

ai 数据科学

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

【版权声明】本文为墨天轮用户原创内容，转载时必须标注文章的来源（墨天轮），文章链接，文章作者等基本信息，否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容，欢迎发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

评论