暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据科学基础术语

原创 梧桐 2025-08-22
173

数据科学的主要知识域包括:学科基础、数据类型与分布、数据处理、统计学、可视化、机器学习与深度学习、模型评估、大数据与工具、编程语言与库、应用场景。供初学者或AI工作者标准化应用或备查。


一、学科与概念基础

  • Data Science:综合统计学、计算机科学和业务知识来从数据中获取价值。

  • Statistics:研究数据的收集、分析、解释和推断的方法。

  • Machine Learning:让计算机通过数据自动学习模式并预测的技术。

  • Deep Learning:基于神经网络的机器学习分支,适合处理大规模复杂数据。

  • Business Analytics:利用数据和模型来支持业务决策。

  • Business Intelligence:侧重于通过报表、可视化分析帮助业务洞察。

  • Big Data:数据量庞大、类型多样、增长速度快的数据集合及相关技术。

  • Data Mining:从大量数据中发现模式与知识的过程。


二、数据与变量类型

  • Dataset:数据集合。

  • Dataframe:类似表格的数据结构。

  • Categorical Variable:分类变量,如性别、颜色。

  • Nominal Variable:无顺序的类别变量。

  • Ordinal Variable:有顺序的类别变量。

  • Binary Variable:只能取两种值的变量(如0/1)。

  • Continuous Variable:连续数值型变量。

  • Dependent/Response Variable:被预测或解释的变量。

  • Predictor Variable:自变量,用于预测。

  • Dummy Variable:将分类变量转为数值变量(如0/1)。

  • NaN:缺失值(Not a Number)。

  • Outlier:异常值。


三、统计学与概率分布

  • Descriptive Statistics:描述数据特征,如均值、中位数。

  • Inferential Statistics:基于样本对总体推断。

  • Mean/Median/Mode:均值/中位数/众数。

  • Variance/Standard Deviation:数据分散程度。

  • Range:最大值与最小值差。

  • Quartile/IQR:四分位数与四分位距。

  • Skewness:数据分布偏斜程度。

  • Kurtosis:峰度,分布陡峭程度。

  • Normal Distribution:常见的钟形概率分布。

  • Binomial Distribution:二项分布,描述成功/失败试验次数。

  • Autoregression:基于过去值预测未来值的统计模型。

  • Holt-Winters Forecasting:时间序列预测方法。

  • Bayes Theorem:条件概率公式。

  • Bayesian Statistics:基于贝叶斯定理的统计推断方法。

  • Frequentist Statistics:传统频率学派统计方法。

  • Maximum Likelihood Estimation:估计参数的方法,使观测概率最大。

  • Hypothesis:统计假设。

  • P-Value:假设检验中拒绝原假设的显著性水平。

  • T-Test / Z-Test:均值差异检验。

  • Confidence Interval:总体参数的区间估计。

  • Type I error / Type II error:错误拒绝或错误接受原假设。

  • Degree of Freedom:统计量中可自由变化的数量。

  • Goodness of Fit:模型与数据吻合程度。

  • Monte Carlo Simulation:基于随机采样的模拟方法。


四、数据处理与特征工程

  • ETL:Extract-Transform-Load,抽取、转换、加载数据过程。

  • Data Transformation:对数据进行格式或数值变换。

  • Normalization / Standardization:数据归一化/标准化。

  • Imputation:缺失值填补。

  • Feature Selection/Reduction:选择或减少特征。

  • Feature Hashing:将特征映射到固定维度。

  • One Hot Encoding:将类别转为0/1表示。

  • Bootstrapping:重采样方法。

  • SMOTE:处理类别不平衡的过采样技术。


五、数据可视化

  • Bar Chart:柱状图。

  • Histogram:直方图。

  • Box Plot:箱线图。

  • Pie Chart:饼图。

  • Line Chart:折线图。

  • Dashboard:数据可视化展示工具。

  • Ggplot2 / Dplyr:R语言可视化与数据处理库。


六、机器学习算法与模型

  • Classification:分类任务。

  • Multi-Class Classification:多类别分类。

  • Clustering:聚类。

  • K-Means:常见的聚类算法。

  • DBScan:基于密度的聚类。

  • Hierarchical Clustering:层次聚类。

  • Decision Tree:树结构模型。

  • Random Forest (Bagging):基于装袋的集成方法。

  • Boosting:迭代提升弱模型。

  • Naive Bayes:基于贝叶斯的分类器。

  • Logistic Regression:二分类模型。

  • Linear Regression / Polynomial Regression / Lasso / Ridge / Regression Spline:不同的回归方法。

  • Principal Component Analysis (PCA):降维方法。

  • Factor Analysis:变量关系分析。

  • Market Basket Analysis:购物篮关联分析。

  • Market Mix Modeling:市场投放效果建模。

  • Hidden Markov Model:概率图模型。


七、深度学习与优化

  • Neural Network 基础

    • Backpropagation:反向传播训练算法。

    • Gradient Descent / Stochastic Gradient Descent (SGD):优化方法。

    • Adam Optimization:常见优化器。

    • Cost Function / Cross Entropy / Log Loss:损失函数。

    • Overfitting / Underfitting:过拟合与欠拟合。

    • Regularization:防止过拟合的方法。

    • Convergence / Convex Function:收敛性与凸优化。

  • 深度学习模型

    • CNN (Computer Vision 应用)

    • RNN / LSTM / GRU:序列建模。

    • Reinforcement Learning:强化学习。

    • Transfer Learning / Pre-trained Model / Few-shot Learning / One-shot Learning:迁移与小样本学习。

    • Spatial-Temporal Reasoning:时空推理任务。


八、模型评估指标

  • Accuracy:准确率。

  • Precision and Recall:精确率与召回率。

  • F-Score:调和平均指标。

  • Confusion Matrix:分类结果矩阵。

  • Classification Threshold:分类概率阈值。

  • True Positive / True Negative / False Positive / False Negative:混淆矩阵元素。

  • Root Mean Squared Error (RMSE):回归误差度量。

  • Residual:预测值与实际值差。

  • Evaluation Metrics:通用评估指标。

  • Bias-Variance Trade-off:偏差-方差平衡。

  • Concordant-Discordant Ratio:模型排序一致性度量。

  • Rotational Invariance:模型对旋转的鲁棒性。


九、大数据与工具

  • Hadoop / HDFS:分布式存储与计算框架。

  • MapReduce:分布式计算编程模型。

  • Hive:SQL 查询工具。

  • Pig:数据流脚本语言。

  • Mahout:机器学习库。

  • Spark:内存计算大数据框架。

  • Flume:日志采集。

  • Oozie:工作流调度器。

  • Zookeeper:分布式协调服务。

  • MLaaS:Machine Learning as a Service。


十、编程语言与库

  • Python:数据科学主流语言。

  • R:统计与可视化常用语言。

  • Scala:与 Spark 常配合使用。

  • Julia:高性能科学计算语言。

  • Go:系统级编程语言。

  • Pandas / Numpy:Python 数据分析库。

  • TensorFlow / PyTorch / Torch / Keras:深度学习框架。

    引用:https://www.analyticsvidhya.com/glossary-of-common-statistics-and-machine-learning-terms/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论