当前位置：首页 > 如何自学

机器学习基础，机器学习需要哪些数学基础

如何自学
2023-04-30

目录
干货 | 基础机器学习算法
机器学习的基本流程是什么
机器学习需要哪些数学基础
机器学习该怎么入门
机器学习新手必看十大算法

干货 | 基础机器学习算法

先看看相关的图书：要有好几本作为参考，最好是角度差异大、深浅程度不同，比如的导论式的、深入数锋的有推导的、浅出的手把手的。它要充当不同学习过程中的书。

网络教程：比如Andrew Ng的、各种专题的博客，有针对地找相应的教程，相对着看，网络资源比如51cto学院的课程跟书的表达方式毕竟是不一样的，也是很有益的信息源。

paper：比如学CNN的时候，就薯圆晌搜一堆论文来，集中一段时间看一轮，一定要有针对性，带着很明确的问号去看。

开源资源：很多很多东西，其实都有人做出来开源了，直接拿来用，一边用一边理解，甚至可以学习源码

关注这个领域：关注相关的会议期刊，关注大牛们（Hinton、Bengio、LeCun等）的动向，微博加一堆领域大牛每天看一眼他们分享什么上来。

至于学习，我个人不太喜欢，信息密度太低，效率太低，还不如多看些书和论文（当然，你如果想瞻仰大神们，还是可以看看的）。

基础知识：线代、统计、概率、数学分析；信息论方面基本概念要理解，比如要知道相对熵是什么意思和怎么算；凸优化和最优估计相关内容，在各种各样问题中都会遇到，学好了可以帮腔洞大忙。

机器学习主要就是找到目标函数并且做参数估计，虽然有很多现成，但是不熟悉优化问题的话，会很抓瞎。

模型总要熟悉几个吧，神经网络（SAE、RBM、CNN等）、SVM、最大熵、CRF、随机森林、GMM等等。了解不同应用场景下各种模型有什么优劣，挑一些自己以后可能常用到的多练习。

机器学习的基本流程是什么

1 抽象成数学问题塌乎

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。

这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。

2 获取数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。

数据要有代表性，否则必然会过拟合。

而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。

而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。

3 特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。

特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。

筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结卜衫蠢果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

4 训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

5 模型诊断

如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。

过拟合、欠拟合判断是模型型陪诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。

误差分析也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……

诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试，进而达到最优状态。

6 模型融合

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。

工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。

7 上线运行

这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。

这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。

机器学习需要哪些数学基础

找一个库，先阅读其文档，然后就可以照着指南尝试做一些事情了。以下是最优秀吵租的机器学习库开源代码。我并不认为这些库适用于你的工程项目，但是它们非常适合学习，开发及建模。

先选择一个你熟悉的语言对应的库，然后再尝试其他更功能强大的库。如果你是个很好的程序员，你应该知道你可以很容易的从一种语言切换到另一种语言。程序逻辑都是一样的，只是语法和API的区别而已。

R Project for Statistical Computing（用于统计计算的R工程）：这是一个环境，采用类lisp脚本语言。提供了你想要的所有统计相关的东西，包括非常赞的绘图。CRAN（第三方机器学习包）的机器学习分类下有该领域专家们编写的代码，最新的接口方法和其他你能想到的功能都可以在上面找到。如果你想快速建模并开发，R工程是必学的。不过你不一定从一开始就从这个工程学起。

WEKA：数据挖掘，提供了API，一些命令行及整个数据挖掘生命周期的图像化用户接口。你可以准备数据，进行可视化开发，创建分类、回归、集群模型和很多内嵌及第三方组件提供的算法。如果你需要基于Hadoop工作，那么Mahout就是一个很好的机器学习java框架，这个框架和和WEKA不相关。但如果你是大数据和机器学习的新手，那么还是坚持看WEKA，记得一次只学一样东西。

Scikit Learn：机器学习Python库，依赖Numpy和Scipy库。如果你是Python或者Ruby程序员，这个库比较合适。该库接口友好，功能强大，且有完善的文档支持。如果你想尝试其他东西，那么Orange将是一个不错的选择。

孙御Octave：如果你熟悉MatLab或者你是Numpy程序员且正尝试寻找一些不一样的东西，那么可以考虑Octave。它提供了跟Matlab相似的数据计算环境，并且可以很简单的通过编程解决线性及非线性的问题，这些问题是大部分机器学习算法的基础。如果你有工程师背景，你可以从这里开始学起。

BigML：可能你不想做任何的编程，那么你可以全部使用，比如WEKA。你还可以更深一步并使用像BigML一样的则碰岩服务，BigML提供了web版的机器学习接口，开发及创建模型可以全部在浏览器上完成。

选取其中一个用于机器学习的实战练习。不要只是看，要做。

课程

现在很流行通过观看来学习机器学习。我在YouTube和VideoLectures.Net上看了很多机器学习的，看的风险在于你很容易只是看而不会去实践。我建议在看的时候一定要做好笔记，即便之后你很快就会把笔记扔掉。同时建议你不管在学什么，一定要去动手尝试。

坦白来说，我看过的中，没有哪个是特别适合初学者的，我指真正的初学者。他们都是基于读者有最基本的线性代数和概率理论知识的假设。斯坦福大学Andrew Ng 的教程可能是最适合用于入门的了，另外，我推荐了一些一次性。

Stanford Machine Learning（斯坦福机器学习）：通过Coursera可以获取到，Andrew Ng主讲。除了招生，你可以在任何时间看到所有的课程，并且从Stanford CS229 course（斯坦福CS229课程）上到所有的讲义和课堂笔记。课程包括家庭作业，测试。课程集中在线性代数上，使用Octave环境。

Caltech Learning from Data：可以在edX访问到，Yaser Abu-Mostafa主讲。所有的课程和材料在CalTech网站上都可以获取到。和斯坦福课程一样，你可以按你自己的节奏来完成家庭作业和任务。它覆盖了和斯坦福类似的课程，然后在细节上有一些深入，并且用了更多的数学方面的知识。家庭作业对初学者来说可能太难了。

Machine Learning Category on VideoLectures.Net（VideoLectures.Net上的机器学习分类）：初学者很容易沉溺于海量的内容中。你可以找寻一些看起来比较有趣的，然后尝试看看。如果不是你现阶段能看懂的，就先放放。如果你看着合适，就记笔记。我发现我自己总是不断的找寻自己感兴趣的标签，然后最终选择了完全不同的标签。当然，看看该领域专家真正是什么样的也挺好的。

“Getting In Shape For The Sport Of Data Science” – Talk by Jeremy Howard：和一个本土R用户团队关于机器学习实践应用的对话，这个团队在机器学习竞赛中获取了很好的成绩。这个很有用，因为很少有人去讲将机器学习应用到一个项目中真正是什么样的，及怎么去做这个项目。我幻想着能创建一个网络真人TV秀，这样可以能直接看到选手机器学习竞赛中的表现。我是多么的向往啊。

论文概述

如果你不习惯读研究性论文，你将会发现他们的语言非常枯燥。论文像是教科书的片段，但是论文描述了实验，或者是该领域其他前沿研究。不过，如果你正要开始学习机器学，这里有一些论文可能会引起你的兴趣。

The Discipline of Machine Learning（机器学习的原则）：机器学习原则定义的白皮书，作者Tom Mitchell. 当时有一场辩论，Mitchell最终说服CMU主席成立单独的机器学习机构，以保证机器学习将在今后的100年里作为一个学科存在。（也可参考短片Tom Mitchell访谈）。

A Few Useful Things to Know about Machine Learning（一些你必须知道的关于机器学习的事）：这是一篇好论文，因为它不拘泥于特定的算法，而是偏向于比如特征选取概述和模型简化这些重要的问题上。走对方向并且从一开始就想清楚，都是很好的事情。

上面我只罗列了两篇重要的论文，因为读论文会真的让你陷入困境。

机器学习初学者书籍

市面上有很多机器学习的书，但很少有针对初学者编写的。什么才是真正的初学者？可能是从其他领域转入机器学习的，也可能是从计算机科学，编程或者统计学转入的。即使这样，大部分的书籍都会认为你至少已经有了线性代数和概率论的知识背景。

然而，这里还是有一些书鼓励有兴趣的程序员从一个最小的算法开始学习，指定和库，这样编程人员就可以运行程序并得出结果。最著名的有Programming Collective Intelligence（中文版：《集体智慧编程》）、Machine Learning for Hackers（中文版《机器学习：实用案例解析》）和Data Mining: Practical Machine Learning Tools and Techniques（中文版《数据挖掘:实用机器学习技术》），以上三本分别基于Python，R和Java三种语言。如果有不懂的地方，可以参见这三本书。

[![Books for Machine Learning Beginners](http://machinelearningmastery.com/wp- content/uploads/2013/11/photo-300x225.jpg)](http://machinelearningmastery.com /wp-content/uploads/2013/11/photo.jpg)

Programming Collective Intelligence（中文版：《集体智慧编程》）：创建精巧的web 2.0应用：这本书是专门为编程人员写的，轻理论，重实战，有大量的代码示例，实际上遇到的web问题及对应的解决方案。买这本书的读者，建议边读边做练习！

Machine Learning for Hackers（中文版：《机器学习：使用案例解析》）：我建议在读完Programming Collective Intelligence以后再来读这本书。该书同样提供了大量的实用性很强的案例。但是它有更多数据分析的东西并且使用R语言。我真心喜欢这本书。

Machine Learning: An Algorithmic Perspective：这本书像是Programming Collective Intelligence的升级版。这两本书的目标相同（帮助程序员入门），但是这本书包含了数学和参考文献，同时也有用Python写的示例和代码片段。我建议读者先看Programming Collective Intelligence，如果看完以后还有兴趣，再来看这本书。

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition（中文版：《数据挖掘：实用机器学习技术》）：实际上我是从这本书开始学起的，2000年的第一版。当时我还是个java程序员，由于WEKA库提供了很好的开发环境，我利用这本书结合WEKA库进行尝试，用自己的算法做了插件并作了大量的机器学习应用，同时延伸到数据挖掘部分。因此我强力推荐这本书和这种学习方法。