数据挖掘

data
mining是一个很宽泛的概念。字面的意思是从成吨的数据里面挖掘有用的信息。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。利用Excel分析数据,发现了一些有用的信息,然后通过这些信息指导你的Business的过程也是数据挖掘的过程。数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度学习是机器学习一类比较火的算法,本质上还是原来的神经网络。

机器学习

machine
learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。

深度学习

deep
learning,机器学习里面现在比较火的一个topic(大坑),本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。

推荐算法


recommend system,机器学习是方法,人工智能/数据挖掘是应用,可以使用机器学习,也可以使用别的方法。数据挖掘有很多应用场景,推荐系统是其中一个业务目的明确的,
有一定历史的,成体系的,已经形成较为完善的经验积累的应用场景。数据挖掘中还有很多应用场景有待开发,连是否能挖出有价值的模式都不知道。像推荐系统,计算机视觉,nlp这些价值已知的场景,明显是要幸运一些。写书的当然什么都要写写啦,难道机器学习里有的东西,推荐系统的书就不能写了?再说这些书侧重点不同,推荐系统里讲的机器学习算法更贴近推荐业务,侧重于算法应用,应用效果,对具体业务指标的影响,给整个系统带来的局限或提升等等。肯定不会像统计学习基础那样给你讲一堆推倒过程,讲统计特性,更不会像统计学习理论那样再给你来几下证明。这些书都有说机器学习,但是角度不同。如果讲机器学习算法的书和讲推荐系统的书在讲机器学习算法时基本差不多,那么那本讲机器学习的书也基本可以扔掉了。

自然语言处理


NLP,严格来讲,自然语言处理是数据挖掘的一个具体应用领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。