正在阅读:关于机器学习 这些最熟悉的陌生词你都懂吗?关于机器学习 这些最熟悉的陌生词你都懂吗?

2016-08-09 00:15 出处:PConline原创 作者:卡夫卡 责任编辑:sunziyi
1机器学习与聚集回顶部

  【PConline 杂谈】众所周知,机器学习是人工智能的核心,其应用遍及人工智能各个领域。而对于那些我们经常听到的“机器学习”,“深度学习”,“增强学习”,“神经网络”等热门词汇,它们看起来既相近又相异,要如何分辨?想要透彻的了解人工智能技术,恐怕你需要先了解这些最熟悉的陌生词。


关于机器学习 这些最熟悉的陌生词你都懂吗?

  既然问题因机器学习而起,我们不妨就以它做开始。任职于卡内基梅陇大学计算机学院机器学习系的汤姆·米歇尔教授,在其《机器学习》一书中是这样的定义的:机器学习是‘研究如何打造可以根据经验自动改善的计算机程序’,其本质上是跨多学科的,涉及计算机科学、统计学、人工智能,以及其他学科知识。

  因此,机器学习研究的主要产物便是算法。机器学习的算法很多,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的,我们会在文章的后半部分为各位讲解。算法可以帮助基于经验的自动改善,可以在各行业进行广泛的应用,其中便包括了计算机视觉、人工智能与数据挖掘。

  再来说说聚集。聚集算法是用来分析不含有预先标记过的类别的数据,甚至连类别特性都没有标记过。数据个体的分组原则大概是这样:最大化组内相似度、最小化组与组之间的相似度,识别非常相似的数据并将其归为一组,未分组的数据之间则并非相似。

  其中,要属K-means聚集最为著名。由于聚集不需要预先将类别进行标记,因此可将其视为“无监督学习”的一种形式,也就是说该算法通过观察进行学习,而不是通过案例进行学习。

2分类与回归与决策树回顶部

  下面要说的是分类与回归,之所以将两者放在一起说,是因为它们之间联系紧密。关于分类的含义,是打造模型,将数据分类进入不同类别。这些模型的打造方式,是输入一个训练数据库,其中有预先标记好的类别供算法进行学习。之后,在模型中输入类别未经标记的数据库,让模型基于它从训练数据库中所学到的知识,预测新数据的类别。

  由于分类算法需要明确的类别标记,因此它算的上是“监督学习”的一种形式。至于回归,其与分类紧密联系在一起。怎么讲?分类是预测离散的类别,而回归则适用于预测“类别”由连续的数字组成的情况下,我们说的线性回归,便是回归技术的一个例子。

  什么是决策树?是一种自上而下,分步解决的递归分类器。通常来说,决策树由两种任务组成,即归纳与修剪。其中,归纳是用一组预先分类的数据作为输入,判断最好用哪些特性来分类,之后再将数据库分类,基于其产生的分类数据库再进行递归,直至所有的训练数据都完成分类。

  打造决策树的目标是找到特性来分类,以创造出最纯粹的子节。如此,要将数据库中所有数据分类,只需最少的分类次数,这种纯度是以信息的概念来衡量。而一个完整的决策树模型可能过于复杂,包含非必要结构,难于解读。因此,还需简化这个环节,将不需要的结构从决策树中剔除,令决策树更高效更简单易读也更加精确。

3关联?神经网络?贝叶斯!回顶部

  对于关联的解释,我们不妨用一个典型例子,即“购物篮分析”加以说明。“购物篮分析”指的是假设一个消费者在购物篮中放入了各式各样的物品,目标是识别各种物品之间的内在关联,以比较分配支持和置信度测量。当中的价值在于,交叉营销和消费者行为分析。

  关联的挖掘过程主要包括两个阶段:一是,从海量原始数据中找出所有的高频项目组;二是,从这些高频项目组产生关联规则。目前,关联挖掘技术已被广泛应用于金融行业企业中,用来预测客户需求。Apriori算法与Eclat算法被认为是最典型的关联算法。如此,关联实际上也属于“无监督学习”当中的一种形式。

  神经网络是以人类大脑为灵感的算法,至于该算法对真实人脑功能的模拟程度有多少,业内仍存在很多争议,因此也就不能够说这些算法已真正模拟了人类大脑。实际上,神经网络由无数个相互连接的概念化人工神经元组成,神经元之间互相传送数据,且存在不同的相关权重,这些权重取决于神经网络以往的“经验”。神经元有激活阈值(临界值),如果各个神经元权重的结合达到阈值,神经元就会被激活,神经元激活的结合实现“学习”。

  初闻贝叶斯的朋友想必是一头雾水。实际上,我们在讨论概率的时候,有两个最为主流的学派,一个是经典学派概率论看重随机事件发生的频率,另一个就是贝叶斯学派。与经典学派相比,贝叶斯学派认为概率的目标是将不确定性进行量化,随着额外数据的出现而更新概率,若这些概率都延伸到真值,就有了不同确定程度的“学习”。

4深度学习、增强学习、K层交叉检验回顶部

  好了 ,终于到了要介绍深度学习这里。或许你已经通过网络搜,对其有了一些了解。深度学习在研究和商业领域都很出名,目前已在多个不同领域获得了巨大成功,是近年来非常火的机器学习领域。其应用深度神经网络技术——具有多个隐藏神经元层的神经网络架构来解决问题。

  深度学习是一个过程,更是一种独特的机器学习算法。我们可将深度学习视为一个现代的人工神经网络方法升级版,利用丰富而又廉价的计算,建立更大和更复杂的神经网络,当中的许多方法都涉及半监督学习。

  说完深度学习,增强学习又为何物?目前,对“增强学习”最好的描述来自剑桥大学教授、微软研究科学家Christopher Bishop,“增强学习是在某一情景中寻找最适合的行为,从而最大化奖励”,简单而精确。常见算法包括Q-Learning以及时间差学习。

  要知道,增强学习中并未给出明确的目标,机器必须通过不断试错的方式进行学习。其经典例子就是马里奥游。机器通过不断试错,增强学习算法可以判断某些行为,即某些游戏按键可以提升玩家的游戏表现,这里,试错的目标是优化游戏表现。强化学习更多的是应用在机器人控制及其他需要进行系统控制的领域。

  再来简单的说下K层交叉检验。实际上,我们用交叉检验来打造模型,通过去除数据库中K层中的一层,训练所有K减1层中的数据,再用剩下的第K层来进行测验。之后,再将这个过程重复K次,每一次使用不同层中的数据测试,将错误结果在一个整合模型中结合和平均起来,其目的在于生成最精确的预测模型。如上图所示,在每一轮使用不同的数据进行测试(蓝色是训练数据,黄色是测试数据),方框下为每一轮的验证精度,最终验证精度是10轮测试的平均数。

  文章的最后,我们来说下什么是支持向量机(SVM)。SVM可分为线性与非线性数据,其原理是将训练数据转化进入更高的维度,再检查这个维度中的最优间隔距离,或不同分类中的边界。SVM中的这些边界被称为“超平面”,通过定位支持向量来划分,或者通过最能够定义类型的个例及其边界,且边界是与超平面平行的线条,定义为超平面及其支持向量之间的最短距离。

  宏观来讲,如果有足够多的维度,SVM就一定能发现将两个类别分开的超平面,从而将数据库成员的类别进行非线性化;当重复足够多的次数后,就可以生成足够多的超平面,在N个空间维度中分离所有的类别。

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多

网络设备论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品