在众多学习中,文章也许不起眼,但是重要的下面我们就来讲解一下!!
K-means Clustering Algorithm 中文名也许叫“K均值聚类算法”,是统计学和数据挖掘领域中常用的一种算法。维基百科上是这样介绍的:k-means clustering is a method of cluster analysis which aims to partition n observations into k clusters in which each observation belongs to the cluster with the nearest mean(将n个观察值分成k个类,使得每一类中的观察值与该类的均值最接近,与其他的类的均值较远)。
先来看一个最简单、最直观的图示。
上图有很多点,现在想将他们分成3个cluster,怎么办? 作为人,一眼就看出来了,但是计算机就没那么容易分类了,我们必须借助一些算法,而k-means就是其中的一种。K-means不仅可以处理二维空间的聚类,还可以扩展到n维向量空间,还可以处理字符、图像、声音等等。
以上图为例,K-means算法的基本步骤如下:
输入:一个要处理的数据集(例如上图的点集),分成cluster的个数(比如3个),一个mean的计算方法(比如两点之间的距离函数,)
Step1. 首先随机的给每个点标上一种颜色,并计算同种颜色点坐标的算术平均值,表示出相 应的均值点。
Step2. 根据目前算出的均值点,将所有的点集分成3类,为每一类中的每个点,标上与离它最近的均值点相同的颜色。怎么分呢?这里要介绍一种“泰森多边形法”,英文名叫“Voronoi diagram”(见文章最后维基百科链接)。于是就有了下面这张图。
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
Step3.重复step2,直到所有点的颜色不再变化为止。
算法结束,输出如下结果。
上面的例子在简单的二维空间里,如果放在三维空间那么mean的计算方法就要修改了。事实上在处理多维空间、字符、图像等问题时,不同的问题有不同的计算公式,这时mean的意思可能就不是“均值”了,也许用“相似度”和“相异度”来衡量个体之间的关系会更好,详见参考文章一。
按照惯例,下面应该贴上我自己写的k-means算法代码了,不过很遗憾的是我现在还在摸索用Python的numpy库和matplotlib库画图的方法,在参考文章二中有一个python语言的代码。
最后要感谢一下数据挖掘老师 Devert Alexandre,因为本文的图片都是从他的slides里截出来的。^_^
参考文章一
参考文章二
更多文章的课程,可到课课家官网查看。我在等你哟!!!