鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

聚类

场景介绍

聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。例如,当K-means等算法对样本中的两个向量做距离度量时,过高的维度将导致参与计算的数据量过于庞大,从而引发计算资源消耗严重的问题。基于鲲鹏架构的硬件优势,在访存时延优化方面,鲲鹏BoostKit充分利用鲲鹏Cache(高速缓存)块特点,通过保持访存和计算的连续性,有效提升Cache命中率,降低时延。LDA、K-means、KNN等机器学习算法的性能提升超过50%以上。

算法原理

  • LDA算法

    LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)算法是一种文档主题生成模型,也被称为三层贝叶斯概率模型,包含文档、主题和词三层。LDA是一种非监督机器学习技术,通过分布式计算来处理大数据场景下的训练和推理。

  • K-means算法

    K-means(K-means Clustering,K-平均算法)源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。