鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

算法技术介绍

机器学习算法是在数据集中发现自然模式,支撑更好地制定决策和做出预测。

  • 预测类型

    邮箱系统依靠机器学习分类算法,将收到的邮件区分为正常邮件和垃圾邮件,提升用户体验。

  • 预测数值

    气象局使用机器学习回归算法,通过对近期的温度、湿度、风向等数据进行分析,实现气温预测。

  • 规律挖掘

    深入分析客户的购买行为,零售商利用模式挖掘算法,得出结论:部分商品(如牛奶+面包)经常被同时购买。

什么情况下需要使用机器学习技术?

  1. 遇到涉及大数据量或多影响因素的复杂任务或问题。
  2. 没有明确的处理公式、业务规则。

例如利用交易记录中进行欺诈检测,任务模式不断变化、影响因素多,各种case难以用规则周全地覆盖;自动交易、购物趋势预测场景,数据模式不断变化,业务规则易失效,维护工作耗费人力;文本分类和语音识别场景,规则和模式太过复杂,无法用规则描述。以上场景均需要使用机器学习算法技术。

在客户端到端数据分析中,由ISV针对采集的数据进行数据预处理,例如选择数据源,对数据进行标注、结构化,对数据做有效性验证;鲲鹏BoostKit机器学习算法加速库实现算法模型计算,例如在监督学习算法中,先对数据做特征工程,然后基于输入数据做算法的模型训练,输出算法模型供客户或ISV做推理,最终实现结果可视化。

机器学习算法加速库提供以下算法优化,后续版本会持续更新增加算法。
  • 分类回归:SVM
  • 聚类:DBSCAN
  • 特征工程:DTB、Word2Vec