记录每天的碎片化产出,文章持续更新。
记录每天的碎片化产出,文章持续更新。
在机器学习领域中,朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器, 朴素贝叶斯在处理文本数据时可以得到较好的分类结果,被广泛应用于文本分类/垃圾邮件过滤/自然语言处理等场景。
Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
最近邻居法(KNN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法
1.线性回归与逻辑回归
2.多元梯度下降
3.梯度上升
4.正规方程
在做文本分类等问题时,需要从大量语料中提取特征,词袋和TF-IDF模型是很好的选择
Python中很好用的中文分词组件
正向最大匹配法(Maximum Match Method,MM 法)是指从左向右按最大原则与词典里面的词进行匹配。假设词典中最长词是 m个字,那么从待切分文本的最左边取 m个字符与词典进行匹配,如果匹配成功,则分词, 如果匹配不成功,那么取 m−1 个字符与词典匹配,直到成功匹配为止。
1 / 2