《白话大数据与机器学习》章节试读

出版日期:2016-6
ISBN:9787111538471
作者:高扬,卫峥,尹会生

《白话大数据与机器学习》的笔记-第14章文本挖掘 - 第14章文本挖掘

文本挖掘主要应用于满屏的新闻，铺天盖地的新闻，以及新闻检索的分类。
文本挖掘的主要领域：IR搜索和信息检索，文本聚类，文本分类，Web挖掘，信息抽取，自然语言处理，概念提取。。。。。。这些大致分类主要是用于区分不同领域对于文本挖掘的应用。

文本分类介绍了几个步骤：1、分词，推荐了中科院的汉语词法分析系统NLPIR汉语分词系统，庖丁解牛分词器开源的。2、文本表示，主要模型为1969年提出的向量空间模型VSM，模型没有详细介绍，简单介绍了权重为分量的向量模型，以及词频TF，用于词语的分类。3、分类标记，分词+分词权重，产生个映射关系，映射关系通过算法实现，列举了一堆高大上的算法

重点阐述了几个算法：Rocchio算法、朴素贝叶斯算法、K-近邻算法、支持向量机的SVM算法。。。。

表示算法并没有看懂，虽然哥哥也说把算法弄懂就很厉害了。想要变成厉害的人，得看算法啊。。。真是，有天晚上一觉醒来，脑子里忽然蹦出一句话：计算机是数学的儿子，不把他爹搞明白，瞎折腾人家儿子作甚。。。真是。。。
算法好好看吧。。。。

《白话大数据与机器学习》的笔记-第九章聚类 - 第九章聚类

说起聚类，数学建模老二总是很喜欢用当年只是用来数学建模的，模型不是我建，我不是很清楚，面试的时候被院长问到，real尴尬“你认为什么是聚类？”
用自己的观点胡诌了几句，院长不太满意，“不对”。。居然能让我过关，也是仁慈。
现在再回过头继续咀嚼下。。
聚类Clustering指的是一种学习方式，把物理或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。（真的？我理解就是把相同类似的属性归类而已）
K-means算法步骤
（1）从n个向量对象任意选择k个向量作为初始聚类中心、
（2）计算每个对象与k个向量（中心对象向量）各自的距离
（3）把每个对象与k向量的距离，和最近中心向量对象归类在一个簇中
（4）重新计算每个类族的中心对象向量位置
（5）重复（3）（4）
有趣模式？？？好神经的
孤立点——排除
层次聚类

白话大数据与机器学习下载

《白话大数据与机器学习》章节试读

类似图书

相关图书推荐