互联网资讯

当前位置:游戏娱乐 > 互联网资讯 > 用机器学习如何分辨不可描述的网址

用机器学习如何分辨不可描述的网址

来源:http://www.friedwires.com 作者:游戏娱乐 时间:2019-11-04 11:38

原标题:用机器学习怎样鉴别不可描述的网站

本章知识点:中文分词,向量空间模型,TF-IDF方法,文本分类算法和评价指标
使用的算法:朴素的贝叶斯算法,KNN最近邻算法
python库:jieba分词,Scikit-Learning
本章目标:实现小型的文本分类系统
本章主要讲解文本分类的整体流程和相关算法

 转自:

全文大约3500字。读完可能需要下面这首歌的时间


首先什么是中文分词stop word?

前两天教师节,人工智能头条的某个精神股东粉群里,大家纷纷向当年为我们启蒙、给我们带来快乐的老师们表达感激之情。

2.1 文本挖掘和文本分类的概念

1,文本挖掘:指从大量的文本数据中抽取事先未知的,可理解的,最终可使用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。
简言之,就是从非结构化的文本中寻找知识的过程
2,文本挖掘的细分领域:搜索和信息检索(IR),文本聚类,文本分类,Web挖掘,信息抽取(IE),自然语言处理(NLP),概念提取。
3,文本分类:为用户给出的每个文档找到所属的正确类别
4,文本分类的应用:文本检索,垃圾邮件过滤,网页分层目录自动生成元数据,题材检测
5,文本分类的方法:一是基于模式系统,二是分类模型


英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

很多人表示,他们的硬盘里,至今还保留着当时她们上课时候的视频。有一些现在网站上已经很难找到了,于是大家又纷纷开始互相交流跟随这些老师学习实践的心得体会。

2.2 文本分类项目

其次中文分词和搜索引擎关系与影响!

图片 1

中文语言的文本分类技术和流程:

1)预处理:去除文本的噪声信息:HTML标签,文本格式转换
2)中文分词:使用中文分词器为文本分词,并去除停用词
3)构建词向量空间:统计文本词频,生成文本的词向量空间
4 ) 权重策略--TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征
5)分类器:使用算法训练分类器
6)评价分类结果:分类器的测试结果分析

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。

本文由游戏娱乐发布于互联网资讯,转载请注明出处:用机器学习如何分辨不可描述的网址

关键词: