第三章 网络爬虫(6 学时)
8.1 Requests 库(2 学时)
本部分主要介绍 HTML 标签,以及 Python 中 Requests 库的使用
8.2 BeautifulSoup 库——图片抓取(2 学时)
本部分主要介绍 Python 中 BeautifulSoup 库,并使用其来抓取网络上的图片。
8.3 BeautifulSoup 库——文本抓取(2 学时)
本部分主要是辅导学生编写爬虫程序从网络上抓取文本信息保存到本地。
第四章 文本挖掘(4 学时)
4.1 jieba 分词库(2 学时)
本部分主要讲解 Python 中 jieba 分词库对文本进行处理和关键词的提取。
4.2 TF-IDF 算法(2 学时)
本部分主要讲解 TF-IDF 算法原理,以及利用 TF-IDF 算法提取文本关键词,求文本相似度。
第五章 Weka 初始(2 学时)
本章主要讲解 weka 软件中的数据格式以及它的基本功能。
第六章 分类(4 学时)
6.1 Weka+分类(2 学时)
本部分主要讲解运用 weka 软件中的分类算法对数据集进行分析,应用不同的分类算法,绘制多条 ROC 曲线,
比较他们之间的不同
6.2 Weka API—J48 分类(2 学时)
本部分主要讲解如何使用 JAVA 调用 weka 包实现 J48 分类算法。
第七章 关联规则(2 学时)
本章主要讲解运用 Weka 软件中的关联规则对数据集进行分析。
第八章 聚类(4 学时)
8.1 Weka+聚类(2 学时)
本章主要讲解运用 Weka 软件中不同的聚类算法对数据集进行分析,比较他们之间的不同。
8.2 Weka API—EM 聚类(2 学时)
本部分主要讲解如何使用 JAVA 调用 weka 包实现 EM 聚类算法。
第九章 PageRank(2 学时)
本章主要介绍 PageRank 算法的来源和原理,以及算法的实现。
第十章 Final Project(2 学时)
本章主要是辅导学生完成最终项目报告。
Lecture (32 hours)
Chapter 1 : Data (4 hours)
1.1 Data type, data quality, data preprocessing (2 hours)
This section explains how to describe data objects from attributes and metrics, explains the detection and
correction of data quality problems, and the ideas and methods for preprocessing data.
1.2 Similarity and dissimilarity (2 hours)
This section mainly explains the similarity and dissimilarity between simple attributes, the similarity and
dissimilarity between data objects, and the problem of proximity calculation.
Chapter 2 :Descriptive Analysis (2 hours)
This chapter mainly introduces the methods of summarizing data. One is to describe the basic distribution of
statistics and the other is to convert the data into a visual form in the form of graphs or tables.
2.1 Descriptive Statistics
2.2 Charts
Chapter 3 :Regression and Decision (4 hours)