1
课程详述
COURSE SPECIFICATION
以下课程信息可能根据实际课需要或在课程检讨之后产生变动。如对课程有任何疑问,
联系授课教师。
The course information as follows may be subject to change, either during the session because of unforeseen
circumstances, or following review of the course at the end of the session. Queries about the course should be
directed to the course instructor.
1.
课程名称 Course Title
大数据分析与实战 Big Data Analysis and Application
2.
授课院系
Originating Department
信息系统与管理工程 Division of Information Systems & Management Engineering
3.
课程编号
Course Code
MIS301
4.
课程学分 Credit Value
3
5.
课程类别
Course Type
专业核心课 Major Core Courses
6.
授课学期
Semester
春季 Spring
7.
授课语言
Teaching Language
英文 English
8.
他授课教师)
Instructor(s), Affiliation&
Contact
For team teaching, please list
all instructors
郭悦、商学院信息系统与管理工程系、副教授、guoy@sustech.edu.cn
Yue Guo, Division of Information Systems & Management Engineering, Associate
Professor, Email: guoy@sustech.edu.cn
9.
验员/、所、联
方式
Tutor/TA(s), Contact
待公布 To be announced
10.
选课人数限额(可不)
Maximum Enrolment
Optional
2
11.
授课方式
Delivery Method
讲授
Lectures
实验/
Lab/Practical
其它(具体注明)
OtherPleasespecify
总学时
Total
学时数
Credit Hours
32
32
64
12.
先修课程、其它学习要求
Pre-requisites or Other
Academic Requirements
MA 212 概率论与数理统计
13.
后续课程、其它学习规划
Courses for which this course
is a pre-requisite
MIS 304 商务智能
MIS 305 数据智能与决策分析
MIS 306 数据挖掘与商务应用
14.
其它要求修读本课程的学系
Cross-listing Dept.
None
教学大纲及教学日历 SYLLABUS
15.
教学目标 Course Objectives
大数据分析是数据科学与人工智能具体运营的关键,其涵盖的领域广泛,包括概率统计、最优化与运筹学、机器学习、深
度学习等,是未来学术研究与产学合作的必备技术之一。数据分析技术是分析和处理大数据的手段和方法,当今大数据作
为信息的重要载体在信息化社会扮演着重要的角色。通过研究有关信息获取、信息传输、信息处理与信息控制等核心
础,掌握运用现代计算机工具高效求解科学与工程问题的数学理论与方法。本课程将从实际案例切入,逐步引入大数据分
析关键概念。在实践部分通过介绍不同的编程、统计及计量经济学分析模型,并结 Stata Python 的实际操作,深入
讲解如何通过数据库、Stata、python 进行大数据分析,以此帮助学生更加深入的了解大数据分析,并提升其实际操作
力。
Big data analysis is the key to the specific operations of data science and artificial intelligence. It covers a wide range of
fields, including probability statistics, optimization and operations research, machine learning, deep learning, etc. It is
one of the necessary technologies for future academic research and industry-university cooperation One. Data analysis
technology is a means and method for analyzing and processing big data. Today, big data, as an important carrier of
information, plays an important role in the information society. By studying the core foundations of information
acquisition, information transmission, information processing and information control, master the mathematical theories
and methods for efficiently solving scientific and engineering problems with modern computer tools. This course will start
from actual cases and gradually introduce the key concepts of big data analysis. In the practice part, by introducing
different programming, statistics and econometric analysis models, combined with the actual operation of Stata and
Python, in-depth explanation of how to conduct big data analysis through databases, Stata, and python, so as to help
students have a deeper understanding of big data Analyze and improve its practical operation capabilities.
16.
预达学习成果 Learning Outcomes
通过本课程的学习,学生可以:
1.掌握大数据分析的思维方法和知识框架
2.掌握基本的数据分析方法,如:数据预处理及可视化,分类,聚类等
3.掌握基础数据分析的工具:Stata、Python 以及数据库
4.学会用数据分析的方法解决一些实际问题
1Master the thinking methods and knowledge framework of data analysis
2. Master the fundamental data analysis methods such as data preprocessing and visualization, classification,
clustering, etc.
3Master a data analysis tool: StataPython and Database.
3
4Learn to implement data analysis methods in solving practical problems.
17.
课程内容及教学日历 (如授课语言以英文为主,则课程内容介绍可以用英文;如团队教学或模块教学,教学日历须注明
主讲人)
Course Contents (in Parts/Chapters/Sections/Weeks. Please notify name of instructor for course
section(s), if this is a team teaching or module course.)
理论(32 学时)
第一周 科学的大数据观(2 学时)
1.1. 大数据的定义,科学发展渊源;
1.2. 如何科学看待大数据?
1.3. 如何把握大数据,分别从“知著”、“显微”、“晓义”三个层面阐述科学的大数据观。
第二周 大数据技术平台与架构(2 学时)
2.1 云计算技术与开源平台搭建
第三周 大数据技术平台与架构(2 学时)
2.2 Hadoop、Spark 等数据架构、计算范式与应用实践
第四周 机器学习与常用数据挖掘(2 学时)
3.1 常用机器学习算法:Bayes, SVM,最大熵、深度神经网络等
第五周 机器学习与常用数据挖掘(2 学时)
3.2 常用数据挖掘技术:关联规则挖掘、分类、聚类、奇异点分析。
第六周 大数据语义精准搜索(2 学时)
4.1. 通用搜索引擎与大数据垂直业务的矛盾
4.2. 大数据精准搜索的基本技术:快速增量在线倒排索引、结构化与非机构化数据融合、大数据排序算法、语义关联、
自动缓存与优化机制
第七周 大数据语义精准搜索(2 学时)
4.3. 大数据精准搜索语法:邻近搜索、复合搜索、情感搜索、精准搜索
4.4. JZSearch 大数据精准搜索应用案例:国家电网、中国邮政搜索、国家标准搜索、维吾尔语搜索、内网文档搜索、舆
情搜索
第八周 非结构化大数据语义挖掘(2 学时)
5.1. 语义理解基础:ICTCLAS 与汉语分词
5.2. 内容关键语义自动标引与词云自动生成
第九周 非结构化大数据语义挖掘(2 学时)
4
5.3. 大数据聚类
第十周 非结构化大数据语义挖掘(2 学时)
5.4. 大数据分类与信息过滤
第十一周 非结构化大数据语义挖掘(2 学时)
5.5. 大数据去重、自动摘要
第十二周 非结构化大数据语义挖掘(2 学时)
5.6. 情感分析与情绪计算
第十三周 知识图谱的大数据自动构建与应用(2 学时)
6.1. 知识图谱概念
6.2. 知识点的自动发现
第十四周 知识图谱的大数据自动构建与应用(2 学时)
6.3. 基于 bootstrapping 的知识大数据生成
第十五周 大数据应用案例剖析与综述答辩(2 学时)
7.1. 信用体系建设大数据应用案例
第十六周 大数据应用案例剖析与综述答辩(2 学时)
7.2. 数据驱动的智慧城市应用案例
实践(32 学时)
第一周 描述分析(2 学时)
1.1 描述统计
本部分主要是辅导学生使用 Excel 中的“数据分析”功能对数据进行描述统计。
第二周 描述分析(2 学时)
1.2 数据透视表
本部分主要是辅导学生使用 Excel 中的“数据透视表”功能对数据进行可视化分析。
第三周 Python 初始:本章主要讲解 Python 的安装以及 Python 的基础语法(2 学时)
2.1 Python 的安装
2.2 Python 的基础语法
第四周 网络爬虫(2 学时)
3.1 Requests
本部分主要介绍 HTML 标签,以及 Python Requests 库的使用
第五周 网络爬虫(2 学时)
3.2 BeautifulSoup 库——图片抓取
本部分主要介绍 Python BeautifulSoup 库,并使用其来抓取网络上的图片。
第六周 网络爬虫(2 学时)
3.3 BeautifulSoup 库——文本抓取
本部分主要是辅导学生编写爬虫程序从网络上抓取文本信息保存到本地。
5
第七周 自然语言处理(2 学时)
4.1 原理
本部分主要讲解自言语言处理的原理。
第八周 自然语言处理(2 学时)
4.2 算法
本部分主要讲解利用 python 对自然语言处理的基本算法。
第九周 数据库管理(2 学时)
5.1 select 查询语句和聚合函数
第十周 数据库管理(2 学时)
本部分主要讲解 SQL 语句中的 select 查询语句以及聚合函数的使用。
5.2 数据库、基本表的操作
本部分主要讲解在 SQL Server 中使用 SQL 语句创建数据库、表以及对表中数据进行插入、修改和删除等
第十一周--第十二周 大数据分析——Stata(4 学时)
6.1 Stata 的基本使用
本部分主要讲解 Stata 的使用,以及相关计量经济学知识,让学生对 Stata 有初步的认识。
第十三周--第十五周(6 学时)
6.2 不同类型数据处理
本部分重点介绍计量经济学中不同模型在 Stata 的使用,通过本部分的学习,学生会使用 Stata 对不同类型数据选择合适
的经济学模型通过 Stata 进行处理与结果分析。
第十六周 Final Project(2 学时)
本部分主要是学生利用 SQL Server Python、Stata 完成大数据分析项目。
18.
教材及其它参考资料 Textbook and Supplementary Readings
Textbook
Provost F, Fawcett T. Data Science for Business: What you need to know about data mining and data-analytic
thinking[M]. " O'Reilly Media, Inc.", 2013.
参考资料:
乔舒亚·安格里斯特, 约恩-斯特芬·皮施克. 基本无害的计量经济学[M]. 格致出版社, 2012.
余本国. 基于 Python 的大数据分析基础及实战[M]. 中国水利水电出版社.2018
课程评 ASSESSMENT
19.
评估形式
Type of
Assessment
评估时间
Time
占考试总成绩百分比
% of final
score
违纪处罚
Penalty
备注
Notes
出勤 Attendance
10
课堂表现
Class
Performance
根据学生的课堂表现
以及小组活动表现进行
评比。
There will be
opportunities to earn
extra credit during the
course through in-
class assignments
and group activities.
These opportunities
will be unannounced.
10
6
小测验
Quiz
课程项目 Projects
10
平时作业
Assignments
10
期中考试
Mid-Term Test
30
期末考试
Final Exam
期末报告
Final
Presentation
30
其它(可根据需要
改写以上评估方
式)
Others (The
above may be
modified as
necessary)
20.
记分方 GRADING SYSTEM
A. 十三级等级制 Letter Grading
B. 二级记分制(通过/不通过) Pass/Fail Grading
课程审 REVIEW AND APPROVAL
21.
本课程设置已经过以下责任人/委员会审议通过
This Course has been approved by the following person or committee of authority