1
课程详述
COURSE SPECIFICATION
以下课程信息可能根据实际课需要或在课程检讨之后产生变动。如对课程有任何疑问,
联系授课教师。
The course information as follows may be subject to change, either during the session because of unforeseen
circumstances, or following review of the course at the end of the session. Queries about the course should be
directed to the course instructor.
1.
课程名称 Course Title
大数据分析与实战 Big Data Analysis and Application
2.
授课院系
Originating Department
信息系统与管理工程 Division of Information Systems & Management Engineering
3.
课程编号
Course Code
MIS301
4.
课程学分 Credit Value
3
5.
课程类别
Course Type
专业核心课 Major Core Courses
6.
授课学期
Semester
春季 Spring
7.
授课语言
Teaching Language
英文 English
8.
他授课教师)
Instructor(s), Affiliation&
Contact
For team teaching, please list
all instructors
郭悦、商学院信息系统与管理工程系、副教授、guoy@sustech.edu.cn
Yue Guo, Division of Information Systems & Management Engineering, Associate
Professor, Email: guoy@sustech.edu.cn
9.
验员/、所、联
方式
Tutor/TA(s), Contact
待公布 To be announced
10.
选课人数限额(可不)
Maximum Enrolment
Optional
2
11.
授课方式
Delivery Method
讲授
Lectures
实验/
Lab/Practical
其它(具体注明)
OtherPleasespecify
总学时
Total
学时数
Credit Hours
32
32
64
12.
先修课程、其它学习要求
Pre-requisites or Other
Academic Requirements
MA 212 概率论与数理统计
13.
后续课程、其它学习规划
Courses for which this course
is a pre-requisite
MIS 304 商务智能
MIS 305 数据智能与决策分析
MIS 306 数据挖掘与商务应用
14.
其它要求修读本课程的学系
Cross-listing Dept.
None
教学大纲及教学日历 SYLLABUS
15.
教学目标 Course Objectives
大数据分析是数据科学与人工智能具体运营的关键,其涵盖的领域广泛,包括概率统计、最优化与运筹学、机器学习、深
度学习等,是未来学术研究与产学合作的必备技术之一。数据分析技术是分析和处理大数据的手段和方法,当今大数据作
为信息的重要载体在信息化社会扮演着重要的角色。通过研究有关信息获取、信息传输、信息处理与信息控制等核心
础,掌握运用现代计算机工具高效求解科学与工程问题的数学理论与方法。本课程将从实际案例切入,逐步引入大数据分
析关键概念。在实践部分通过介绍不同的编程、统计及计量经济学分析模型,并结 Stata Python 的实际操作,深入
讲解如何通过数据库、Stata、python 进行大数据分析,以此帮助学生更加深入的了解大数据分析,并提升其实际操作
力。
Big data analysis is the key to the specific operations of data science and artificial intelligence. It covers a wide range of
fields, including probability statistics, optimization and operations research, machine learning, deep learning, etc. It is
one of the necessary technologies for future academic research and industry-university cooperation One. Data analysis
technology is a means and method for analyzing and processing big data. Today, big data, as an important carrier of
information, plays an important role in the information society. By studying the core foundations of information
acquisition, information transmission, information processing and information control, master the mathematical theories
and methods for efficiently solving scientific and engineering problems with modern computer tools. This course will start
from actual cases and gradually introduce the key concepts of big data analysis. In the practice part, by introducing
different programming, statistics and econometric analysis models, combined with the actual operation of Stata and
Python, in-depth explanation of how to conduct big data analysis through databases, Stata, and python, so as to help
students have a deeper understanding of big data Analyze and improve its practical operation capabilities.
16.
预达学习成果 Learning Outcomes
通过本课程的学习,学生可以:
1.掌握大数据分析的思维方法和知识框架
2.掌握基本的数据分析方法,如:数据预处理及可视化,分类,聚类等
3.掌握基础数据分析的工具:Stata、Python 以及数据库
4.学会用数据分析的方法解决一些实际问题
1Master the thinking methods and knowledge framework of data analysis
2. Master the fundamental data analysis methods such as data preprocessing and visualization, classification,
clustering, etc.
3Master a data analysis tool: StataPython and Database.
3
4Learn to implement data analysis methods in solving practical problems.
17.
课程内容及教学日历 (如授课语言以英文为主,则课程内容介绍可以用英文;如团队教学或模块教学,教学日历须注明
主讲人)
Course Contents (in Parts/Chapters/Sections/Weeks. Please notify name of instructor for course
section(s), if this is a team teaching or module course.)
理论(32 学时)
第一周 科学的大数据观(2 学时)
1.1. 大数据的定义,科学发展渊源;
1.2. 如何科学看待大数据?
1.3. 如何把握大数据,分别从“知著”、“显微”、“晓义”三个层面阐述科学的大数据观。
第二周 大数据技术平台与架构(2 学时)
2.1 云计算技术与开源平台搭建
第三周 大数据技术平台与架构(2 学时)
2.2 Hadoop、Spark 等数据架构、计算范式与应用实践
第四周 机器学习与常用数据挖掘(2 学时)
3.1 常用机器学习算法:Bayes, SVM,最大熵、深度神经网络等
第五周 机器学习与常用数据挖掘(2 学时)
3.2 常用数据挖掘技术:关联规则挖掘、分类、聚类、奇异点分析。
第六周 大数据语义精准搜索(2 学时)
4.1. 通用搜索引擎与大数据垂直业务的矛盾
4.2. 大数据精准搜索的基本技术:快速增量在线倒排索引、结构化与非机构化数据融合、大数据排序算法、语义关联、
自动缓存与优化机制
第七周 大数据语义精准搜索(2 学时)
4.3. 大数据精准搜索语法:邻近搜索、复合搜索、情感搜索、精准搜索
4.4. JZSearch 大数据精准搜索应用案例:国家电网、中国邮政搜索、国家标准搜索、维吾尔语搜索、内网文档搜索、舆
情搜索
第八周 非结构化大数据语义挖掘(2 学时)
5.1. 语义理解基础:ICTCLAS 与汉语分词
5.2. 内容关键语义自动标引与词云自动生成
第九周 非结构化大数据语义挖掘(2 学时)