语,如 Smith 音译为“史密斯”。通过这一操作理解:为什么要构建语料库?何为匹配?
第二次课:(4 课时)
第三讲 英语人名译名(二)(2 课时)
接续上一讲任务。理解:何为穷举?何为规则?两者的优劣?应该构建什么样的语料库?
第四讲 汉字繁简转换(一)(2 课时)
中文信息处理的基本原理。用 Excel 构建一个语料库,通过 Matlab 编程将简体文章转成繁体文章。如:
“明月几时有,把酒问青天”转成“明月幾時有,把酒問青天”。通过这一操作理解:单纯匹配的局限。
第三次课:(4 课时)
第五讲 汉字繁简转换(二)(2 课时)
用 Excel 构建一个语料库,通过 Matlab 编程将简体文章转成繁体文章。通过这一操作理解:为什么要多
个语料库衔接?何为算法?
第六讲 语料获取与分析:NLTK 工具包(一)(2 课时)
nltk 工具包安装、nltk.book 语料导入、词汇匹配。
第四次课:(4 课时)
第七讲 语料获取与分析:NLTK 工具包(二)(2 课时)
利用 nltk 工具包计算词频。
第八讲 网页语料获取与分析(一)(2 课时)
利用 urllib 工具包获取网页信息,中文信息的转码。
第五次课:(4 课时)
第九讲 网页语料获取与分析(二)(2 课时)
HTML 网页无效信息的过滤及相关中文信息分析技巧。
第十讲 中文语料自动分词(一)(2 课时)
jieba 工具包、匹配分词、匹配分词的局限。
第六次课:(4 课时)
第十一讲 中文语料自动分词(二)(2 课时)
其他的分词策略。
第十二讲 中文语料自动分词(三)(2 课时)
分词策略的算法实现。
第七次课:(4 课时)
第十三讲 语料库标注(2 课时)
语料库标注的作用、方式,以及标注过的语料库的运用。
第十四讲 中文信息处理语料库介绍(一)(2 课时)
国家语委现代汉语语料库、古代汉语语料库等。
第八次课:(4 课时)
第十五讲 中文信息处理语料库介绍(二)(2 课时)
接续上一讲任务,介绍一些常见的中文数据库以及它们的基本功能。结合一些研究论文,展示研究者如何
利用这些中文数据库。
第十六讲 中文信息处理技术进阶管窥(2 课时)
数据挖掘的基本知识、常用的聚类算法,信息处理效果展示。舆情分析、用户画像、机器翻译、语音识别
与言语合成等。