科创俱乐部第十六讲新技能解锁jieba
年6月10日,经济与管理学部经管书院学生科创办公室科研创新中心于晚六时在闵行校区三教成功举办科创俱乐部第十六讲:“新技能解锁——jiebaR包”。
科创俱乐部系列讲座专为有意向参与科创项目的同学开设,旨在通过提供技能培训和经验传授的方式提升同学们在各类科创活动中的参与度和竞争力。
本次讲座有幸邀请到曾获年美国大学生数学建模竞赛二等奖、年高教杯全国大学生数学建模竞赛上海赛区二等奖的15级统计学系方雨婷同学为同学们介绍jiebaR包及其函数语法,进而演示jiebaR包对星球大战三部曲的应用。
(方雨婷同学介绍jiebaR包及其函数语法)
首先,在讲座的开始,方雨婷同学简要地介绍了jiebaR包的语言概念。jiebaR包是一款高效的R语言中文分词包——jieba本身是一个C++库,而jiebaR则是把这个C++库用R封装。她首先通过算法实例生动地解释了worker()和segment()语法,引入jiebaR包的分词引擎概念,并通过掷骰子的例子以及大量图示形象地解释了隐马尔可夫模型(HMM)。
其次,为使切分出的词更为智能,方雨婷同学介绍了两种方法来自定义词库:其一是使用new_user_word函数,其二是借用搜狗细胞词库,她提醒同学们注意搜狗细胞词库转化包cidian需获得开发者工具Rtools,运用install_github()函数才可进行安装。为使讲解更为直观,方同学演示了下载、查看以及替换词库的过程。此外,她还通过比较原来词库的分词和搜狗细胞词库的分词的结果,展示了自定义词库的强大功能。
(方雨婷同学讲解数据清洗)
简单介绍了jiebaR包的算法语言后,方雨婷同学针对如何进行数据清洗、过滤无需作为结果的词提出了两种方法:一是配置stop_word文件,她建议同学们通过下载常用stop_words的txt文件来更加高效地完成stop_words的配置;二是使用filter_segment()函数。她强调,做好分词核心的就是提取关键词,即使用经典算法TF-IDF算法。该算法通过计算TF(词频)*IDF(逆文档频率)得到的排列最前面的几个词,即获得文本的关键词。
同时,为对先前实例中出现频率较高的关键词予以可视化的展现,方雨婷同学介绍了词云,并建议选择黑白分明的图片作为自定义图片从而得到更好的视觉效果。
讲座的最后,方雨婷同学以星球大战三部曲为例进行词云分析,用关键词提取展示了角色名称出现的次数,通过数据分析出每个角色的重要性。此外,她向同学们介绍了必应论坛的二分类情感分析,并借此方法统计出星战中各个人物的不同情感出现频率,得到简单数据分析的人物性格。
(同学使用电脑操作jiebaR包)
方雨婷同学的讲解不仅专业性强,而且生动有趣、通俗易懂,同学们纷纷专注地根据方雨婷同学的讲解内容在电脑上进行同步操作。
至此,科创俱乐部第十六讲圆满结束。衷心感谢方雨婷同学的悉心准备和精彩分享,也感谢同学们的积极参与,希望大家都能在学习jiebaR包的路上越走越好。
想了解更多科创相关内容,
请
转载请注明:http://www.iogko.com/wadzz/7705.html