目的地搜索
新闻动态
当前位置: 首页 >> 正文
大数据科学研究院岑咏华教授受邀参加第四届“数据分析与知识发现”学术研讨会
2023-12-27 10:40  

第四届“数据分析与知识发现”学术研讨会于2023年12月5-6日在厦门召开。本次会议由中国科学院文献情报中心主办,厦门大学信息学院和《数据分析与知识发现》编辑部联合承办。来自112家高校、科研机构和企业,跨情报科学、管理科学、计算机科学等交叉领域的265名专家和代表参加了本次会议。

大数据科学研究院岑咏华教授受邀参加研讨会,并作《基于LDA-WFR-WME的文本嵌入表示方法研究》专题报告。


  


文本表示是文本处理和分析的基础工作,在情感分析、文本分类等任务中发挥着关键作用,文本表示质量直接影响下游任务的准确性。针对传统词袋模型、以潜在迪利克雷分配(LDA)模型为代表的主题模型和以Doc2vec为代表的分布式文本嵌入模型可能存在的语义精度不足、上下文窗口受限等局限性,基于词移距离(Word Mover's Distance)和词移嵌入(Word Mover's Embedding)的文本表示模型近年来受到特别关注。

岑教授的研究提出一种基于LDA初始化和WFR文本距离的词移嵌入表示方法LDA-WFR-WME。该方法通过LDA建模初始化随机文档的主题空间,克服一般词移嵌入模型的主题空间均匀分布假设导致的语义偏差;引入WFR文本距离(Wasserstein-Fisher-Rao Text Distance),改善文档间语义细节差异过大引起的距离失真问题。研究以多组短文本情感分析、长文本分类以及文本聚类任务为例,以Doc2vec、Attention-BiLSTM、BERT等为竞争模型,进行实验对比分析。研究结果表明,LDA-WFR-WME方法在句子、段落和篇章的嵌入式表示方面体现出更优的性能。 

 

 

关闭窗口

版权归天津师范大学大数据科学研究院所有 | 地址:天津市西青区宾水西道393号 | 邮政编码:300387 | 电话:022-23766324