西安疫情最新资讯数据挖掘领头人韩家炜教授解析从无结构文本到有用知识的方法

本站原创 2025-01-08 学术报告 0

在深夜的研究室里，我的屏幕上闪烁着数据挖掘领域的热点——北京。这里，是两大顶会CIKM 2019和ICDM 2019的举办地，这两个会议是CCF B类，区别仅在于ACM和IEEE的主办方，以及它们覆盖范围的广度。CIKM更为全面，包括数据库、信息检索和数据挖掘，而ICDM则专注于数据挖掘。

我想到了韩家炜教授，他将在这两个会议上分别做主题报告。在《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》（@CIKM2019）中，他探讨了如何将无结构文本转化为有用的知识；而在《Embedding-Based Text Mining: A Frontier in Data Mining》（@ICDM2019）中，他讲述了基于嵌入向量的文本矿藏技术。

现实世界中的大数据以自然语言文本形式出现，这些非结构化的大数据转换为有用知识是一条必由之路。我一直采用劳动密集型方法对这些文本进行打标签，以提取知识，但这种方法无法扩展，尤其是在企业内部高动态且领域相关的文本数据面前。

韩家炜教授认为，我们可以借助domain-independent 和 domain-dependent 的知识库，将海量非结构化数据转化为结构化知识。他提出异质网络（Heterogeneous Network）和文本立方体（Multi-dimensional Text Cube），并且他认为要将原始无结构的大数据变成有结构的网络或立方体是非常困难的问题。

我们已经获得了很多奖项，并取得了一些成果，但这只是开始。韩家炜教授认为这是一个长远目标，他们现在只是开启了一条小路，要让它成为一条康庄大道需要国际学者共同努力。