在深夜的研究室里,我的屏幕上闪烁着数据挖掘领域的热点——北京。这里,是两大顶会CIKM 2019和ICDM 2019的举办地,这两个会议是CCF B类,区别仅在于ACM和IEEE的主办方,以及它们覆盖范围的广度。CIKM更为全面,包括数据库、信息检索和数据挖掘,而ICDM则专注于数据挖掘。
我想到了韩家炜教授,他将在这两个会议上分别做主题报告。在《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)中,他探讨了如何将无结构文本转化为有用的知识;而在《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)中,他讲述了基于嵌入向量的文本矿藏技术。
现实世界中的大数据以自然语言文本形式出现,这些非结构化的大数据转换为有用知识是一条必由之路。我一直采用劳动密集型方法对这些文本进行打标签,以提取知识,但这种方法无法扩展,尤其是在企业内部高动态且领域相关的文本数据面前。
韩家炜教授认为,我们可以借助domain-independent 和 domain-dependent 的知识库,将海量非结构化数据转化为结构化知识。他提出异质网络(Heterogeneous Network)和文本立方体(Multi-dimensional Text Cube),并且他认为要将原始无结构的大数据变成有结构的网络或立方体是非常困难的问题。
我们已经获得了很多奖项,并取得了一些成果,但这只是开始。韩家炜教授认为这是一个长远目标,他们现在只是开启了一条小路,要让它成为一条康庄大道需要国际学者共同努力。
随着时间推移,我发现自己的研究工作并非跟随热点,而是在十年如一日地去打通这一条从无结构到有用的道路。我希望能够与大家一起努力,让这一天早日到来。