在智能资讯的时代背景下,物品数据挖掘成为了研究者关注的焦点。北京作为这两大顶会CIKM 2019和ICDM 2019的召开地,是数据挖掘领域研究者的聚集地。这两个会议虽然同为CCF B类,但由不同的组织举办,分别是ACM和IEEE;CIKM涵盖了数据库、信息检索和数据挖掘三个领域,而ICDM则更加专注于数据挖掘。
在这些会议上,韩家炜教授作为一位数据挖掘领域的巨擘,将就其研究做主题报告。他在CIKM 2019上的报告是《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》,而在ICDM 2019上的报告是《Embedding-Based Text Mining: A Frontier in Data Mining》。
现实世界中的大数据以自然语言文本形式出现,这些非结构化的、互联且动态的大量文本转换为有用的知识是一条必走之路。目前大家普遍采用劳动密集型方法对数据进行打标签提取知识,但这种方法无法进行扩展,特别是在企业级文本数据高度动态且领域相关的情况下。
韩家炜教授认为,大量文本隐含着大量隐模式、结构和知识,我们可以借助domain-independent 和 domain-dependent 的知识库来探索将无结构化的大量数据转化为有用的结构化知识。他的团队已经在异质网络(Heterogeneous Network)与文本立方体(Multi-dimensional Text Cube)的构建中取得了一定的成果,并且正在不断前进。
要想将无结构的大数据变成有用知识,首先要将其结构化,他提出异质网络(Heterogeneous Network)与文本立方体(Multi-dimensional Text Cube)的两种方式。但是如何从原始无结构的数据到达这样的网络或立方体是一个非常困难的问题,这也是他团队长期研究的一个重点问题。
韩家炜教授并非追随热点,而是在十年如一日地去打通从无结构到有用的康庄大道,因此他的脉络极为清晰且连贯性强。在过去的一年里,他团队也一直在不断融入最新技术,比如BERT等,在这条「小路」上不断前行。此外,他们还发表了多部书籍,如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》等,为这一领域提供了更多参考资料。