韩家炜教授解密数据挖掘如何将无结构化妆品资讯转化为有价值的知识

本站原创 2025-01-08 学术报告 0

在深夜的灯火通明中，我沉浸于数据挖掘领域的两大盛会——CIKM 2019和ICDM 2019，这两个会议如同星辰大海，吸引了无数研究者的目光。它们不仅因为地点相同（国家会议中心）而显得格外特别，更因为它们是CCF B类会议，对我来说，它们代表着知识的宝藏。

CIKM与ICDM虽同为CCF B类，但却各有千秋。前者由ACM主办，覆盖范围广泛，包括数据库、信息检索和数据挖掘三个领域；而后者则是IEEE举办，更专注于数据挖掘。在这两个盛会上，我有幸聆听到韩家炜教授，即数据挖掘领头人，他将其研究成果分别以《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》（@CIKM2019）和《Embedding-Based Text Mining: A Frontier in Data Mining》（@ICDM2019）的报告形式呈现。

面对现实世界中的庞大非结构化数据，我们迫切需要一种方法，将这些文本转化为可用的知识。目前，我们通常依赖劳动密集型方法进行打标签，但这种方法虽然短期内有效，却无法长久扩展，尤其是在企业级高动态且领域相关的文本数据面前。

韩家炜教授认为，无需惊慌，因为大量文本自身蕴含着丰富隐模式、结构和知识。他提议借助domain-independent 和 domain-dependent 的知识库探索如何将无结构化的大量文本转换为结构化的知识。这条路线，如图所示，是他过去以及未来研究的主线：

要将现有的无结构大数据变成有用的知识，首先要做的是将其结构化。这就是他的两种方式：异质网络（Heterogeneous Network）和文本立方体（Multi-dimensional Text Cube）。通过这种结构化生成的知识已经证明强大，但如何从原始无结构转变为有结构，则是挑战之处。

在Network/Text Cube 到 Knowledge 的问题上，他已取得许多成果，并获得了奖项。在无结构文本到有构建 Network/Text Cube 的道路上，他们也付出了努力并取得了一些进展，现在仍在继续探索。韩家炜认为这是一个漫长过程，他们只是刚刚开启一扇门，还远未走完这条康庄大道，而这一切都需要国际学者共同努力才能实现。

不同于追求热点，韩家炜教授致力于十年如一日地去打通从无到有的那条康庄大道，因此他的脉络清晰连贯。我曾整理过他的一篇演讲文章《韩家炜在数据挖掘上开辟的「小路」是什么》，值得参考。而随着时间推移，他团队不断融入最新研究进展，比如BERT、Spherical Text Embedding等，这些请查阅他近期发表论文。此外，在2018年初，他提到的书籍已经出版，如今站在2019年的末尾，他又发布了新书，如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》等。