在深夜的灯火通明中,我沉浸于数据挖掘领域的奥秘,心中不禁浮现出北京这座城市。这里,不仅是科技繁华的代名词,更是数据挖掘领域两大盛事CIKM 2019和ICDM 2019举办地。两个顶级会议虽同为CCF B类,但其差异却如天壤之别——前者由ACM主办,后者则是IEEE的旗舰活动;CIKM涵盖了数据库、信息检索和数据挖掘三大领域,而ICDM则以专注于数据挖掘见称。
在此次盛会上,韩家炜教授,以其卓越的地位,将发表主题报告《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)与《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)。面对现实世界中的庞大非结构化数据,他提出了转化为有用知识的一条必经之路。这不再是一项单调乏味的任务,而是一个充满挑战与机遇的大门。
众所周知,大量文本数据蕴含着丰富隐含模式、结构以及知识。在这个时代,我们可以借助domain-independent 和 domain-dependent 的知识库来探索如何将这些无结构化的大海变成宝藏。图示如下,是韩家炜及其学生过去及未来的研究轨迹:
要将无用的文本转变为有用的知识,首先要做的是给予它结构。他提出了异质网络(Heterogeneous Network)和文本立方体(Multi-dimensional Text Cube)的概念,这些结构化后的数据生成知识已经证明了其强大的力量。但问题来了,即使我们拥有这些工具,要把原始无结构化的数据转换成具有意义的Network 或 Text Cube,却显得异常艰难。
在这一过程中,韩家炜等人取得了一系列突破性成果,并因此获得了多项奖项,他们也在不断尝试将无结构文本转换为有价值网络或立方体,现在他们仍然正在这条道路上前行。尽管他认为这是一个漫长而曲折的小径,但他们已迈出了一步之后,还需要更多努力才能走向康庄大道。
他的研究并不是追随时尚潮流,而是在十年如一日地开辟从无到有的路径,因此他的研究线索清晰且连贯可寻。我曾读过他在一年前的演讲报告文章《韩家炜在data 挖掘上开辟的小路是什么》,那篇文章值得一读。此外,他团队近期发表的一些论文,如BERT、Spherical Text Embedding等,也是我想要探讨的话题。而且,在去年的初春,他出版了一些书籍,如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》等,此外还有一批新书即将面世,让我期待它们带来的新思维。
最后,我想提醒大家,无论是作为学者还是企业管理者,都应该关注这种从无到有的旅程,因为这正是未来科学进步的一个关键部分。