在深夜的灯火通明中,我沉浸于数据挖掘领域的奥秘,心中不禁涌起对北京这座城市的敬畏之情。因为,在这里,两大顶会CIKM 2019和ICDM 2019相继举办,吸引了无数研究者如潮水般涌来。这两个会议虽然同为CCF B类,但它们各有千秋:CIKM覆盖范围广泛,包括数据库、信息检索和数据挖掘三个领域;而ICDM则更专注于数据挖掘。
在这些会议上,我见证了数据挖掘领域巨擘韩家炜教授的报告。他分别以《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》和《Embedding-Based Text Mining: A Frontier in Data Mining》为题,为我们揭示了如何将现实世界中的非结构化大数据转化为有用的知识。这种庞大的非结构化文本数据,如今已成为企业获取竞争优势的关键所在。
然而,将此类动态且高度相关性强的文本数据进行有效提取并非易事。韩家炜教授认为,我们可以借助domain-independent 和 domain-dependent 的知识库,探索将海量无结构文本转化为结构化知识的大门。在过去,他及其学生们已经踏上了这条道路,并取得了一系列成果。
为了实现这一目标,他们首先需要将无结构的大数据变成有用知识。我看到他们提出了异质网络(Heterogeneous Network)和文本立方体(Multi-dimensional Text Cube)等两种形式来组织这些结构化数据。但是,这些试图从无到有的过程仍然充满挑战,对于网络或立方体到知识之间的桥梁建设,是一个艰难而漫长的人类智慧之旅。
尽管如此,韩家炜教授坚持不懈地探索着这一问题,并不断推出新的技术,比如BERT、Spherical Text Embedding等。我意识到,这是一条被他十年如一日打通的小路,而不是跟随热点变化,而是在静谧与思考中不断前行,从而创造出清晰且连贯的一片天地。
回顾去年初我曾撰写过关于他的演讲报告文章——《韩家炜在数据挖掘上开辟的「小路」是什么》,以及近期发表论文,我感到更加确定:他的团队正在不断融入最新研究进展,让这条小路更加光明磊落。此外,他还出版了几本新书,如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》等,其中包含了他对这个话题深刻洞察和丰富经验。
站在今天末年的角度,我看到了韩家炜教授团队持续前行,无论是通过理论创新还是实践应用,他们都在努力让人类能够更好地理解世界,更高效地解决复杂问题。而对于我来说,只能继续学习、思考,以便有一天能够加入到这样的伟大工作中去,为这个世界带来更多价值。