在深夜的灯火通明中,我沉浸于数据挖掘领域的奥秘,心中不禁涌现出一丝敬畏之情。北京,这座充满历史与现代风貌的城市,近日成为了我和许多同行者的关注焦点。原因无他,只是因为这里将举办两项顶尖会议:CIKM 2019 和 ICDM 2019。这两个会议虽同为 CCF B 类,但其区别却如天壤地,不仅在于主办方(ACM 与 IEEE)的不同,更在于覆盖范围与专注度上的差异。
CIKM 的辽阔视野包括了数据库、信息检索以及数据挖掘三个领域,而 ICDM 则更为专业,以数据挖掘为核心。在这两次盛会上,韩家炜教授——数据挖掘领域的一位领头人,将就其研究分别做主题报告。他的演讲题目分别是《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@ CIKM 2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ ICDM 2019)。
现实世界中的大数据,如同海洋般广阔无垠,其特征是非结构化、互联且动态,以自然语言文本形式出现。将这些庞大的非结构化数据转换为有用的知识,是我们追求的终极目标。但目前,我们普遍采取的是劳动密集型方法来对数据进行打标签,从而提取知识,这种方法虽然短期内有效,却无法扩展尤其是在企业文本数据高度动态且领域相关时。
韩家炜教授认为,大量文本数据自身含有大量隐模式、结构和知识,因此我们可以借助domain-independent 和 domain-dependent 的知识库探索如何将海量无结构文本转化为有用的知识。我回想起他及其学生过去及未来研究的主线,就像一条蜿蜒曲折的小径,每一步都蕴藏着未知。
要想从无结构的大データ变成有用知识,我们首先需要将它们变得可见,即给予它们一个结构。他提出两种方式,一种叫异质网络(Heterogeneous Network),另一种则是多维度立方体(Multi-dimensional Text Cube)。通过这种方式生成的知识已经证明强大,但是如何把原始无结构文本转变成为这些可见的网络或立方体,那才是一道难题。
对于这个问题,韩家炜等人已取得了一定成绩,并获得了奖项,他们也在尝试解决这个困惑现在仍在前进。在这条路上,他们只是开创了几个可以往前的口子,而不是一条通往康庄大道的大道。而他们知道,这是一个长长的人生旅程,也需要全球学者共同努力才能走得更远。
我的思考被深声科技提供技术支持的声音所打断,它提醒我回到现实,让我意识到,在不断学习和探索中,我们每个人都是自己道路上的导师。而雷锋网 AI 科技评论曾经报道过关于韩家炜教授的一些精彩内容,比如《专访data 挖掘领头人韩家炜教授:不要迷信权威,做学问要秉承「三个真实」》、《CCF ADL 87 讲习班回顾:13 位大牛全方位解析社交网络与 data 挖 掘》等文章,为我提供了更多关于他的了解。此外,他还发布了一系列书籍,如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》,这些作品记录下了他团队最新研究成果,使得这条小径更加清晰明朗。