在深夜的灯火通明中,我沉浸于数据挖掘领域的奥秘,心中不禁浮现出北京这座城市。这里,不仅是科技繁华的代名词,更是数据挖掘领域两大盛事CIKM 2019和ICDM 2019举办地。两个顶级会议虽同为CCF B类,但其差异却如天壤之别:前者由ACM主办,覆盖数据库、信息检索与数据挖掘三大领域;后者则由IEEE主办,专注于数据挖掘。
在这些会议上,我有幸聆听到韩家炜教授——一位在这个领域颇具影响力的学者,他将分享自己最新研究成果。在CIKM 2019上,他以《从无结构文本到TextCube:自动构建与多维探索》为题进行报告,而在ICDM 2019上,则以《基于嵌入的文本矿工:数据挖掘边缘》作为主题。
当今世界,大量的大数据主要呈现为非结构化、互联且动态,以自然语言文本形式出现。将此类庞大的非结构化数据转换为有用的知识,是我们必须走过的一条道路。目前,我们通常采用人力密集型方法对这些文本进行打标签,从而提取知识,这种方法虽然短期内可行,但无法扩展特别是在企业不断变化且专业性强的文本环境下。
韩家炜教授认为,这些大量未经整理的大量文字自身蕴含着丰富模式、结构以及知识。他提出利用domain-independent 和 domain-dependent 的知识库来探讨如何将海量无结构化的数据转变成为有用的知识。
以下图示展示了他过去及未来研究工作所遵循的心路历程:
要想将当前无组织的大量数字转变成为有用知識,首先要做的是使其变得更加组织起来。他建议采取两种形式之一,即异质网络(Heterogeneous Network)或多维度立方体(Multi-dimensional Text Cube)。通过这种方式生成信息已经被证明极具力量,但是如何把原始没有任何逻辑安排的问题性的数码变成具有逻辑排序问题性的数码(Network 或 Text Cube),则是一个非常复杂的问题。
对于从Network/Text Cube 到 Knowledge 的问题,以及No-structure 文字资料到 有 structure Network/Text Cube 路线上的挑战,韩家炜等人一直致力于解决,并获得了许多奖项,他们还正在继续努力克服这一难题。这是一条漫长而艰辛的旅程,他们只是刚刚开启了一小段小径,要把它变成一条通往康庄大道的话,还需要全世界学者的共同努力和支持。
我的文章并不是追随时尚潮流,而是在每一次日落都坚持不懈地朝着那条从未曾组织过的大量数字直至产生宝贵智慧之路前进,因此我相信我的故事会给大家带来深刻印象,并且很可能激发他们去探寻更多关于这个话题的事情。我希望能继续跟踪他的研究进展,并学习他的新书,如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》,以及其他相关作品,以便更好地理解这项工作。
最后,让我感谢雷锋网 AI 科技评论提供了给我一个机会,让我能够向所有读者分享这个故事,同时也让我认识到了学习和交流之间不可分割的情感纽带。
相关文章:
专访: 数据挖掘领头人韩家炜教授: 不要迷信权威, 做学问要秉承“三个真实”
开辟“小路”中的科学探究
CCF ADL 讲习班回顾: 韩家炜等13位大牛全面解析社交网络和数据挖掘