在深夜的灯火通明中,我沉浸于数据挖掘领域的奥秘,心中不禁浮现出北京这座城市。这里,不仅是科技繁华的代名词,更是数据挖掘领域两大盛事CIKM 2019和ICDM 2019举办地。两个顶级会议虽同为CCF B类,但ACM主办的CIKM涵盖数据库、信息检索和数据挖掘三大领域,而IEEE主办的ICDM则更专注于数据挖掘。
此时,此刻,韩家炜教授站在光芒四射的大舞台上,他将以《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》与众人分享其研究成果。在另一个场合,即ICDM 2019,他又以《Embedding-Based Text Mining: A Frontier in Data Mining》作为主题报告。
面对如海般无结构化的大数据,我们渴望将其转化为有用的知识。这一过程通常依赖于劳动密集型方法进行标签打印,以提取知识。不过,这种方式显然不可持续,尤其是在企业文本数据高度动态且专业性强的情况下。
韩家炜教授坚信,大量文本内含着大量隐性的模式、结构和知识。他提出借助域无关及域相关知识库来探索如何从无结构化到有用知识。图示了他及其学生过去及未来研究的主要线路:
要实现这一目标,我们首先需将原始无结构化的大数据变为结构化形式。他倡导两种结构:异质网络(Heterogeneous Network)与文本立方体(Multi-dimensional Text Cube)。这种结构化后的知识已经证明极具价值;然而,将原始无组织资料转换成这些有组织格式则是一个挑战巨大的问题。
在Network/Text Cube 到 Knowledge 的途径上,他们取得了显著成就,并获得了丰厚奖励。而对于把无组织文本转变成为有组织 Network/Text Cube 的道路,他们也做出了努力并取得了一些进展,并继续前行。韩家炜认为这是漫长的一条旅程,他们目前只是刚刚开启这条小径,还远未达到康庄大道状态,需要全球学者共同努力才能实现这一目标。
他的工作并不追随潮流,而是日复一日地致力于打开从非结构性资料到有用知識的一条康庄之路,因此脉络清晰而连贯。
AI 科技评论曾经报道过一次关于韩家炜教授演讲报告文章——《韩家炜在数据挖掘上的「小路」是什么》,值得我们回顾。此外,由於一年以来时间推移,韓氏團隊已經將他們最新研究進展融入這條「小路」,例如BERT等,這些請查閱韓氏團隊近期發表論文:
在十八年初,他提到的以下幾篇學術論文已經發表:
站在十九年末,他們又出版了幾篇新書:
任翔出版了《Mining Structures of Factual Knowledge from Text》,張超則出版了《Multidimensional Mining of Massive Text Data》。
AI 科技评论报道。
相关文章:
专访數據挖掘領頭人韓佳偉教授:不要迷信權威,做學問要秉持「三個真實」
韓佳偉在數據挖掘上的開辟的小道
CCF ADL 87講習班回顧:韓佳偉等十三位巨擘全方位解析社交網絡與數據挖掘