在深夜的灯火通明中,我沉浸于数据挖掘领域的最新资讯,心中充满了对未知知识探索的渴望。北京,这座充满智慧与创新气息的城市,成为了我关注焦点。在这里,不仅有着无数研究者的脚步,更有着两大顶会——CIKM 2019和ICDM 2019相继召开,它们如同两个巨大的星辰,吸引着无数科技爱好者前来观摩。
这两个会议虽然都属于CCF B类,但却各具特色。CIKM覆盖范围更广,包括了数据库、信息检索和数据挖掘三个领域,而ICDM则更为专注于数据挖掘。这次会议上,我有幸见证了一位名叫韩家炜教授的科学巨擘,他将就其研究分别做主题为《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)的报告。
现实世界中的大数据之所以难以处理,是因为它们通常是非结构化、互联且动态出现,以自然语言文本形式存在。将这些庞大的非结构化数据转换为有用的知识,是我们追求的一条必由之路。不过,由于目前普遍采用的是劳动密集型方法进行打标签提取知识,这种方法虽然短期可行,却无法扩展,而且对于高度动态且领域相关的企业文本数据尤其不便。
韩家炜教授认为,大量文本数据内含大量隐模式、结构和知识,我们可以借助domain-independent 和 domain-dependent 的知识库,将海量无结构化数据转化为结构化知识。他提出两种结构化形式,一种是异质网络(Heterogeneous Network),另一种是文本立方体(Multi-dimensional Text Cube)。通过这种方式生成知识已经证明强大,但如何将原始无结构化到具有这些特性的Network 或 Text Cube,则是一个极其困难的问题。
在这个问题上,韩家炜等人已取得许多成果,并获得多个奖项,他们也在尝试从无结构文本到Text Cube或Network 的路径上取得进展。这是一条漫长而艰难的道路,但他们坚持不懈,每一步都朝着目的地迈进。我相信,只要大家携手合作,就能使这条小路变成一条康庄大道,为人类带来更多宝贵财富。