在深夜的寂静中,我独自坐在电脑前,耳边回荡着语音播放文章内容的低沉声音。我的浏览器不支持audio元素,但我知道这是一篇关于数据挖掘领域的重要文章。文章讲述了最近几天,对于许多数据挖掘研究者来说,北京成为了关注的焦点。这是因为两个顶尖会议CIKM 2019和ICDM 2019相继在北京召开,地点都是国家会议中心。
这两次会议都属于CCF B类,其区别在于前者由ACM举办,而后者由IEEE举办;CIKM覆盖范围更广,包括数据库、信息检索和数据挖掘三个领域,而ICDM则更专注于数据挖掘。在两次会议中,韩家炜教授将就其研究分别做主题为《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)的报告。
现实世界中的大数据以非结构化、互联且动态的自然语言文本形式出现,将此庞大的非结构化数据转换为有用的知识,是一条必由之路。目前大家普遍采用劳动密集型方法对数据进行打标签,从而提取知识,这种方法虽然短期可行,却无法扩展,尤其是在企业大量动态且领域相关文本数据面前。
韩家炜教授认为,大量文本数据本身隐含了大量隐模式、结构和知识,我们可以借助domain-independent 和 domain-dependent 的知识库来探索如何将海量无结构化文本转化为有用的结构化知识。他提出两种结构化形式,一种是异质网络(Heterogeneous Network),另一种是文本立方体(Multi-dimensional Text Cube)。这种生成的结构化知已经证明强大,但是将原始无结构的文本变成有结构网络或立方体则是个巨大的挑战。
在Network/Text Cube到Knowledge的问题上,韩家炜等人已取得很多成果,并获得了奖项;在无结构文本到有结构Network/Text Cube的问题上,他们也做出了尝试与成果,现在仍然持续进行中。韩家炜认为这是一个漫长旅程,他们现在只是打开了一些门户,还只是一条小路,要变成康庄大道需要全球学者的共同努力。
雷锋网 AI 科技评论曾报道过一篇关于韩家炜演讲报告文章《从无序的大数走向智慧:看似微不足道的小路背后的巨大力量》,值得参考。而随着时间推移,韩家炜教授团队不断融入最新研究进展,如BERT、Spherical Text Embedding等,这些请查阅他们近期发表论文。此外,他提到的书籍如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》等,也被他团队发布出来,为我们提供了更多了解这一领域工作方式的手段。在这样的背景下,我更加坚信,在这个数字时代,无论是作为个体还是作为社会,我们都应该积极学习并应用这些先进技术,以便更好地理解并利用我们的环境,以及促进人类社会向前发展。