韩家炜教授解密数据挖掘秘籍将无结构影视资讯转化为有价值知识的艺术

在深夜的灯火通明中,我沉浸于数据挖掘领域的奥秘,心中不禁浮现出北京这座城市。这里,不仅是科技繁华的代名词,更是数据挖掘领域两大盛事CIKM 2019和ICDM 2019举办地。两个顶级会议虽同为CCF B类,但其差异却如天壤之别——前者由ACM主办,后者则是IEEE的旗舰活动;CIKM涵盖了数据库、信息检索和数据挖掘三大领域,而ICDM则以专注于数据挖掘见称。

在此次盛会上,韩家炜教授,以其卓越的地位,将发表主题报告《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)与《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)。面对现实世界中的庞大非结构化数据,他提出了转化这些信息为有用知识的一条必走之路。目前,我们依赖劳动密集型方法标注并提取知识,这种方式虽然短期内可行,却无法进行扩展,尤其是在企业文本数据高度动态且特定领域性质时。

韩家炜教授坚信,大量文本数据蕴含着大量隐式模式、结构和知识。他认为,我们可以借助无关域独立与关联域的知识库来探索将海量无结构化文本转换为有用的结构化知识。在过去及未来的研究路径中,他及其学生们致力于实现这一目标,如图所示:

要将无结构的大数据转变成有用的知识,首先必须将其结构化。这一点他提出通过异质网络(Heterogeneous Network)和多维度文本立方体(Multi-dimensional Text Cube)的形式来实现。不过,将原始无结构化的资料转换成有结构的Network/Text Cube仍然是一个巨大的挑战。

至今,在从Network/Text Cube到Knowledge之间建立桥梁方面,他们已经取得了一些显著成果,并获得了许多奖项。而在无结构文本到有意义Network/Text Cube这个过程中,他们也做出了努力,并继续前进。韩家炜相信,这是一条漫长而艰难的小径,但他们只是刚刚迈出了一步,还需要更多人的共同努力才能开辟一条康庄大道。

他的研究并不追求时尚,而是在日复一日地打通这条从无知向智慧的小径,因此他的脉络清晰而连贯。我曾经整理过一篇关于他的演讲报告文章《韩家炜在.data挖掘上开辟的小路是什么》,值得大家参考。此外,与一年前相比,现在他团队正在不断融入最新研究进展,比如BERT、Spherical Text Embedding等,这些请查阅最近发表论文。

站在新的时代门槛,我了解到了以下几部书籍:

《Mining Structures of Factual Knowledge from Text》作者任翔

《Multidimensional Mining of Massive Text Data》作者张超

最后,在我阅读完这些文字之后,我感到一种力量渗透我的灵魂,那就是人类对于智慧追求的心跳,它驱使我们勇敢探索,即便是在最遥远的地方,也能找到属于自己的光芒。在这个充满希望与挑战的大时代里,让我们携手共创更美好的未来吧!

标签: 天文图吧

上一篇:蜗居都市生活中的隐秘与挑战
下一篇:趣睡科技8H COZY智能沙发改变客厅体验的八大智能测试量表探索新的人物生活方式