互联网最新资讯韩家炜教授解密无结构文本转有用知识的秘诀

在深夜的灯火通明中,我沉浸于数据挖掘领域的两大盛会——CIKM 2019和ICDM 2019,这两个会议如同星辰般吸引着众多研究者的目光,它们不仅聚焦于北京这座城市,更是数据挖掘领域巨擘韩家炜教授的舞台。他的报告,如同一道光芒,照亮了无数探索从无结构文本到有用知识的道路。

现实世界中的大数据,就像是一片未知的大海,充满了非结构化、互联且动态的自然语言文本。将这些庞大的非结构化数据转换为有用的知识,是我们必须克服的一条必经之路。过去,我们通常采用劳动密集型方法,对数据进行打标签,从而提取知识。但这种方法虽然短期内可行,却无法扩展,尤其是在企业级文本数据高度动态且领域相关时更是如此。

韩家炜教授认为,大量文本数据蕴含着大量隐模式、结构和知识。他提出,我们可以借助domain-independent 和 domain-dependent 的知识库,将海量无结构化数据转化为结构化知识。这条路径,如下图所示,是他及其学生过去以及未来研究的主线:

要想将现有的无结构的大数据变成有用的知识,首先要做的是将其结构化。韩家炜教授提出两种形式:异质网络(Heterogeneous Network)和文本立方体(Multi-dimensional Text Cube)。由这种结构化生成的知识已经证明强大,但如何将原始无结构转变为有构造则是个挑战。

在Network/Text Cube 到 Knowledge 的问题上,韩家炜等人取得了许多成果,他们也获得了奖项。在这个过程中,他们尝试并推进了一些新技术,如BERT、Spherical Text Embedding等,这些都是近期发表论文中的最新进展。

站在今天,我看到了一个清晰脉络,一条由十年如一日坚持开辟的小路,而这一路正在不断拓宽。我相信,只要大家携手合作,这条康庄大道终将实现。此外,他团队最近还发布了一些新书,如《Mining Structures of Factual Knowledge from Text》、《Multidimensional Mining of Massive Text Data》等,为探索者提供了新的视角和工具。

作为一个追求真理的人,我深信,在这场追求从无到有的旅程中,每一步都值得我们去思考,每一次探索都可能带来突破性的发现。而我,也愿意成为这场旅程的一部分,无论前方是什么样的风景,只要有一颗渴望学习的心,就足以让我们继续前行。

上一篇:陈建文在电子科技大学的工作报告结尾金句社会中的数据实际上都是小数据没有完美的大数据
下一篇:华为运动健康手表app下载OPPO Watch系列新品强势发布智能穿戴革命