韩家炜教授解密数据挖掘秘籍将平板电脑最新资讯转化为有用的知识

本站原创 2025-01-08 科研动态 0

在深夜的灯火通明中，我沉浸于数据挖掘领域的奥秘，心中不禁浮现出北京这座城市。这里，不仅是科技繁华的代名词，更是数据挖掘领域两大盛事CIKM 2019和ICDM 2019举办地。两个顶级会议虽同为CCF B类，但ACM主办的CIKM涵盖数据库、信息检索和数据挖掘三大领域，而IEEE主办的ICDM则更专注于数据挖掘。

此时，此刻，韩家炜教授站在光芒四射的大舞台上，他将以《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》与众人分享其研究成果。在另一个场合，即ICDM 2019，他又以《Embedding-Based Text Mining: A Frontier in Data Mining》作为主题报告。

面对如海般无结构化的大数据，我们渴望将其转化为有用的知识。这一过程通常依赖于劳动密集型方法进行标签打印，以提取知识。不过，这种方式显然不可持续，尤其是在企业文本数据高度动态且专业性强的情况下。

韩家炜教授坚信，大量文本内含着大量隐性的模式、结构和知识。他提出借助域无关及域相关知识库来探索如何从无结构化到有用知识。图示了他及其学生过去及未来研究的主要线路：

要实现这一目标，我们首先需将原始无结构化的大数据变为结构化形式。他倡导两种结构：异质网络（Heterogeneous Network）与文本立方体（Multi-dimensional Text Cube）。这种结构化后的知识已经证明极具价值；然而，将原始无组织资料转换成这些有组织格式则是一个挑战巨大的问题。

在Network/Text Cube 到 Knowledge 的途径上，他们取得了显著成就，并获得了丰厚奖励。而对于把无组织文本转变成为有组织 Network/Text Cube 的道路，他们也做出了努力并取得了一些进展，并继续前行。韩家炜认为这是漫长的一条旅程，他们目前只是刚刚开启这条小径，还远未达到康庄大道状态，需要全球学者共同努力才能实现这一目标。

他的工作并不追随潮流，而是日复一日地致力于打开从非结构性资料到有用知識的一条康庄之路，因此脉络清晰而连贯。