BaseModelAI/cleora:高效可扩展的实体嵌入学习模型
Cleora 是一款通用的开源模型,专为高效、可扩展地学习稳定且具有归纳性的实体嵌入而设计,适用于异构关系数据。
该模型具有多项显著优势。在性能方面,它比 DeepWalk 快超过 197 倍,比 PyTorch-BigGraph 快约 4 - 8 倍(取决于具体使用情况)。它支持星型扩展、团扩展以及超图的无扩展,在结果质量上表现出色,可与 PyTorch-BigGraph、GOSH、DeepWalk、LINE 等其他嵌入框架相媲美,并且能够在单台机器上嵌入极其大型的图和超图。
Cleora 的设计原则使其适用于多种不同的数据类型和格式。它可以处理代表有类型且无向的异构超图的关系表,并进行星型分解、创建成对图形以及嵌入每个图形等操作。
Cleora 产生的嵌入具有多种关键特性,使其与 Node2vec、Word2vec、DeepWalk 等系统产生的嵌入有所不同。它具有高效性,比 Node2Vec 或 DeepWalk 快两个数量级;具有归纳性,实体的嵌入仅由与其他实体的交互定义,新实体的向量可以即时计算;具有可更新性,刷新实体的嵌入是非常快速的操作,允许实时更新而无需重新训练;具有稳定性,所有实体的起始向量都是确定性的,这意味着在相似数据集上的 Cleora 嵌入最终会相似;具有跨数据集组合性,由于 Cleora 嵌入的稳定性,同一实体在多个数据集上的嵌入可以通过平均来组合,产生有意义的向量;具有维度独立性,这一特性允许使用 Conv1d 层进行高效且低参数的多视图嵌入组合。
从最终用户的角度来看,Cleora 的这些技术特性意味着它具有良好的生产就绪性。异构关系表可以无需任何人工数据预处理进行嵌入,混合交互和文本数据集可以轻松嵌入,新实体的冷启动问题不存在,嵌入的实时更新不需要任何单独的解决方案,多视图嵌入可以直接使用,时间和增量嵌入是稳定的,无需重新对齐、旋转或其他方法,并且可以在几秒或几分钟内支持和嵌入极其大型的数据集。
总的来说,BaseModelAI/cleora 是一款强大的 AI 模型,为处理异构关系数据的实体嵌入提供了高效且可靠的解决方案。