Cleora AI: 효율적이고 확장 가능한 엔티티 임베딩 학습 도구
Cleora AI는 이질적인 관계형 데이터에 대한 안정적이고 유도적인 엔티티 임베딩을 효율적, 확장 가능하게 학습하는 일반용 모델입니다.
주요 특징
성능 최적화
- 임베딩 시간이 약 10배 빨라졌으며, 메모리 사용량도 크게 줄어들었습니다.
- 최신 연구 결과로 임베딩 품질도 향상되었습니다.
새로운 기능
- Python 이터레이터와 tsv 파일로부터 그래프를 생성할 수 있습니다.
- NumPy와의 원활한 통합이 가능합니다.
- 사용자 정의 임베딩 초기화를 통해 아이템 속성 지원이 가능합니다.
- 각 전파 단계 후에 벡터 투영/정규화를 조정할 수 있습니다.
사용 사례
데이터 예시
- 고객과 제품 데이터를 생성하여 DataFrame을 만들고, 이를 Cleora 입력 형식으로 변환할 수 있습니다.
- 예를 들어,
customers
와products
리스트를 생성하고, 이를 랜덤하게 선택하여data
딕셔너리를 만들어 DataFrame을 생성합니다.
임베딩 과정
- Markov 전환 행렬을 생성하고, 외부에서 임베딩 벡터를 초기화하거나 내장된 랜덤 초기화를 사용할 수 있습니다.
- Markov 랜덤 워크를 수행하고, 임베딩 벡터를 정규화할 수 있습니다.
가격
Cleora AI의 가격 정보는 공개되어 있지 않습니다. 자세한 내용은 공식 웹사이트를 방문하거나 해당 팀에 문의하시기 바랍니다.
비교
다른 임베딩 프레임워크와 비교
- DeepWalk보다 197배 이상 빠르며, PyTorch-BigGraph보다도 4~8배 빠릅니다.
- 하이퍼그래프에 대한 별 모양 확장, 클리크 확장, 무확장 지원 등의 기능을 가지고 있습니다.
- 결과의 품질은 PyTorch-BigGraph, GOSH, DeepWalk, LINE 등 다른 임베딩 프레임워크와 경쟁할 수 있습니다.
다른 AI 모델과 비교
- Cleora AI는 다양한 데이터 유형과 형식에 적합한 다목적 "그냥 임베딩 하기" 도구입니다.
- Node2vec, Word2vec, DeepWalk 등과 비교하여 효율성, 유도성, 갱신 가능성, 안정성 등 다양한 측면에서 차별화된 특징을 가지고 있습니다.
고급 팁
임베딩 차원 선택
- 일반적으로 1024부터 4096 사이의 임베딩 차원을 사용하는 것이 좋습니다. 메모리는 저렴하고 기계는 강력하기 때문에 임베딩 크기를 아끼지 마세요.
Markov 전파 반복 횟수
- 낮은 반복 횟수(3)는 동시 발생 행렬을 근사하며, 높은 반복 횟수(7+)는 문맥적 유사성을 제공합니다.
외부 정보 통합
- VIT, sentence-transformers, 또는 숫자 특징의 랜덤 투영에서 나온 벡터로 임베딩 행렬을 초기화하여 외부 정보를 통합할 수 있습니다.
Cleora AI는 그 효율성과 다양한 기능으로 이질적인 관계형 데이터에 대한 엔티티 임베딩 학습에 매우 유용한 도구입니다.