下面关于数据相似性的相关概念说法错误的是()。
下面关于数据相似性的相关概念说法错误的是()。
A、相似性用于度量两个数据对象有多相似,值越大表示数据对象越相似。通常相似性是非负值,在[0,1]之间取值。
B、相异性用于度量两个数据对象的差别程度,值越小表示数据越相似。通常相异性是非负值,最小相异性通常为0。
C、邻近性表示相似或者相异的程度。常见的邻近度有简单匹配系数、相关性、欧几里得距离、Jaccard相似性和余弦相似性等。前两者适用于文本这样的稀疏数据,后两者适用于时间序列这样的稠密数据。
D、一组数据可能拥有多种类型的属性,也就是混合类型属性。遇到这种情况时,一般的处理方法是先根据各属性类别求得所有属性的相异性之后,再对所有相异性求加权平均。
正确答案:邻近性表示相似或者相异的程度。常见的邻近度有简单匹配系数、相关性、欧几里得距离、Jaccard相似性和余弦相似性等。前两者适用于文本这样的稀疏数据,后两者适用于时间序列这样的稠密数据。