Similarity Forum
General Category => Bugs => Topic started by: AVS on June 21, 2009, 14:33:04
-
v0.9 (b310)
Наблюдаю следующее:
Есть 6-минутная музыкальная композиция, из которой делаем две вырезки: первая вырезка - 5 минут с начала композиции, вторая - 3 минуты с конца.
При сравнении получаем следующие процентные результаты сходства:
5-минутная с начала и оригинал - 98,2%;
Оригинал и 3-минутная с конца - 2,3% (*)
5-минутная с начала и 3-минутная с конца - 4,6%
То же соотношение в 4,6% наблюдаю при сравнении:
Минуты с начала и 3 минут с конца
3 минут с начала и 3 минут с конца
5 мин 55 секунды с начала и 3 минут с конца (*)
Полагаю, результат в 4,6% в случаях отсутствия совпадающих частей композиции связан с используемыми при написании композиции инструментами (ритм одинаков, инструменты практически не меняются, редкие переходы), однако не понятны результаты, отмеченные звездочкой (*), где процентное сходство должно быть явно больше этих значений.
Сделал еще две вырезки из оригинала: первая - с 1 мин 00сек до 2 мин 00сек, вторая - с 1 мин 00сек по 5 мин 00сек. Они показывают совпадение только между собой 80,7%, при полном отсутствии совпадений с оригиналом и указанными в первой части сообщения файлами.
-
хеш считается только из начальных 30 сек, экспер. алгоритм сравнивает все.
оценка зависит от коэф.чувствительности, например если алгоритм возвращает абсолютную похожесть 0,8, а коэф. чувствительности = 0,75, на экране будет (0,8-0,75)/(1-0.75)=0,2=20%.
Алгоритм подсчета состоит из 3 оценок: 1) частотная (не зависит от позиции в композиции если она имеет постоянный ритм) 2) частотно-временная (зависит от позиции начала сранения) 3) полностью временная по мощности (зависит от позиции начала сранения). Потом эти оценки суммируется. Поэтому алгоритм не может сравнивать песни сдвинутые например на 20 сек, только 1 из оценок даст близкий результат частотная, другие дадут плохие результаты.