ВходНаше всё Теги codebook 无线电组件 Поиск Опросы Закон Вторник
17 февраля
1571159 Топик полностью
Nikolay_Po (Сегодня, 00:35, просмотров: 76) ответил Eddy_Em на Ну, прямо так официально…
Ужас. Этого я и боялся. Строить и содержать свою БД... Думал, уже как-то автоматизировали до уровня вызова одной утилиты... 

Спасибо. Не сказать, что скрипт прямо длинный, я бы сказал, обозримый, но моего опыта пока не хватает, чтобы навскидку понять, что делает.

Верно я понимаю, что:

1. Сначала в БД читаются атрибуты файлов без чтения содержимого.

2. По созданной базе всех файлов, делается выборка файлов с одинаковыми именами и размерами.

3. Если размер и имя совпали, то вычисляется контрольная сумма MD5 по всем совпадениям.

4. Для файлов, чьи КС совпали, хардлинк на один общий блок данных. Делается средствами файловой системы.

5. После того, как хардлинки сделаны, освобождается место от дубликатов. При этом, общим, у дедуплицированных файлов, остаётся лишь тело. А прочие атрибуты, кроме размера и имени, могут быть разными, например, владелец файла, разрешения. Так?


Не рассматривал ли вариант дедупликации не по файлам, а по содержимому блоков?