caxapa.ru :: Если все мои данные как следует рассортировать и устранить неявное дублирование

Evgeny_CD^{Архитектор} (16.12.2013 13:11, просмотров: 209) ответил Codavr на У меня меньше. Суммарный объем около 3Т (около 20% дублируется, троируется итд). В начале 90-х помещался на 20 5" дискетах.

Если все мои данные как следует рассортировать и устранить неявное дублирование - раза в 2 меньше станет.

- Но 4T винч за 10кр стоит дешевле, чем море времени на сортировку :) - Evgeny_CD(16.12.2013 13:12)
  - Не подскажете как автоматизировать такое? Много файлов, иногда с одинаковыми именами, иногда с разными, но файлы до бита одинаковые. Как их искать и удалить дубли? На ум приходит посчитать для всех файлов MD5 и уже это и сравнивать. - alex68(16.12.2013 14:07)
    - гугл в помощь - SciFi(16.12.2013 14:26, ссылка)
      - И дальше? Вот есть некая совокупность файлов, которая суть слепок рабочего момента проекта. Х.з. сколько лет назад. И есть библиотека таких слепков. Дедупликатор радостно найдет дупы и оставит один из них. А остальные грохнет. И слепки перестанут Evgeny_CD(62 знак., 16.12.2013 14:33)
        
        Именно так. Пока что всякими дупкиллерами работаю в режиме поиска дублей. Грохаю исключительно в ручном режиме. - Codavr(16.12.2013 14:48)
        
        Кстати, это мысль, нужна софтина, которая умеет находить разные последовательные версии одного файла(или целого дерева каталогов) и засовывать их в базу Git. Это было бы вкусное решение. - =AlexD=(16.12.2013 14:44)
        
        Ага. А потом оказывается что он грохнул более позднюю версию в которую внесены ошибочные исправления а надо было оставить предпоследнюю. Как то раз так и нарвался с тех пор грохаю только в ручном режиме. А уж хтмл архивы там одинаковых файлов Codavr(137 знак., 16.12.2013 14:51 - 14:54)
        
        Git - ключевое слово в моём сообщении. Ничё не "грохается", любую версию можно взять, - лишнее место на диске, + возможность посмотреть правки. - =AlexD=(17.12.2013 06:36)
        
        Понимаю, что действуя по старинке только теряю время, но блин, как всегда руки не доходят разобраться с этим делом да привести все в порядок. Денежные кредиты банки выдают, а вот временных хер там. Хорошая вещь всем нужна. - Codavr(17.12.2013 10:01)
        
        Причём линки должны быть с функцией copy on write. А какая файловая система такое умеет? Пара экспериментальных для linux... Теоретически любая с версиями файлов (технологии, кстати, со времён DEC -- налицо дедградация, а не прогресс), но fk0(29 знак., 16.12.2013 14:39)
        
        Вот и я о том же. :( Я не нашел устраивающего меня решения по "интеллектуальному хранению". Вот и инвестирую в HDD промышленность.... - Evgeny_CD(16.12.2013 14:44)
      - Спасибо за подсказку. - alex68(16.12.2013 14:33)
    - Для этого есть готовые софты. Принцип да, такой: считаем сумму, хеш и т.п. и вносим в базу, индексируем по сумме. Находим строки с одинаковой суммой и сравниваем уже побайтово. На самом деле таких файлов не много. Нужно научиться только fk0(84 знак., 16.12.2013 14:22)
      - Это часто скачанные откуда-то разные документы, которые, увы, иногда реально проще найти гуглем и скачать, чем искать на своих дисках или архивах. Но вот имена могут быть разные, потому и надо их как то по содержимому искать. - alex68(16.12.2013 14:30)
        
        Жена назаписывала на дивиди несколько сотен фильмов, а смотрит исключительно из инета ибо там их найти проще. - Codavr(16.12.2013 14:57)
        
        Сделай проще, отключи старый диск, подключи новый. Всё что нужно - тяни из интернета или со старого диска. Через пару лет просто удалишь со старого всю инфу. - =AlexD=(16.12.2013 14:42)
        
        А потом выяснится, что там был .PCB старой платы от PCAD 4.5, которая стояла в лабораторном стенде, на который неожиданно напал паяльник. И которую так обломно переразводить заново... - Evgeny_CD(16.12.2013 14:46)
        
        История почти один в один, только плата есть, а прошивка и рабочие файлы были на диске уволившегося работника который волевым решением начальника форматнули не разбирая. Вроде не такая уж великая потеря, но неделю убьешь переписывая. Абыдна. Новый Codavr(54 знак., 16.12.2013 15:02 - 15:26)
        
        Одинаковые документы могут побайтово отличаться... Вообще нужна поисковая система локальная. Яндекс что-то своё делал, не знаю чем кончилось. В микрософт встроена со времён XP -- только "не работает вообще". Glimpse -- 20 лет в обед. Работает, но fk0(26 знак., 16.12.2013 14:35)
  - Именно так и есть. У меня даже папка есть с названием "Рабочие столы" :) Codavr(126 знак., 16.12.2013 13:15)

Средства и методы разработки