Это хорошо, что Вы БД знаете. Вопросик есть теоретический (на примере БД какую Вы бы выбрали) Напомню
Вариант 2: БД сочетаний достаточно содержать всего одно поле: код, тип символьный, длина 7 без индексов Т.е. смысловая информация из текстового файла просто последовательно копируется в БД в формате, удобном для обработки. ... После заполнения БД сочетаний 1) индексируется по полю код 2) используя данные БД одним запросом формируется итоговая таблица, содержащая код и количество записей по этому коду. Зачастую этот вариант в разы быстрее.
Для меленького входного файла этот вариант , по моему, лучший
Ну вот имеем входной файл 10 гиг. На выходе после заполнения БД сочетаний мы имеем 10*1024*1024-6 записей. БД в озу (2 Гб напомню) однозначно не влазит. Сколько она будет индексироваться? Как сортировка организована?