AU08 (12.08.2016 19:52 - 20:17, просмотров: 97) ответил Ксения на Исходные файлы - текстовые, в PDB-формате. В них ищут секцию SEQRES, где белок записан в виде последовательности аминокислот в трехбуквенном коде. Код переводится в порядковые номера 0-20. Потом из этой последовательности выбирают участки,
Кстати, дорогая редакция, для СУБД можно и нужно использовать поле из 7 (семи) символов. В цифры переводить не обязательно. Большинство СУБД сами переводят в уникальный цифровой код а также автоматически выполняют сжатие при построении индекса.
Т.е. выходной БД достаточно содержать всего два поля:
код, тип символьный, длина 7
количество, тип числовой натуральный, длина, к примеру, 12 цифр.
А уж какой простор и простота для формирования статистики у СУБД - просто песня!
===
Вариант 2:
БД сочетаний достаточно содержать всего одно поле:
код, тип символьный, длина 7
без индексов
Т.е. смысловая информация из текстового файла просто последовательно копируется в БД в формате, удобном для обработки.
...
После заполнения БД сочетаний
1) индексируется по полю код
2) используя данные БД одним запросом формируется итоговая таблица, содержащая код и количество записей по этому коду.
Зачастую этот вариант в разы быстрее.
Что такое асимметричный ответ?
Это когда о тебе негативно отзываются в комментарии, а ты об авторе этого комментария пишешь хорошо и по-доброму: в некрологе!