caxapa.ru :: У "большой-пребольшой базы данных (GeneBank)" как будете данные забирать? Может она сразу их в нужном виде может отдать? И "большая-пребольшая" это сколько интересующих вас записей?

AlexBi (12.08.2016 11:09, просмотров: 235) ответил Ксения на Надо запоминать встречаемость 7-членных аминокислотных последовательностей в большой-пребольшой базе данных (GeneBank). Аминокислот там 21 штука, следовательно число всевозможных их комбинаций длиной 7 составит 21^7. И для каждой нужен счетчик

У "большой-пребольшой базы данных (GeneBank)" как будете данные забирать? Может она сразу их в нужном виде может отдать? И "большая-пребольшая" это сколько интересующих вас записей?

Ответить

- Скорее всего у Ксении всего одна запись огромной длины. Вопрос в том "как складывать / как считать результат". Ну СУБД легко и относительно быстро решается с использованием индекса для БД результата. AU08(757 знак., 12.08.2016 19:04 - 23:06)
  - Исходные файлы - текстовые, в PDB-формате. В них ищут секцию SEQRES, где белок записан в виде последовательности аминокислот в трехбуквенном коде. Код переводится в порядковые номера 0-20. Потом из этой последовательности выбирают участки, Ксения(331 знак., 12.08.2016 19:31)
    - Кстати, дорогая редакция, для СУБД можно и нужно использовать поле из 7 (семи) символов. В цифры переводить не обязательно. AU08(816 знак., 12.08.2016 19:52 - 20:17)
    - Кажется что понятно. Читаем последовательно файл, вырезаем/парсим комбинацию из 7 цифр и подсчитываем количество для каждого из уникальных сочетаний (номеров). Типичная задача для СУБД! AU08(420 знак., 12.08.2016 19:37 - 19:45)
      - ну да, несколько раз. получим вместо 3-х недель всего неделю. а было бы памяти нормально - так за час результат был бы готов. - Mahagam(13.08.2016 00:47)
        
        В варианте 2 производительность при использовании SSD ожидается всего в 20...40 раз медленнее, чем с массивом в RAM. В однопользовательском режиме на "своём" ПК СУБД работают относительно шустро. AU08(216 знак., 13.08.2016 07:42 - 07:52, ссылка)
        
        линейную скорость сравнили, а теперь сравните latency. потому как запись будет по случайным адресам. думаю, что три порядка разницы наберётся влёгкую. - Mahagam(14.08.2016 17:22)
        
        Не учите дедушку кашлять. В варианте 2 крайне мало записи по случайным адресам. С учётом почти линейного заполнения БД время доступа в начале будет меньше, в конце больше. Надо просто уметь их готовить! AU08(295 знак., 14.08.2016 18:24)
        
        Это хорошо, что Вы БД знаете. Вопросик есть теоретический (на примере БД какую Вы бы выбрали) symbions(759 знак., 14.08.2016 23:34)

Средства и методы разработки