-
- Скорее всего у Ксении всего одна запись огромной длины. Вопрос в том "как складывать / как считать результат". Ну СУБД легко и относительно быстро решается с использованием индекса для БД результата. AU08(757 знак., 12.08.2016 19:04 - 23:06)
- Исходные файлы - текстовые, в PDB-формате. В них ищут секцию SEQRES, где белок записан в виде последовательности аминокислот в трехбуквенном коде. Код переводится в порядковые номера 0-20. Потом из этой последовательности выбирают участки, Ксения(331 знак., 12.08.2016 19:31)
- Кстати, дорогая редакция, для СУБД можно и нужно использовать поле из 7 (семи) символов. В цифры переводить не обязательно. AU08(816 знак., 12.08.2016 19:52 - 20:17)
- Кажется что понятно. Читаем последовательно файл, вырезаем/парсим комбинацию из 7 цифр и подсчитываем количество для каждого из уникальных сочетаний (номеров). Типичная задача для СУБД! AU08(420 знак., 12.08.2016 19:37 - 19:45)
- ну да, несколько раз. получим вместо 3-х недель всего неделю. а было бы памяти нормально - так за час результат был бы готов. - Mahagam(13.08.2016 00:47)
- В варианте 2 производительность при использовании SSD ожидается всего в 20...40 раз медленнее, чем с массивом в RAM. В однопользовательском режиме на "своём" ПК СУБД работают относительно шустро. AU08(216 знак., 13.08.2016 07:42 - 07:52, ссылка)
- линейную скорость сравнили, а теперь сравните latency. потому как запись будет по случайным адресам. думаю, что три порядка разницы наберётся влёгкую. - Mahagam(14.08.2016 17:22)
- Не учите дедушку кашлять. В варианте 2 крайне мало записи по случайным адресам. С учётом почти линейного заполнения БД время доступа в начале будет меньше, в конце больше. Надо просто уметь их готовить! AU08(295 знак., 14.08.2016 18:24)
- Это хорошо, что Вы БД знаете. Вопросик есть теоретический (на примере БД какую Вы бы выбрали) symbions(759 знак., 14.08.2016 23:34)
- Не учите дедушку кашлять. В варианте 2 крайне мало записи по случайным адресам. С учётом почти линейного заполнения БД время доступа в начале будет меньше, в конце больше. Надо просто уметь их готовить! AU08(295 знак., 14.08.2016 18:24)
- линейную скорость сравнили, а теперь сравните latency. потому как запись будет по случайным адресам. думаю, что три порядка разницы наберётся влёгкую. - Mahagam(14.08.2016 17:22)
- В варианте 2 производительность при использовании SSD ожидается всего в 20...40 раз медленнее, чем с массивом в RAM. В однопользовательском режиме на "своём" ПК СУБД работают относительно шустро. AU08(216 знак., 13.08.2016 07:42 - 07:52, ссылка)
- ну да, несколько раз. получим вместо 3-х недель всего неделю. а было бы памяти нормально - так за час результат был бы готов. - Mahagam(13.08.2016 00:47)
- Исходные файлы - текстовые, в PDB-формате. В них ищут секцию SEQRES, где белок записан в виде последовательности аминокислот в трехбуквенном коде. Код переводится в порядковые номера 0-20. Потом из этой последовательности выбирают участки, Ксения(331 знак., 12.08.2016 19:31)
- Скорее всего у Ксении всего одна запись огромной длины. Вопрос в том "как складывать / как считать результат". Ну СУБД легко и относительно быстро решается с использованием индекса для БД результата. AU08(757 знак., 12.08.2016 19:04 - 23:06)