caxapa.ru :: Пишет один процесс или разные? В один файл или в разные? Если файл один (без буферизации, разумеется, и с O_APPEND), то порядок очевиден... можно таймштамп добавить (но он может совпадать у соседних записей). Если процесс один, поток один, есть точка, где всё упорядочивается явно, то там можно порядковый номер записи добавить.

fk0, легенда (10.07.2020 19:24, просмотров: 683) ответил MBedder на Я не о том, во что сложить - CSV проходит (пока), а как сложить, чтобы потом можно было восстановить исходный порядок посылок и пакетов

Пишет один процесс или разные? В один файл или в разные? Если файл один (без буферизации, разумеется, и с O_APPEND), то порядок очевиден... можно таймштамп добавить (но он может совпадать у соседних записей). Если процесс один, поток один, есть точка, где всё упорядочивается явно, то там можно порядковый номер записи добавить.

Если пишут разные процессы, то вариант писать в один файл с O_APPEND (для Win32: FILE_APPEND_DATA, OPEN_ALWAYS и _без_ FILE_WRITE_DATA). И работает оно только для локальных файлов (не сетевых). За раз (один вызов write) нужно записать одну запись целиком, размер записи ограничен чем-то там, условно 4-килобайта максимум, вызывать нужно прямо write (WriteFile) без всяких библиотечных обёрток с буферизацией. Или вместо файла писать так же в пайп (сокет) и на противоположном конце отлавливать записи, добавлять серийный номер и записывать уже из одного процесса в файл.

Преимущества пайпа: в пайп можно писать записями разной длины, записи до определённой длины (порядка 64к) всегда атомарны (не будут перемешаны кусками с записью из другого процесса), чтение из пайпа не ждёт неизвестно сколько, а выходит сразу как очередная записанная (даже короче, чем ожидается) порция доступна. У пайпа может быть много писателей.

С сокетом, подойтёт только datagram (udp) сокет, ибо stream (tcp) подразумевает только одного писателя и одного читателя. Опять же датаграммы доставляются атомарно (лимит размера порядка 64к). Чтение всегда на границах датаграммы (если в пайп много навалили, то потом прочитать можно сразу сотню записей и нужно их разбирать на отдельные как-то руками), поштучно, что удобно. Может работать не только локально, но и через сеть (но потерю датаграмм обнаруживать вручную, что неудобно).

Как вариант тот же SQL -- делать все INSERT'ы (в разные таблицы) от одного источника за одну транзакцию. Если BerkeleyDB -- то не скажу, в теории и на юниксе может, на винде х.з. как вообще. Но транзакция в любой БД -- дорогая. Поэтому лучше вначале сериализовать в один файл, а потом из него вставлять в БД весь файл за одну транзакцию, чем чтоб процессы дрались за доступ к БД. Или сериализовать через пайп в один процесс, который будет работать с БД.

[ZX]

Ответить

- Запись-то в один файл, но порядок неочевиден - пакеты рвать нельзя, а так они неизбежно будут друг на друга наезжать - MBedder(10.07.2020 19:43)
  - Ничего не понял. Так или иначе можно записывать пакеты в файл последовательно -- какой первый появился, тот и записывается в файл целиком. Чем не решение? Потом кто-то другой так же последовательно вычитывает и обрабатывает, или кладёт в базу для обчётов по разным критериям. Если пакеты мелкие, то можно положиться на атомарную запись. Если большие, то сериализовать ручками через разделяемую память, через множество пайпов (по пайпу на каждый источник, который читается всегда fk0(123 знак., 10.07.2020 19:49)
    - Пайпы у меня программисты курят, а я бросил :)) - MBedder(10.07.2020 20:36)
- Про сокеты - можно просто взять ZeroMQ, там такой сценарий есть из коробки XPUB/XSUB. Записывать в один поток в получателе - lloyd(10.07.2020 19:34)
  - Спасибо, бум поглядеть - MBedder(10.07.2020 20:37)
  - А ZeroMQ зачем? Если положим, что пишем текстовые строчки. Записать можно и с помощью socat'a или программы на C из десятка строк. - fk0(10.07.2020 19:39)
    - А вот затем, что см. комментарий выше - 0MQ обеспечивает границу сообщений на любом транспорте (межпотоковый, межпроцессный, TCP). Там получаешь или все, или ничего (такое тоже бывает) - lloyd(10.07.2020 19:48)
      - Границу сообщений можно сделать массой разных способов, 0MQ не серебряная пуля. Если размер сообщения известен в момент отправки, то очевидно, можно каждое сообщение предварять его длиной. - fk0(10.07.2020 19:51)
        
        Как будто ZMTP под капотом делает что-то другое. Вообще суть предложения была в том, чтобы не пытаться героически превозмогать многопоточную задачу, а перевести ее в однопоточку брокера сообщений - lloyd(10.07.2020 19:54)
        
        Вызвать write() для записи в пайп -- это героическое превозмогание? Почему бы за уши не притянуть ещё всяких брокеров, они ж такие полезные. А потом с этом всем попытаться взлететь... - fk0(10.07.2020 19:57)
        
        Я так полагаю самая сложная задача - не в файл записать, а данные получить. Но пусть ТС меня поправит - lloyd(10.07.2020 20:02)
        
        И то, и это важно - записать так, чтобы можно было без временнЫх искажений распаковать эту кучу в отдельные файлы - MBedder(10.07.2020 20:34)

Средства и методы разработки