source: lib/trace_parallel.c @ a49a9eb

4.0.1-hotfixescachetimestampsdevelopdpdk-ndagetsilivelibtrace4ndag_formatpfringrc-4.0.1rc-4.0.2rc-4.0.3rc-4.0.4ringdecrementfixringperformanceringtimestampfixes
Last change on this file since a49a9eb was a49a9eb, checked in by Richard Sanger <rsangerarj@…>, 7 years ago

Add an object cache with thread local caches
All packets used by a trace are put through this.
Adds bulk read/write operations to the ringbuffer (used by the object cache)
Replace semaphores with condition variables to support these bulk operations.
Internally use bulk read operations from a single threaded formats to reduce lock overhead.
Replaces the asserts around pthread_* functions with a version that will still run the command if NDEBUG

  • Property mode set to 100644
File size: 73.6 KB
Line 
1/*
2 * This file is part of libtrace
3 *
4 * Copyright (c) 2007,2008,2009,2010 The University of Waikato, Hamilton,
5 * New Zealand.
6 *
7 * All rights reserved.
8 *
9 * This code has been developed by the University of Waikato WAND
10 * research group. For further information please see http://www.wand.net.nz/
11 *
12 * libtrace is free software; you can redistribute it and/or modify
13 * it under the terms of the GNU General Public License as published by
14 * the Free Software Foundation; either version 2 of the License, or
15 * (at your option) any later version.
16 *
17 * libtrace is distributed in the hope that it will be useful,
18 * but WITHOUT ANY WARRANTY; without even the implied warranty of
19 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
20 * GNU General Public License for more details.
21 *
22 * You should have received a copy of the GNU General Public License
23 * along with libtrace; if not, write to the Free Software
24 * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
25 *
26 * $Id$
27 *
28 */
29
30
31#define _GNU_SOURCE
32#include "common.h"
33#include "config.h"
34#include <assert.h>
35#include <errno.h>
36#include <fcntl.h>
37#include <stdio.h>
38#include <stdlib.h>
39#include <string.h>
40#include <sys/stat.h>
41#include <sys/types.h>
42#ifndef WIN32
43#include <sys/socket.h>
44#endif
45#include <stdarg.h>
46#include <sys/param.h>
47
48#ifdef HAVE_LIMITS_H
49#  include <limits.h>
50#endif
51
52#ifdef HAVE_SYS_LIMITS_H
53#  include <sys/limits.h>
54#endif
55
56#ifdef HAVE_NET_IF_ARP_H
57#  include <net/if_arp.h>
58#endif
59
60#ifdef HAVE_NET_IF_H
61#  include <net/if.h>
62#endif
63
64#ifdef HAVE_NETINET_IN_H
65#  include <netinet/in.h>
66#endif
67
68#ifdef HAVE_NET_ETHERNET_H
69#  include <net/ethernet.h>
70#endif
71
72#ifdef HAVE_NETINET_IF_ETHER_H
73#  include <netinet/if_ether.h>
74#endif
75
76#include <time.h>
77#ifdef WIN32
78#include <sys/timeb.h>
79#endif
80
81#include "libtrace.h"
82#include "libtrace_int.h"
83
84#ifdef HAVE_PCAP_BPF_H
85#  include <pcap-bpf.h>
86#else
87#  ifdef HAVE_NET_BPF_H
88#    include <net/bpf.h>
89#  endif
90#endif
91
92
93#include "libtrace_int.h"
94#include "format_helper.h"
95#include "rt_protocol.h"
96#include "hash_toeplitz.h"
97
98#include <pthread.h>
99#include <signal.h>
100#include <unistd.h>
101
102
103#define VERBOSE_DEBBUGING 0
104
105
106static size_t trace_pread_packet(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packets[], size_t nb_packets);
107
108extern int libtrace_parallel;
109
110struct multithreading_stats {
111        uint64_t full_queue_hits;
112        uint64_t wait_for_fill_complete_hits;
113} contention_stats[1024];
114
115struct mem_stats {
116        struct memfail {
117           uint64_t cache_hit;
118           uint64_t ring_hit;
119           uint64_t miss;
120           uint64_t recycled;
121        } readbulk, read, write, writebulk;
122};
123
124// Grrr gcc wants this spelt out
125__thread struct mem_stats mem_hits = {{0},{0},{0},{0}};
126
127static void print_memory_stats() {
128        char t_name[50];
129        uint64_t total;
130        pthread_getname_np(pthread_self(), t_name, sizeof(t_name));
131
132        fprintf(stderr, "Thread ID#%d - %s\n", (int) pthread_self(), t_name);
133
134        total = mem_hits.read.cache_hit + mem_hits.read.ring_hit + mem_hits.read.miss;
135        if (total) {
136                fprintf(stderr, "\tRead:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
137                                mem_hits.read.cache_hit, mem_hits.read.ring_hit, mem_hits.read.miss, mem_hits.read.recycled);
138                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
139                                total, (double) mem_hits.read.miss / (double) total * 100.0);
140        }
141
142        total = mem_hits.readbulk.cache_hit + mem_hits.readbulk.ring_hit + mem_hits.readbulk.miss;
143        if (total) {
144                fprintf(stderr, "\tReadbulk:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
145                                mem_hits.readbulk.cache_hit, mem_hits.readbulk.ring_hit, mem_hits.readbulk.miss, mem_hits.readbulk.recycled);
146
147
148                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
149                                total, (double) mem_hits.readbulk.miss / (double) total * 100.0);
150        }
151
152        total = mem_hits.write.cache_hit + mem_hits.write.ring_hit + mem_hits.write.miss;
153        if (total) {
154                fprintf(stderr, "\tWrite:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
155                                mem_hits.write.cache_hit, mem_hits.write.ring_hit, mem_hits.write.miss, mem_hits.write.recycled);
156
157                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
158                                total, (double) mem_hits.write.miss / (double) total * 100.0);
159        }
160
161        total = mem_hits.writebulk.cache_hit + mem_hits.writebulk.ring_hit + mem_hits.writebulk.miss;
162        if (total) {
163                fprintf(stderr, "\tWritebulk:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
164                                mem_hits.writebulk.cache_hit, mem_hits.writebulk.ring_hit, mem_hits.writebulk.miss, mem_hits.writebulk.recycled);
165
166                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
167                                total, (double) mem_hits.writebulk.miss / (double) total * 100.0);
168        }
169
170}
171
172/**
173 * True if the trace has dedicated hasher thread otherwise false,
174 * to be used after the trace is running
175 */
176static inline int trace_has_dedicated_hasher(libtrace_t * libtrace)
177{
178        assert(libtrace->state != STATE_NEW);
179        return libtrace->hasher_thread.type == THREAD_HASHER;
180}
181
182/**
183 * Changes a thread's state and broadcasts the condition variable. This
184 * should always be done when the lock is held.
185 *
186 * Additionally for perpkt threads the state counts are updated.
187 *
188 * @param trace A pointer to the trace
189 * @param t A pointer to the thread to modify
190 * @param new_state The new state of the thread
191 * @param need_lock Set to true if libtrace_lock is not held, otherwise
192 *        false in the case the lock is currently held by this thread.
193 */
194static inline void thread_change_state(libtrace_t *trace, libtrace_thread_t *t,
195        const enum thread_states new_state, const bool need_lock)
196{
197        enum thread_states prev_state;
198        if (need_lock)
199                pthread_mutex_lock(&trace->libtrace_lock);
200        prev_state = t->state;
201        t->state = new_state;
202        if (t->type == THREAD_PERPKT) {
203                --trace->perpkt_thread_states[prev_state];
204                ++trace->perpkt_thread_states[new_state];
205        }
206
207#if VERBOSE_DEBBUGING
208        fprintf(stderr, "Thread %d State changed from %d to %d\n", t->tid,
209                t->state, prev_state);
210#endif
211        if (need_lock)
212                pthread_mutex_unlock(&trace->libtrace_lock);
213        pthread_cond_broadcast(&trace->perpkt_cond);
214}
215
216/**
217 * Changes the overall traces state and signals the condition.
218 *
219 * @param trace A pointer to the trace
220 * @param new_state The new state of the trace
221 * @param need_lock Set to true if libtrace_lock is not held, otherwise
222 *        false in the case the lock is currently held by this thread.
223 */
224static inline void libtrace_change_state(libtrace_t *trace, 
225        const enum trace_state new_state, const bool need_lock)
226{
227        UNUSED enum trace_state prev_state;
228        if (need_lock)
229                pthread_mutex_lock(&trace->libtrace_lock);
230        prev_state = trace->state;
231        trace->state = new_state;
232#if VERBOSE_DEBBUGING
233        fprintf(stderr, "Trace(%s) state changed from %s to %s\n",
234                trace->uridata, get_trace_state_name(trace->state),
235                get_trace_state_name(prev_state));
236#endif
237        if (need_lock)
238                pthread_mutex_unlock(&trace->libtrace_lock);
239        pthread_cond_broadcast(&trace->perpkt_cond);
240}
241
242/**
243 * @return True if the format supports parallel threads.
244 */
245static inline bool trace_supports_parallel(libtrace_t *trace)
246{
247        assert(trace);
248        assert(trace->format);
249        if (trace->format->pstart_input)
250                return true;
251        else
252                return false;
253}
254
255DLLEXPORT void print_contention_stats(libtrace_t *libtrace) {
256        int i;
257        struct multithreading_stats totals = {0};
258        for (i = 0; i < libtrace->perpkt_thread_count ; i++) {
259                fprintf(stderr, "\nStats for perpkt thread#%d\n", i);
260                fprintf(stderr, "\tfull_queue_hits: %"PRIu64"\n", contention_stats[i].full_queue_hits);
261                totals.full_queue_hits += contention_stats[i].full_queue_hits;
262                fprintf(stderr, "\twait_for_fill_complete_hits: %"PRIu64"\n", contention_stats[i].wait_for_fill_complete_hits);
263                totals.wait_for_fill_complete_hits += contention_stats[i].wait_for_fill_complete_hits;
264        }
265        fprintf(stderr, "\nTotals for perpkt threads\n");
266        fprintf(stderr, "\tfull_queue_hits: %"PRIu64"\n", totals.full_queue_hits);
267        fprintf(stderr, "\twait_for_fill_complete_hits: %"PRIu64"\n", totals.wait_for_fill_complete_hits);
268
269        return;
270}
271
272void libtrace_zero_thread(libtrace_thread_t * t) {
273        t->trace = NULL;
274        t->ret = NULL;
275        t->type = THREAD_EMPTY;
276        libtrace_zero_ringbuffer(&t->rbuffer);
277        libtrace_zero_vector(&t->vector);
278        libtrace_zero_deque(&t->deque);
279        t->recorded_first = false;
280        t->perpkt_num = -1;
281}
282
283// Ints are aligned int is atomic so safe to read and write at same time
284// However write must be locked, read doesn't (We never try read before written to table)
285libtrace_thread_t * get_thread_table(libtrace_t *libtrace) {
286        int i = 0;
287        pthread_t tid = pthread_self();
288
289        for (;i<libtrace->perpkt_thread_count ;++i) {
290                if (pthread_equal(tid, libtrace->perpkt_threads[i].tid))
291                        return &libtrace->perpkt_threads[i];
292        }
293        return NULL;
294}
295
296int get_thread_table_num(libtrace_t *libtrace) {
297        int i = 0;
298        pthread_t tid = pthread_self();
299        for (;i<libtrace->perpkt_thread_count; ++i) {
300                if (pthread_equal(tid, libtrace->perpkt_threads[i].tid))
301                        return i;
302        }
303        return -1;
304}
305
306static libtrace_thread_t * get_thread_descriptor(libtrace_t *libtrace) {
307        libtrace_thread_t *ret;
308        if (!(ret = get_thread_table(libtrace))) {
309                pthread_t tid = pthread_self();
310                // Check if we are reducer or something else
311                if (pthread_equal(tid, libtrace->reducer_thread.tid))
312                        ret = &libtrace->reducer_thread;
313                else if (pthread_equal(tid, libtrace->hasher_thread.tid))
314                        ret = &libtrace->hasher_thread;
315                else
316                        ret = NULL;
317        }
318        return ret;
319}
320
321/** Used below in trace_make_results_packets_safe*/
322static void do_copy_result_packet(void *data)
323{
324        libtrace_result_t *res = (libtrace_result_t *)data;
325        if (res->is_packet) {
326                // Duplicate the packet in standard malloc'd memory and free the
327                // original
328                libtrace_packet_t *oldpkt, *dup;
329                oldpkt = (libtrace_packet_t *) res->value;
330                dup = trace_copy_packet(oldpkt);
331                res->value = (void *)dup;
332                trace_destroy_packet(oldpkt);
333                fprintf(stderr, "Made a packet safe!!\n");
334        }
335}
336
337/**
338 * Make a safe replacement copy of any result packets that are owned
339 * by the format in the result queue. Used when pausing traces.
340 */ 
341static void trace_make_results_packets_safe(libtrace_t *trace) {
342        libtrace_thread_t *t = get_thread_descriptor(trace);
343        if (trace->reducer_flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED))
344                libtrace_deque_apply_function(&t->deque, &do_copy_result_packet);
345        else 
346                libtrace_vector_apply_function(&t->vector, &do_copy_result_packet);
347}
348
349/**
350 * Holds threads in a paused state, until released by broadcasting
351 * the condition mutex.
352 */
353static void trace_thread_pause(libtrace_t *trace, libtrace_thread_t *t) {
354        trace_make_results_packets_safe(trace);
355        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
356        thread_change_state(trace, t, THREAD_PAUSED, false);
357        while (trace->state == STATE_PAUSED || trace->state == STATE_PAUSING) {
358                ASSERT_RET(pthread_cond_wait(&trace->perpkt_cond, &trace->libtrace_lock), == 0);
359        }
360        thread_change_state(trace, t, THREAD_RUNNING, false);
361        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
362}
363
364#define PACKETQUEUES 10
365
366/**
367 * The is the entry point for our packet processing threads.
368 */
369static void* perpkt_threads_entry(void *data) {
370        libtrace_t *trace = (libtrace_t *)data;
371        libtrace_thread_t * t;
372        libtrace_message_t message = {0};
373        libtrace_packet_t *packets[PACKETQUEUES] = {NULL};
374        size_t nb_packets;
375        size_t i;
376
377        // Force this thread to wait until trace_pstart has been completed
378        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
379        t = get_thread_table(trace);
380        assert(t);
381        //printf("Yay Started perpkt thread #%d\n", (int) get_thread_table_num(trace));
382        if (trace->format->pregister_thread) {
383                trace->format->pregister_thread(trace, t, !trace_has_dedicated_hasher(trace));
384        }
385        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
386
387        /* ~~~~~~~~~~~ Setup complete now we loop ~~~~~~~~~~~~~~~ */
388        // Send a message to say we've started
389
390        message.code = MESSAGE_STARTED;
391        message.sender = t;
392
393        // Let the per_packet function know we have started
394        (*trace->per_pkt)(trace, NULL, &message, t);
395
396
397        for (;;) {
398
399                if (libtrace_message_queue_try_get(&t->messages, &message) != LIBTRACE_MQ_FAILED) {
400                        switch (message.code) {
401                                case MESSAGE_DO_PAUSE: // This is internal
402                                        // Send message to say we are pausing, TODO consider sender
403                                        message.code = MESSAGE_PAUSING;
404                                        (*trace->per_pkt)(trace, NULL, &message, t);
405                                        // If a hasher thread is running empty input queues so we don't loose data
406                                        if (trace_has_dedicated_hasher(trace)) {
407                                                fprintf(stderr, "Trace is using a hasher thread emptying queues\n");
408                                                // The hasher has stopped by this point, so the queue shouldn't be filling
409                                                while(!libtrace_ringbuffer_is_empty(&t->rbuffer)) {
410                                                        nb_packets = trace_pread_packet(trace, t, packets, 1);
411                                                        if (nb_packets == 1) {
412                                                                if (packets[0]->error > 0)
413                                                                        packets[0] = (*trace->per_pkt)(trace, packets[0], NULL, t);
414                                                        } else {
415                                                                fprintf(stderr, "Psize=%d empty=%d this is probably EOF or message waiting, but if this continues we have a bug!!!\n", packets[0]->error, libtrace_ringbuffer_is_empty(&t->rbuffer));
416                                                        }
417                                                }
418                                        }
419                                        // Send a paused message as a final chance to memory copy any packets
420                                        message.code = MESSAGE_PAUSED;
421                                        (*trace->per_pkt)(trace, NULL, &message, t);
422                                        // Now we do the actual pause, this returns when we are done
423                                        trace_thread_pause(trace, t);
424                                        // Check for new messages as soon as we return
425                                        continue;
426                                case MESSAGE_DO_STOP: // This is internal
427                                        goto stop;
428                        }
429                        (*trace->per_pkt)(trace, NULL, &message, t);
430                        continue;
431                }
432
433                if (trace->perpkt_thread_count == 1) {
434                        if (!packets[0]) {
435                                libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packets[0], 1, 1);
436                        }
437                        assert(packets[0]);
438                        packets[0]->error = trace_read_packet(trace, packets[0]);
439                        nb_packets = 1;
440                } else {
441                        nb_packets = trace_pread_packet(trace, t, packets, PACKETQUEUES);
442                }
443                // Loop through the packets we just read
444                for (i = 0; i < nb_packets; ++i) {
445                       
446                        if (packets[i]->error > 0) {
447                                packets[i] = (*trace->per_pkt)(trace, packets[i], NULL, t);
448                        } else if (packets[i]->error != -2) {
449                                // An error this should be the last packet we read
450                                size_t z;
451                                for (z = i ; z < nb_packets; ++z)
452                                        fprintf(stderr, "i=%d nb_packet=%d err=%d\n", (int) z, (int) nb_packets, packets[i]->error);
453                                assert (i == nb_packets-1);
454                                goto stop;
455                        }
456                        // -2 is a message its not worth checking now just finish this lot and we'll check
457                        // when we loop next
458                }
459        }
460
461
462stop:
463        /* ~~~~~~~~~~~~~~ Trace is finished do tear down ~~~~~~~~~~~~~~~~~~~~~ */
464        // Let the per_packet function know we have stopped
465        message.code = MESSAGE_STOPPED;
466        message.sender = NULL;
467        message.additional.uint64 = 0;
468        (*trace->per_pkt)(trace, NULL, &message, t);
469
470        // Free any remaining packets
471        for (i = 0; i < PACKETQUEUES; i++) {
472                if (packets[i]) {
473                        libtrace_ocache_free(&trace->packet_freelist, (void **) &packets[i], 1, 1);
474                        packets[i] = NULL;
475                }
476        }
477
478       
479        thread_change_state(trace, t, THREAD_FINISHED, true);
480
481        // Notify only after we've defiantly set the state to finished
482        message.code = MESSAGE_PERPKT_ENDED;
483        message.additional.uint64 = 0;
484        trace_send_message_to_reducer(trace, &message);
485
486        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
487        if (trace->format->punregister_thread) {
488                trace->format->punregister_thread(trace, t);
489        }
490        print_memory_stats();
491
492        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
493
494        pthread_exit(NULL);
495};
496
497/**
498 * The start point for our single threaded hasher thread, this will read
499 * and hash a packet from a data source and queue it against the correct
500 * core to process it.
501 */
502static void* hasher_start(void *data) {
503        libtrace_t *trace = (libtrace_t *)data;
504        libtrace_thread_t * t;
505        int i;
506        libtrace_packet_t * packet;
507        libtrace_message_t message = {0};
508
509        assert(trace_has_dedicated_hasher(trace));
510        /* Wait until all threads are started and objects are initialised (ring buffers) */
511        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
512        t = &trace->hasher_thread;
513        assert(t->type == THREAD_HASHER && pthread_equal(pthread_self(), t->tid));
514        printf("Hasher Thread started\n");
515        if (trace->format->pregister_thread) {
516                trace->format->pregister_thread(trace, t, true);
517        }
518        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
519        int pkt_skipped = 0;
520        /* Read all packets in then hash and queue against the correct thread */
521        while (1) {
522                int thread;
523                if (!pkt_skipped)
524                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packet, 1, 1);
525                assert(packet);
526
527                if (libtrace_halt) // Signal to die has been sent - TODO
528                        break;
529
530                // Check for messages that we expect MESSAGE_DO_PAUSE, (internal messages only)
531                if (libtrace_message_queue_try_get(&t->messages, &message) != LIBTRACE_MQ_FAILED) {
532                        switch(message.code) {
533                                case MESSAGE_DO_PAUSE:
534                                        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
535                                        thread_change_state(trace, t, THREAD_PAUSED, false);
536                                        pthread_cond_broadcast(&trace->perpkt_cond);
537                                        while (trace->state == STATE_PAUSED || trace->state == STATE_PAUSING) {
538                                                ASSERT_RET(pthread_cond_wait(&trace->perpkt_cond, &trace->libtrace_lock), == 0);
539                                        }
540                                        thread_change_state(trace, t, THREAD_RUNNING, false);
541                                        pthread_cond_broadcast(&trace->perpkt_cond);
542                                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
543                                        break;
544                                case MESSAGE_DO_STOP:
545                                        // Stop called after pause
546                                        assert(trace->started == false);
547                                        assert(trace->state == STATE_FINSHED);
548                                default:
549                                        fprintf(stderr, "Hasher thread didn't expect message code=%d\n", message.code);
550                        }
551                        pkt_skipped = 1;
552                        continue;
553                }
554
555                if ((packet->error = trace_read_packet(trace, packet)) <1 /*&& psize != LIBTRACE_MESSAGE_WAITING*/) {
556                        break; /* We are EOF or error'd either way we stop  */
557                }
558
559                /* We are guaranteed to have a hash function i.e. != NULL */
560                trace_packet_set_hash(packet, (*trace->hasher)(packet, trace->hasher_data));
561                thread = trace_packet_get_hash(packet) % trace->perpkt_thread_count;
562                /* Blocking write to the correct queue - I'm the only writer */
563                if (trace->perpkt_threads[thread].state != THREAD_FINISHED) {
564                        libtrace_ringbuffer_write(&trace->perpkt_threads[thread].rbuffer, packet);
565                        pkt_skipped = 0;
566                } else {
567                        pkt_skipped = 1; // Reuse that packet no one read it
568                }
569        }
570
571        /* Broadcast our last failed read to all threads */
572        for (i = 0; i < trace->perpkt_thread_count; i++) {
573                libtrace_packet_t * bcast;
574                printf("Broadcasting error/EOF now the trace is over\n");
575                if (i == trace->perpkt_thread_count - 1) {
576                        bcast = packet;
577                } else {
578                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &bcast, 1, 1);
579                        bcast->error = packet->error;
580                }
581                ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
582                if (trace->perpkt_threads[i].state != THREAD_FINISHED) {
583                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
584                        // Unlock early otherwise we could deadlock
585                        libtrace_ringbuffer_write(&trace->perpkt_threads[i].rbuffer, bcast);
586                } else {
587                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
588                }
589        }
590
591        // We don't need to free the packet
592        thread_change_state(trace, t, THREAD_FINISHED, true);
593
594        // Notify only after we've defiantly set the state to finished
595        message.code = MESSAGE_PERPKT_ENDED;
596        message.additional.uint64 = 0;
597        trace_send_message_to_reducer(trace, &message);
598        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
599        if (trace->format->punregister_thread) {
600                trace->format->punregister_thread(trace, t);
601        }
602        print_memory_stats();
603        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
604
605        // TODO remove from TTABLE t sometime
606        pthread_exit(NULL);
607};
608
609/**
610 * Moves src into dest(Complete copy) and copies the memory buffer and
611 * its flags from dest into src ready for reuse without needing extra mallocs.
612 */
613static inline void swap_packets(libtrace_packet_t *dest, libtrace_packet_t *src) {
614        // Save the passed in buffer status
615        assert(dest->trace == NULL); // Must be a empty packet
616        void * temp_buf = dest->buffer;
617        buf_control_t temp_buf_control = dest->buf_control;
618        // Completely copy StoredPacket into packet
619        memcpy(dest, src, sizeof(libtrace_packet_t));
620        // Set the buffer settings on the returned packet
621        src->buffer = temp_buf;
622        src->buf_control = temp_buf_control;
623        src->trace = NULL;
624}
625
626/**
627 * @brief Move NULLs to the end of an array.
628 * @param values
629 * @param len
630 * @return The location the first NULL, aka the number of non NULL elements
631 */
632static inline size_t move_nulls_back(void *arr[], size_t len) {
633        size_t fr=0, en = len-1;
634        // Shift all non NULL elements to the front of the array, and NULLs to the
635        // end, traverses every element at most once
636        for (;fr < en; ++fr) {
637                if (arr[fr] == NULL) {
638                        for (;en > fr; --en) {
639                                if(arr[en]) {
640                                        arr[fr] = arr[en];
641                                        arr[en] = NULL;
642                                        break;
643                                }
644                        }
645                }
646        }
647        // This is the index of the first NULL
648        en = MIN(fr, en);
649        // Or the end of the array if this special case
650        if (arr[en])
651                en++;
652        return en;
653}
654
655/** returns the number of packets successfully allocated in the final array
656 these will all be at the front of the array */
657inline static size_t fill_array_with_empty_packets(libtrace_t *libtrace, libtrace_packet_t *packets[], size_t nb_packets) {
658        size_t nb;
659        nb = move_nulls_back((void **) packets, nb_packets);
660        mem_hits.read.recycled += nb;
661        nb += libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &packets[nb], nb_packets - nb, nb_packets - nb);
662        assert(nb_packets == nb);
663        return nb;
664}
665
666
667inline static size_t empty_array_of_packets(libtrace_t *libtrace, libtrace_packet_t *packets[], size_t nb_packets) {
668        size_t nb;
669        nb = move_nulls_back((void **) packets, nb_packets);
670        mem_hits.write.recycled += nb_packets - nb;
671        nb += nb_packets - libtrace_ocache_free(&libtrace->packet_freelist, (void **)packets, nb, nb);
672        memset(packets, 0, nb); // XXX make better, maybe do this in ocache??
673        return nb;
674}
675
676/* Our simplest case when a thread becomes ready it can obtain an exclusive
677 * lock to read packets from the underlying trace.
678 */
679inline static size_t trace_pread_packet_first_in_first_served(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packets[], size_t nb_packets)
680{
681        size_t i = 0;
682
683        nb_packets = fill_array_with_empty_packets(libtrace, packets, nb_packets);
684
685        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
686        /* Read nb_packets */
687        for (i = 0; i < nb_packets; ++i) {
688                packets[i]->error = trace_read_packet(libtrace, packets[i]);
689                // Doing this inside the lock ensures the first packet is always
690                // recorded first
691                if (packets[i]->error <= 0) {
692                        ++i;
693                        break;
694                }
695        }
696        if (packets[0]->error > 0) {
697                store_first_packet(libtrace, packets[0], t);
698        }
699        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
700        return i;
701}
702
703/**
704 * For the case that we have a dedicated hasher thread
705 * 1. We read a packet from our buffer
706 * 2. Move that into the packet provided (packet)
707 */
708inline static size_t trace_pread_packet_hasher_thread(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t **packets, size_t nb_packets)
709{
710        size_t i;
711
712        // Always grab at least one
713        if (packets[0]) // Recycle the old get the new
714                libtrace_ocache_free(&libtrace->packet_freelist, (void **) packets, 1, 1);
715        packets[0] = libtrace_ringbuffer_read(&t->rbuffer);
716
717
718        if (packets[0] == NULL) {
719                libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) packets, 1, 1);
720                packets[0]->error = -2;
721        }
722
723        if (packets[0]->error < 0)
724                return 1;
725
726        for (i = 1; i < nb_packets; i++) {
727                if (packets[i]) // Recycle the old get the new
728                        libtrace_ocache_free(&libtrace->packet_freelist, (void **) &packets[i], 1, 1);
729                if (!libtrace_ringbuffer_try_read(&t->rbuffer, (void **) &packets[i])) {
730                        packets[i] = NULL;
731                        break;
732                }
733                // Message wating
734                if (packets[i] == NULL) {
735                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &packets[i], 1, 1);
736                        packets[i]->error = -2;
737                        ++i;
738                        break;
739                }
740        }
741       
742        return i;
743        /*if (*packet) {
744                return (*packet)->error;
745        } else {
746                // This is how we do a notify, we send a message before hand to note that the trace is over etc.
747                // And this will notify the perpkt thread to read that message, this is easiest
748                // since cases like pause can also be dealt with this way without actually
749                // having to be the end of the stream.
750                fprintf(stderr, "Got a NULL packet from hasher therefore message waiting\n");
751                return -2;
752        }*/
753}
754
755/**
756 * Tries to read from our queue and returns 1 if a packet was retrieved
757 */
758static inline int try_waiting_queue(libtrace_t *libtrace, libtrace_thread_t * t, libtrace_packet_t **packet, int * ret)
759{
760        libtrace_packet_t* retrived_packet;
761
762        /* Lets see if we have one waiting */
763        if (libtrace_ringbuffer_try_read(&t->rbuffer, (void **) &retrived_packet)) {
764                /* Copy paste from trace_pread_packet_hasher_thread() except that we try read (non-blocking) */
765                assert(retrived_packet);
766
767                if (*packet) // Recycle the old get the new
768                        libtrace_ocache_free(&libtrace->packet_freelist, (void **) packet, 1, 1);
769                *packet = retrived_packet;
770                *ret = (*packet)->error;
771                return 1;
772        }
773        return 0;
774}
775
776/**
777 * Allows us to ensure all threads are finished writing to our threads ring_buffer
778 * before returning EOF/error.
779 */
780inline static int trace_handle_finishing_perpkt(libtrace_t *libtrace, libtrace_packet_t **packet, libtrace_thread_t * t)
781{
782        /* We are waiting for the condition that another thread ends to check
783         * our queue for new data, once all threads end we can go to finished */
784        bool complete = false;
785        int ret;
786
787        do {
788                // Wait for a thread to end
789                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
790
791                // Check before
792                if (libtrace->perpkt_thread_states[THREAD_FINISHING] == libtrace->perpkt_thread_count) {
793                        complete = true;
794                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
795                        continue;
796                }
797
798                ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
799
800                // Check after
801                if (libtrace->perpkt_thread_states[THREAD_FINISHING] == libtrace->perpkt_thread_count) {
802                        complete = true;
803                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
804                        continue;
805                }
806
807                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
808
809                // Always trying to keep our buffer empty for the unlikely case more threads than buffer space want to write into our queue
810                if(try_waiting_queue(libtrace, t, packet, &ret))
811                        return ret;
812        } while (!complete);
813
814        // We can only end up here once all threads complete
815        try_waiting_queue(libtrace, t, packet, &ret);
816
817        return ret;
818        // TODO rethink this logic fix bug here
819}
820
821/**
822 * Expects the libtrace_lock to not be held
823 */
824inline static int trace_finish_perpkt(libtrace_t *libtrace, libtrace_packet_t **packet, libtrace_thread_t * t)
825{
826        thread_change_state(libtrace, t, THREAD_FINISHING, true);
827        return trace_handle_finishing_perpkt(libtrace, packet, t);
828}
829
830/**
831 * This case is much like the dedicated hasher, except that we will become
832 * hasher if we don't have a a packet waiting.
833 *
834 * Note: This is only every used if we have are doing hashing.
835 *
836 * TODO: Can block on zero copy formats such as ring: and dpdk: if the
837 * queue sizes in total are larger than the ring size.
838 *
839 * 1. We read a packet from our buffer
840 * 2. Move that into the packet provided (packet)
841 */
842inline static int trace_pread_packet_hash_locked(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t **packet)
843{
844        int thread, ret/*, psize*/;
845
846        while (1) {
847                if(try_waiting_queue(libtrace, t, packet, &ret))
848                        return ret;
849                // Can still block here if another thread is writing to a full queue
850                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
851
852                // Its impossible for our own queue to overfill, because no one can write
853                // when we are in the lock
854                if(try_waiting_queue(libtrace, t, packet, &ret)) {
855                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
856                        return ret;
857                }
858
859                // Another thread cannot write a packet because a queue has filled up. Is it ours?
860                if (libtrace->perpkt_queue_full) {
861                        contention_stats[t->perpkt_num].wait_for_fill_complete_hits++;
862                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
863                        continue;
864                }
865
866                if (!*packet)
867                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) packet, 1, 1);
868                assert(*packet);
869
870                // If we fail here we can guarantee that our queue is empty (and no new data will be added because we hold the lock)
871                if (libtrace_halt || ((*packet)->error = trace_read_packet(libtrace, *packet)) <1 /*&& psize != LIBTRACE_MESSAGE_WAITING*/) {
872                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
873                        if (libtrace_halt)
874                                return 0;
875                        else
876                                return (*packet)->error;
877                }
878
879                trace_packet_set_hash(*packet, (*libtrace->hasher)(*packet, libtrace->hasher_data));
880                thread = trace_packet_get_hash(*packet) % libtrace->perpkt_thread_count;
881                if (thread == t->perpkt_num) {
882                        // If it's this thread we must be in order because we checked the buffer once we got the lock
883                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
884                        return (*packet)->error;
885                }
886
887                if (libtrace->perpkt_threads[thread].state != THREAD_FINISHED) {
888                        while (!libtrace_ringbuffer_try_swrite_bl(&libtrace->perpkt_threads[thread].rbuffer, *packet)) {
889                                libtrace->perpkt_queue_full = true;
890                                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
891                                contention_stats[t->perpkt_num].full_queue_hits++;
892                                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
893                        }
894                        *packet = NULL;
895                        libtrace->perpkt_queue_full = false;
896                } else {
897                        /* We can get here if the user closes the thread before natural completion/or error */
898                        assert (!"packet_hash_locked() The user terminated the trace in a abnormal manner");
899                }
900                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
901        }
902}
903
904/**
905 * This case is much like the dedicated hasher, except that we will become
906 * hasher if we don't have a packet waiting.
907 *
908 * TODO: You can lose the tail of a trace if the final thread
909 * fills its own queue and therefore breaks early and doesn't empty the sliding window.
910 *
911 * TODO: Can block on zero copy formats such as ring: and dpdk: if the
912 * queue sizes in total are larger than the ring size.
913 *
914 * 1. We read a packet from our buffer
915 * 2. Move that into the packet provided (packet)
916 */
917inline static int trace_pread_packet_sliding_window(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t **packet)
918{
919        int ret, i, thread/*, psize*/;
920
921        if (t->state == THREAD_FINISHING)
922                return trace_handle_finishing_perpkt(libtrace, packet, t);
923
924        while (1) {
925                // Check if we have packets ready
926                if(try_waiting_queue(libtrace, t, packet, &ret))
927                        return ret;
928
929                // We limit the number of packets we get to the size of the sliding window
930                // such that it is impossible for any given thread to fail to store a packet
931                ASSERT_RET(sem_wait(&libtrace->sem), == 0);
932                /*~~~~Single threaded read of a packet~~~~*/
933                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
934
935                /* Re-check our queue things we might have data waiting */
936                if(try_waiting_queue(libtrace, t, packet, &ret)) {
937                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
938                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
939                        return ret;
940                }
941
942                // TODO put on *proper* condition variable
943                if (libtrace->perpkt_queue_full) {
944                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
945                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
946                        contention_stats[t->perpkt_num].wait_for_fill_complete_hits++;
947                        continue;
948                }
949
950                if (!*packet)
951                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) packet, 1, 1);
952                assert(*packet);
953
954                if (libtrace_halt || ((*packet)->error = trace_read_packet(libtrace, *packet)) <1 /*&& psize != LIBTRACE_MESSAGE_WAITING*/) {
955                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
956                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
957                        // Finish this thread ensuring that any data written later by another thread is retrieved also
958                        if (libtrace_halt)
959                                return 0;
960                        else
961                                return trace_finish_perpkt(libtrace, packet, t);
962                }
963                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
964
965                /* ~~~~Multiple threads can run the hasher~~~~ */
966                trace_packet_set_hash(*packet, (*libtrace->hasher)(*packet, libtrace->hasher_data));
967
968                /* Yes this is correct opposite read lock for a write operation */
969                ASSERT_RET(pthread_rwlock_rdlock(&libtrace->window_lock), == 0);
970                if (!libtrace_slidingwindow_try_write(&libtrace->sliding_window, trace_packet_get_order(*packet), *packet))
971                        assert(!"Semaphore should stop us from ever overfilling the sliding window");
972                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
973                *packet = NULL;
974
975                // Always try read any data from the sliding window
976                while (libtrace_slidingwindow_read_ready(&libtrace->sliding_window)) {
977                        ASSERT_RET(pthread_rwlock_wrlock(&libtrace->window_lock), == 0);
978                        if (libtrace->perpkt_queue_full) {
979                                // I might be the holdup in which case if I can read my queue I should do that and return
980                                if(try_waiting_queue(libtrace, t, packet, &ret)) {
981                                        ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
982                                        return ret;
983                                }
984                                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
985                                continue;
986                        }
987                        // Read greedily as many as we can
988                        while (libtrace_slidingwindow_try_read(&libtrace->sliding_window, (void **) packet, NULL)) {
989                                thread = trace_packet_get_hash(*packet) % libtrace->perpkt_thread_count;
990                                if (libtrace->perpkt_threads[thread].state != THREAD_FINISHED) {
991                                        while (!libtrace_ringbuffer_try_swrite_bl(&libtrace->perpkt_threads[thread].rbuffer, *packet)) {
992                                                if (t->perpkt_num == thread)
993                                                {
994                                                        // TODO think about this case more because we have to stop early if this were to happen on the last read
995                                                        // before EOF/error we might not have emptied the sliding window
996                                                        printf("!~!~!~!~!~!~In this Code~!~!~!~!\n");
997                                                        // Its our queue we must have a packet to read out
998                                                        if(try_waiting_queue(libtrace, t, packet, &ret)) {
999                                                                // We must be able to write this now 100% without fail
1000                                                                libtrace_ringbuffer_write(&libtrace->perpkt_threads[thread].rbuffer, *packet);
1001                                                                ASSERT_RET(sem_post(&libtrace->sem), == 0);
1002                                                                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
1003                                                                return ret;
1004                                                        } else {
1005                                                                assert(!"Our queue is full but I cannot read from it??");
1006                                                        }
1007                                                }
1008                                                // Not us we have to give the other threads a chance to write there packets then
1009                                                libtrace->perpkt_queue_full = true;
1010                                                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
1011                                                for (i = 0; i < libtrace->perpkt_thread_count-1; i++) // Release all other threads to read there packets
1012                                                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
1013
1014                                                contention_stats[t->perpkt_num].full_queue_hits++;
1015                                                ASSERT_RET(pthread_rwlock_wrlock(&libtrace->window_lock), == 0);
1016                                                // Grab these back
1017                                                for (i = 0; i < libtrace->perpkt_thread_count-1; i++) // Release all other threads to read there packets
1018                                                        ASSERT_RET(sem_wait(&libtrace->sem), == 0);
1019                                                libtrace->perpkt_queue_full = false;
1020                                        }
1021                                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
1022                                        *packet = NULL;
1023                                } else {
1024                                        // Cannot write to a queue if no ones waiting (I think this is unreachable)
1025                                        // in the general case (unless the user ends early without proper clean up).
1026                                        assert (!"unreachable code??");
1027                                }
1028                        }
1029                        ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
1030                }
1031                // Now we go back to checking our queue anyways
1032        }
1033}
1034
1035
1036/**
1037 * For the first packet of each queue we keep a copy and note the system
1038 * time it was received at.
1039 *
1040 * This is used for finding the first packet when playing back a trace
1041 * in trace time. And can be used by real time applications to print
1042 * results out every XXX seconds.
1043 */
1044void store_first_packet(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t)
1045{
1046        if (!t->recorded_first) {
1047                struct timeval tv;
1048                libtrace_packet_t * dup;
1049                // For what it's worth we can call these outside of the lock
1050                gettimeofday(&tv, NULL);
1051                dup = trace_copy_packet(packet);
1052                ASSERT_RET(pthread_spin_lock(&libtrace->first_packets.lock), == 0);
1053                libtrace->first_packets.packets[t->perpkt_num].packet = dup;
1054                //printf("Stored first packet time=%f\n", trace_get_seconds(dup));
1055                memcpy(&libtrace->first_packets.packets[t->perpkt_num].tv, &tv, sizeof(tv));
1056                // Now update the first
1057                libtrace->first_packets.count++;
1058                if (libtrace->first_packets.count == 1) {
1059                        // We the first entry hence also the first known packet
1060                        libtrace->first_packets.first = t->perpkt_num;
1061                } else {
1062                        // Check if we are newer than the previous 'first' packet
1063                        size_t first = libtrace->first_packets.first;
1064                        if (trace_get_seconds(dup) <
1065                                trace_get_seconds(libtrace->first_packets.packets[first].packet))
1066                                libtrace->first_packets.first = t->perpkt_num;
1067                }
1068                ASSERT_RET(pthread_spin_unlock(&libtrace->first_packets.lock), == 0);
1069                libtrace_message_t mesg = {0};
1070                mesg.code = MESSAGE_FIRST_PACKET;
1071                trace_send_message_to_reducer(libtrace, &mesg);
1072                t->recorded_first = true;
1073        }
1074}
1075
1076/**
1077 * Returns 1 if it's certain that the first packet is truly the first packet
1078 * rather than a best guess based upon threads that have published so far.
1079 * Otherwise 0 is returned.
1080 * It's recommended that this result is stored rather than calling this
1081 * function again.
1082 */
1083DLLEXPORT int retrive_first_packet(libtrace_t *libtrace, libtrace_packet_t **packet, struct timeval **tv)
1084{
1085        int ret = 0;
1086        ASSERT_RET(pthread_spin_lock(&libtrace->first_packets.lock), == 0);
1087        if (libtrace->first_packets.count) {
1088                *packet = libtrace->first_packets.packets[libtrace->first_packets.first].packet;
1089                *tv = &libtrace->first_packets.packets[libtrace->first_packets.first].tv;
1090                if (libtrace->first_packets.count == (size_t) libtrace->perpkt_thread_count) {
1091                        ret = 1;
1092                } else {
1093                        struct timeval curr_tv;
1094                        // If a second has passed since the first entry we will assume this is the very first packet
1095                        gettimeofday(&curr_tv, NULL);
1096                        if (curr_tv.tv_sec > (*tv)->tv_sec) {
1097                                if(curr_tv.tv_usec > (*tv)->tv_usec || curr_tv.tv_sec - (*tv)->tv_sec > 1) {
1098                                        ret = 1;
1099                                }
1100                        }
1101                }
1102        } else {
1103                *packet = NULL;
1104                *tv = NULL;
1105        }
1106        ASSERT_RET(pthread_spin_unlock(&libtrace->first_packets.lock), == 0);
1107        return ret;
1108}
1109
1110
1111DLLEXPORT uint64_t tv_to_usec(struct timeval *tv)
1112{
1113        return (uint64_t) tv->tv_sec*1000000ull + (uint64_t) tv->tv_usec;
1114}
1115
1116inline static struct timeval usec_to_tv(uint64_t usec)
1117{
1118        struct timeval tv;
1119        tv.tv_sec = usec / 1000000;
1120        tv.tv_usec = usec % 1000000;
1121        return tv;
1122}
1123
1124/** Similar to delay_tracetime but send messages to all threads periodically */
1125static void* keepalive_entry(void *data) {
1126        struct timeval prev, next;
1127        libtrace_message_t message = {0};
1128        libtrace_t *trace = (libtrace_t *)data;
1129        uint64_t next_release;
1130        fprintf(stderr, "keepalive thread is starting\n");
1131
1132        gettimeofday(&prev, NULL);
1133        message.code = MESSAGE_TICK;
1134        while (trace->state != STATE_FINSHED) {
1135                fd_set rfds;
1136                next_release = tv_to_usec(&prev) + (trace->tick_interval * 1000);
1137                gettimeofday(&next, NULL);
1138                if (next_release > tv_to_usec(&next)) {
1139                        next = usec_to_tv(next_release - tv_to_usec(&next));
1140                        // Wait for timeout or a message
1141                        FD_ZERO(&rfds);
1142                FD_SET(libtrace_message_queue_get_fd(&trace->keepalive_thread.messages), &rfds);
1143                        if (select(libtrace_message_queue_get_fd(&trace->keepalive_thread.messages)+1, &rfds, NULL, NULL, &next) == 1) {
1144                                libtrace_message_t msg;
1145                                libtrace_message_queue_get(&trace->keepalive_thread.messages, &msg);
1146                                assert(msg.code == MESSAGE_DO_STOP);
1147                                goto done;
1148                        }
1149                }
1150                prev = usec_to_tv(next_release);
1151                if (trace->state == STATE_RUNNING) {
1152                        message.additional.uint64 = tv_to_usec(&prev);
1153                        trace_send_message_to_perpkts(trace, &message);
1154                }
1155        }
1156done:
1157
1158        thread_change_state(trace, &trace->keepalive_thread, THREAD_FINISHED, true);
1159        return NULL;
1160}
1161
1162/**
1163 * Delays a packets playback so the playback will be in trace time
1164 */
1165static inline void delay_tracetime(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t) {
1166        struct timeval curr_tv, pkt_tv;
1167        uint64_t next_release = t->tracetime_offset_usec; // Time at which to release the packet
1168        uint64_t curr_usec;
1169        /* Tracetime we might delay releasing this packet */
1170        if (!t->tracetime_offset_usec) {
1171                libtrace_packet_t * first_pkt;
1172                struct timeval *sys_tv;
1173                int64_t initial_offset;
1174                int stable = retrive_first_packet(libtrace, &first_pkt, &sys_tv);
1175                assert(first_pkt);
1176                pkt_tv = trace_get_timeval(first_pkt);
1177                initial_offset = (int64_t)tv_to_usec(sys_tv) - (int64_t)tv_to_usec(&pkt_tv);
1178                if (stable)
1179                        // 0->1 because 0 is used to mean unset
1180                        t->tracetime_offset_usec = initial_offset ? initial_offset: 1;
1181                next_release = initial_offset;
1182        }
1183        /* next_release == offset */
1184        pkt_tv = trace_get_timeval(packet);
1185        next_release += tv_to_usec(&pkt_tv);
1186        gettimeofday(&curr_tv, NULL);
1187        curr_usec = tv_to_usec(&curr_tv);
1188        if (next_release > curr_usec) {
1189                // We need to wait
1190                struct timeval delay_tv = usec_to_tv(next_release-curr_usec);
1191                //printf("WAITING for %d.%d next=%"PRIu64" curr=%"PRIu64" seconds packettime %f\n", delay_tv.tv_sec, delay_tv.tv_usec, next_release, curr_usec, trace_get_seconds(packet));
1192                select(0, NULL, NULL, NULL, &delay_tv);
1193        }
1194}
1195
1196/* Read one packet from the trace into a buffer. Note that this function will
1197 * block until a packet is read (or EOF is reached).
1198 *
1199 * @param libtrace      the libtrace opaque pointer
1200 * @param packet        the packet opaque pointer
1201 * @returns 0 on EOF, negative value on error
1202 *
1203 * Note this is identical to read_packet but calls pread_packet instead of
1204 * read packet in the format.
1205 *
1206 */
1207static inline int trace_pread_packet_wrapper(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packet) {
1208
1209        assert(libtrace && "You called trace_read_packet() with a NULL libtrace parameter!\n");
1210        if (trace_is_err(libtrace))
1211                return -1;
1212        if (!libtrace->started) {
1213                trace_set_err(libtrace,TRACE_ERR_BAD_STATE,"You must call libtrace_start() before trace_read_packet()\n");
1214                return -1;
1215        }
1216        if (!(packet->buf_control==TRACE_CTRL_PACKET || packet->buf_control==TRACE_CTRL_EXTERNAL)) {
1217                trace_set_err(libtrace,TRACE_ERR_BAD_STATE,"Packet passed to trace_read_packet() is invalid\n");
1218                return -1;
1219        }
1220        assert(packet);
1221
1222        if (libtrace->format->read_packet) {
1223                do {
1224                        size_t ret;
1225                        /* Finalise the packet, freeing any resources the format module
1226                         * may have allocated it and zeroing all data associated with it.
1227                         */
1228                        trace_fin_packet(packet);
1229                        /* Store the trace we are reading from into the packet opaque
1230                         * structure */
1231                        packet->trace = libtrace;
1232                        ret=libtrace->format->pread_packet(libtrace, t, packet);
1233                        if (ret==(size_t)-1 || ret==(size_t)-2 || ret==0) {
1234                                return ret;
1235                        }
1236                        if (libtrace->filter) {
1237                                /* If the filter doesn't match, read another
1238                                 * packet
1239                                 */
1240                                if (!trace_apply_filter(libtrace->filter,packet)){
1241                                        ++libtrace->filtered_packets;
1242                                        continue;
1243                                }
1244                        }
1245                        if (libtrace->snaplen>0) {
1246                                /* Snap the packet */
1247                                trace_set_capture_length(packet,
1248                                                libtrace->snaplen);
1249                        }
1250                        trace_packet_set_order(packet, libtrace->accepted_packets);
1251                        ++libtrace->accepted_packets;
1252                        return ret;
1253                } while(1);
1254        }
1255        trace_set_err(libtrace,TRACE_ERR_UNSUPPORTED,"This format does not support reading packets\n");
1256        return ~0U;
1257}
1258
1259/**
1260 * Read packets from the parallel trace
1261 * @return the number of packets read, null packets indicate messages. Check packet->error before
1262 * assuming a packet is valid.
1263 */
1264static size_t trace_pread_packet(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packets[], size_t nb_packets)
1265{
1266        size_t ret;
1267        size_t i;
1268        assert(nb_packets);
1269
1270        for (i = 0; i < nb_packets; i++) {
1271                // Cleanup the packet passed back
1272                if (packets[i])
1273                        trace_fin_packet(packets[i]);
1274        }
1275
1276        if (trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1277                if (!packets[0])
1278                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **)packets, 1, 1);
1279                packets[0]->error = trace_pread_packet_wrapper(libtrace, t, *packets);
1280                ret = 1;
1281        } else if (trace_has_dedicated_hasher(libtrace)) {
1282                ret = trace_pread_packet_hasher_thread(libtrace, t, packets, nb_packets);
1283        } else if (!trace_has_dedicated_hasher(libtrace)) {
1284                /* We don't care about which core a packet goes to */
1285                ret = trace_pread_packet_first_in_first_served(libtrace, t, packets, nb_packets);
1286        } /* else {
1287                ret = trace_pread_packet_hash_locked(libtrace, packet);
1288        }*/
1289
1290        // Formats can also optionally do this internally to ensure the first
1291        // packet is always reported correctly
1292        assert(ret);
1293        assert(ret <= nb_packets);
1294        if (packets[0]->error > 0) {
1295                store_first_packet(libtrace, packets[0], t);
1296                if (libtrace->tracetime)
1297                        delay_tracetime(libtrace, packets[0], t);
1298        }
1299
1300        return ret;
1301}
1302
1303/* Starts perpkt threads
1304 * @return threads_started
1305 */
1306static inline int trace_start_perpkt_threads (libtrace_t *libtrace) {
1307        int i;
1308        char name[16];
1309        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1310                libtrace_thread_t *t = &libtrace->perpkt_threads[i];
1311                ASSERT_RET(pthread_create(&t->tid, NULL, perpkt_threads_entry, (void *) libtrace), == 0);
1312                snprintf(name, 16, "perpkt-%d", i);
1313                pthread_setname_np(t->tid, name);
1314        }
1315        return libtrace->perpkt_thread_count;
1316}
1317
1318/* Start an input trace in a parallel fashion, or restart a paused trace.
1319 *
1320 * NOTE: libtrace lock is held for the majority of this function
1321 *
1322 * @param libtrace the input trace to start
1323 * @param global_blob some global data you can share with the new perpkt threads
1324 * @returns 0 on success
1325 */
1326DLLEXPORT int trace_pstart(libtrace_t *libtrace, void* global_blob, fn_per_pkt per_pkt, fn_reducer reducer)
1327{
1328        int i;
1329        char name[16];
1330        sigset_t sig_before, sig_block_all;
1331        assert(libtrace);
1332        if (trace_is_err(libtrace)) {
1333                return -1;
1334        }
1335       
1336        // NOTE: Until the trace is started we wont have a libtrace_lock initialised
1337        if (libtrace->state != STATE_NEW) {
1338                int err = 0;
1339                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1340                if (libtrace->state != STATE_PAUSED) {
1341                        trace_set_err(libtrace, TRACE_ERR_BAD_STATE,
1342                                "The trace(%s) has already been started and is not paused!!", libtrace->uridata);
1343                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1344                        return -1;
1345                }
1346               
1347                // Update the per_pkt function, or reuse the old one
1348                if (per_pkt)
1349                        libtrace->per_pkt = per_pkt;
1350
1351                assert(libtrace_parallel);
1352                assert(!libtrace->perpkt_thread_states[THREAD_RUNNING]);
1353                assert(libtrace->per_pkt);
1354               
1355                if (libtrace->perpkt_thread_count > 1 && trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1356                        fprintf(stderr, "Restarting trace pstart_input()\n");
1357                        err = libtrace->format->pstart_input(libtrace);
1358                } else {
1359                        if (libtrace->format->start_input) {
1360                                fprintf(stderr, "Restarting trace start_input()\n");
1361                                err = libtrace->format->start_input(libtrace);
1362                        }
1363                }
1364               
1365                if (err == 0) {
1366                        libtrace->started = true;
1367                        libtrace_change_state(libtrace, STATE_RUNNING, false);
1368                }
1369                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1370                return err;
1371        }
1372
1373        assert(libtrace->state == STATE_NEW);
1374        libtrace_parallel = 1;
1375
1376        // Store the user defined things against the trace
1377        libtrace->global_blob = global_blob;
1378        libtrace->per_pkt = per_pkt;
1379        libtrace->reducer = reducer;
1380
1381        ASSERT_RET(pthread_mutex_init(&libtrace->libtrace_lock, NULL), == 0);
1382        ASSERT_RET(pthread_cond_init(&libtrace->perpkt_cond, NULL), == 0);
1383        ASSERT_RET(pthread_rwlock_init(&libtrace->window_lock, NULL), == 0);
1384        // Grab the lock
1385        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1386
1387        // Set default buffer sizes
1388        if (libtrace->perpkt_buffer_size <= 0)
1389                libtrace->perpkt_buffer_size = 1000;
1390
1391        if (libtrace->perpkt_thread_count <= 0) {
1392                // TODO add BSD support
1393                libtrace->perpkt_thread_count = sysconf(_SC_NPROCESSORS_ONLN);
1394                if (libtrace->perpkt_thread_count <= 0)
1395                        // Lets just use one
1396                        libtrace->perpkt_thread_count = 1;
1397        }
1398
1399        if(libtrace->packet_freelist_size <= 0)
1400                libtrace->packet_freelist_size = (libtrace->perpkt_buffer_size + 1) * libtrace->perpkt_thread_count;
1401
1402        if(libtrace->packet_freelist_size <
1403                (libtrace->perpkt_buffer_size + 1) * libtrace->perpkt_thread_count)
1404                fprintf(stderr, "WARNING deadlocks may occur and extra memory allocating buffer sizes (packet_freelist_size) mismatched\n");
1405
1406        libtrace->started = true; // Before we start the threads otherwise we could have issues
1407        libtrace_change_state(libtrace, STATE_RUNNING, false);
1408        /* Disable signals - Pthread signal handling */
1409
1410        sigemptyset(&sig_block_all);
1411
1412        ASSERT_RET(pthread_sigmask(SIG_SETMASK, &sig_block_all, &sig_before), == 0);
1413
1414        // If we are using a hasher start it
1415        // If single threaded we don't need a hasher
1416        if (libtrace->perpkt_thread_count > 1 && libtrace->hasher && libtrace->hasher_type != HASHER_HARDWARE) {
1417                libtrace_thread_t *t = &libtrace->hasher_thread;
1418                t->trace = libtrace;
1419                t->ret = NULL;
1420                t->type = THREAD_HASHER;
1421                t->state = THREAD_RUNNING;
1422                libtrace_message_queue_init(&t->messages, sizeof(libtrace_message_t));
1423                ASSERT_RET(pthread_create(&t->tid, NULL, hasher_start, (void *) libtrace), == 0);
1424                snprintf(name, sizeof(name), "hasher-thread");
1425                pthread_setname_np(t->tid, name);
1426        } else {
1427                libtrace->hasher_thread.type = THREAD_EMPTY;
1428        }
1429        //libtrace_ocache_init(&libtrace->packet_freelist, trace_create_packet, trace_destroy_packet, 64, libtrace->packet_freelist_size * 4, true);
1430        libtrace_ocache_init(&libtrace->packet_freelist,
1431                                                 (void* (*)()) trace_create_packet,
1432                                                 (void (*)(void *))trace_destroy_packet,
1433                                                 64,
1434                                                 libtrace->packet_freelist_size * 4,
1435                                                 true);
1436        //libtrace_slidingwindow_init(&libtrace->sliding_window, libtrace->packet_freelist_size, 0);
1437        ASSERT_RET(sem_init(&libtrace->sem, 0, libtrace->packet_freelist_size), == 0);
1438        // This will be applied to every new thread that starts, i.e. they will block all signals
1439        // Lets start a fixed number of reading threads
1440
1441        // For now we never have a dedicated thread for the reducer
1442        // i.e. This main thread is used as the reducer
1443        libtrace->reducer_thread.tid = pthread_self();
1444        libtrace->reducer_thread.type = THREAD_REDUCER;
1445        libtrace->reducer_thread.state = THREAD_RUNNING;
1446        libtrace_message_queue_init(&libtrace->reducer_thread.messages, sizeof(libtrace_message_t));
1447
1448        /* Ready some storages */
1449        libtrace->first_packets.first = 0;
1450        libtrace->first_packets.count = 0;
1451        ASSERT_RET(pthread_spin_init(&libtrace->first_packets.lock, 0), == 0);
1452        libtrace->first_packets.packets = calloc(libtrace->perpkt_thread_count, sizeof(struct  __packet_storage_magic_type));
1453
1454
1455        /* Ready all of our perpkt threads - they are started later */
1456        libtrace->perpkt_threads = calloc(sizeof(libtrace_thread_t), libtrace->perpkt_thread_count);
1457        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1458                libtrace_thread_t *t = &libtrace->perpkt_threads[i];
1459                t->trace = libtrace;
1460                t->ret = NULL;
1461                t->type = THREAD_PERPKT;
1462                t->state = THREAD_RUNNING;
1463                t->user_data = NULL;
1464                // t->tid DONE on create
1465                t->perpkt_num = i;
1466                if (libtrace->hasher)
1467                        libtrace_ringbuffer_init(&t->rbuffer, libtrace->perpkt_buffer_size, LIBTRACE_RINGBUFFER_POLLING);
1468                // Depending on the mode vector or deque might be chosen
1469                libtrace_vector_init(&t->vector, sizeof(libtrace_result_t));
1470                libtrace_deque_init(&t->deque, sizeof(libtrace_result_t));
1471                libtrace_message_queue_init(&t->messages, sizeof(libtrace_message_t));
1472                t->tmp_key = 0;
1473                t->tmp_data = NULL;
1474                t->recorded_first = false;
1475                ASSERT_RET(pthread_spin_init(&t->tmp_spinlock, 0), == 0);
1476                t->tracetime_offset_usec = 0;;
1477        }
1478
1479        int threads_started = 0;
1480        /* Setup the trace and start our threads */
1481        if (libtrace->perpkt_thread_count > 1 && trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1482                printf("This format has direct support for p's\n");
1483                threads_started = libtrace->format->pstart_input(libtrace);
1484        } else {
1485                if (libtrace->format->start_input) {
1486                        threads_started=libtrace->format->start_input(libtrace);
1487                }
1488        }
1489        if (threads_started == 0)
1490                threads_started = trace_start_perpkt_threads(libtrace);
1491
1492        if (libtrace->tick_interval > 0) {
1493                libtrace->keepalive_thread.type = THREAD_KEEPALIVE;
1494                libtrace->keepalive_thread.state = THREAD_RUNNING;
1495                libtrace_message_queue_init(&libtrace->keepalive_thread.messages, sizeof(libtrace_message_t));
1496                ASSERT_RET(pthread_create(&libtrace->keepalive_thread.tid, NULL, keepalive_entry, (void *) libtrace), == 0);
1497        }
1498
1499        for (i = 0; i < THREAD_STATE_MAX; ++i) {
1500                libtrace->perpkt_thread_states[i] = 0;
1501        }
1502        libtrace->perpkt_thread_states[THREAD_RUNNING] = threads_started;
1503
1504        // Revert back - Allow signals again
1505        ASSERT_RET(pthread_sigmask(SIG_SETMASK, &sig_before, NULL), == 0);
1506        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1507
1508        if (threads_started < 0)
1509                // Error
1510                return threads_started;
1511
1512        // TODO fix these leaks etc
1513        if (libtrace->perpkt_thread_count != threads_started)
1514                fprintf(stderr, "Warning started threads not equal requested s=%d r=%d", threads_started, libtrace->perpkt_thread_count);
1515
1516
1517        return 0;
1518}
1519
1520/**
1521 * Pauses a trace, this should only be called by the main thread
1522 * 1. Set started = false
1523 * 2. All perpkt threads are paused waiting on a condition var
1524 * 3. Then call ppause on the underlying format if found
1525 * 4. The traces state is paused
1526 *
1527 * Once done you should be able to modify the trace setup and call pstart again
1528 * TODO handle changing thread numbers
1529 */
1530DLLEXPORT int trace_ppause(libtrace_t *libtrace)
1531{
1532        libtrace_thread_t *t;
1533        int i;
1534        assert(libtrace);
1535       
1536        t = get_thread_table(libtrace);
1537        // Check state from within the lock if we are going to change it
1538        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1539        if (!libtrace->started || libtrace->state != STATE_RUNNING) {
1540                fprintf(stderr, "pause failed started=%d state=%s (%d)\n", libtrace->started, get_trace_state_name(libtrace->state), libtrace->state);
1541                trace_set_err(libtrace,TRACE_ERR_BAD_STATE, "You must call trace_start() before calling trace_ppause()");
1542                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1543                return -1;
1544        }
1545
1546        libtrace_change_state(libtrace, STATE_PAUSING, false);
1547        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1548
1549        // Special case handle the hasher thread case
1550        if (trace_has_dedicated_hasher(libtrace)) {
1551                fprintf(stderr, "Hasher thread running we deal with this special!\n");
1552                libtrace_message_t message = {0};
1553                message.code = MESSAGE_DO_PAUSE;
1554                trace_send_message_to_thread(libtrace, &libtrace->hasher_thread, &message);
1555                // Wait for it to pause
1556                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1557                while (libtrace->hasher_thread.state == THREAD_RUNNING) {
1558                        ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1559                }
1560                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1561        }
1562
1563        fprintf(stderr, "Sending messages \n");
1564        // Stop threads, skip this one if it's a perpkt
1565        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1566                if (&libtrace->perpkt_threads[i] != t) {
1567                        libtrace_message_t message = {0};
1568                        message.code = MESSAGE_DO_PAUSE;
1569                        trace_send_message_to_thread(libtrace, &libtrace->perpkt_threads[i], &message);
1570                        if(trace_has_dedicated_hasher(libtrace)) {
1571                                // The hasher has stopped and other threads have messages waiting therefore
1572                                // If the queues are empty the other threads would have no data
1573                                // So send some NULL packets to simply ask the threads to check there message queues
1574                                // We are the only writer since hasher has paused
1575                                libtrace_ringbuffer_write(&libtrace->perpkt_threads[i].rbuffer, NULL);
1576                        }
1577                } else {
1578                        fprintf(stderr, "Mapper threads should not be used to pause a trace this could cause any number of problems!!\n");
1579                }
1580        }
1581
1582        // Formats must support native message handling if a message is ready
1583        // Approach per Perry's suggestion is a non-blocking read
1584        // followed by a blocking read. XXX STRIP THIS OUT
1585
1586        if (t) {
1587                // A perpkt is doing the pausing, interesting, fake an extra thread paused
1588                // We rely on the user to *not* return before starting the trace again
1589                thread_change_state(libtrace, t, THREAD_PAUSED, true);
1590        }
1591
1592        fprintf(stderr, "Asking threads to pause\n");
1593
1594        // Wait for all threads to pause
1595        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1596        while(libtrace->perpkt_thread_states[THREAD_RUNNING]) {
1597                ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1598        }
1599        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1600
1601        fprintf(stderr, "Threads have paused\n");
1602
1603        if (trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1604                libtrace->started = false;
1605                if (libtrace->format->ppause_input)
1606                        libtrace->format->ppause_input(libtrace);
1607                // TODO What happens if we don't have pause input??
1608        } else {
1609                int err;
1610                fprintf(stderr, "Trace is not parallel so we are doing a normal pause %s\n", libtrace->uridata);
1611                err = trace_pause(libtrace);
1612                // We should handle this a bit better
1613                if (err)
1614                        return err;
1615        }
1616
1617        // Only set as paused after the pause has been called on the trace
1618        libtrace_change_state(libtrace, STATE_PAUSED, true);
1619        return 0;
1620}
1621
1622/**
1623 * Stop trace finish prematurely as though it meet an EOF
1624 * This should only be called by the main thread
1625 * 1. Calls ppause
1626 * 2. Sends a message asking for threads to finish
1627 * 3. Releases threads which will pause
1628 */
1629DLLEXPORT int trace_pstop(libtrace_t *libtrace)
1630{
1631        int i, err;
1632        libtrace_message_t message = {0};
1633        assert(libtrace);
1634
1635        // Ensure all threads have paused and the underlying trace format has
1636        // been closed and all packets associated are cleaned up
1637        // Pause will do any state checks for us
1638        err = trace_ppause(libtrace);
1639        if (err)
1640                return err;
1641
1642        // Now send a message asking the threads to stop
1643        // This will be retrieved before trying to read another packet
1644       
1645        message.code = MESSAGE_DO_STOP;
1646        trace_send_message_to_perpkts(libtrace, &message);
1647        if (trace_has_dedicated_hasher(libtrace))
1648                trace_send_message_to_thread(libtrace, &libtrace->hasher_thread, &message);
1649       
1650        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1651                trace_send_message_to_thread(libtrace, &libtrace->perpkt_threads[i], &message);
1652        }
1653
1654        // Now release the threads and let them stop
1655        libtrace_change_state(libtrace, STATE_FINSHED, true);
1656        return 0;
1657}
1658
1659/**
1660 * Set the hasher type along with a selected function, if hardware supports
1661 * that generic type of hashing it will be used otherwise the supplied
1662 * hasher function will be used and passed data when called.
1663 *
1664 * @return 0 if successful otherwise -1 on error
1665 */
1666DLLEXPORT int trace_set_hasher(libtrace_t *trace, enum hasher_types type, fn_hasher hasher, void *data) {
1667        int ret = -1;
1668        if (type == HASHER_HARDWARE || (type == HASHER_CUSTOM && !hasher) || (type == HASHER_BALANCE && hasher)) {
1669                return -1;
1670        }
1671
1672        // Save the requirements
1673        trace->hasher_type = type;
1674        if (hasher) {
1675                trace->hasher = hasher;
1676                trace->hasher_data = data;
1677        } else {
1678                trace->hasher = NULL;
1679                // TODO consider how to handle freeing this
1680                trace->hasher_data = NULL;
1681        }
1682
1683        // Try push this to hardware - NOTE hardware could do custom if
1684        // there is a more efficient way to apply it, in this case
1685        // it will simply grab the function out of libtrace_t
1686        if (trace->format->pconfig_input)
1687                ret = trace->format->pconfig_input(trace, TRACE_OPTION_SET_HASHER, &type);
1688
1689        if (ret == -1) {
1690                // We have to deal with this ourself
1691                // This most likely means single threaded reading of the trace
1692                if (!hasher) {
1693                        switch (type)
1694                        {
1695                                case HASHER_CUSTOM:
1696                                case HASHER_BALANCE:
1697                                        return 0;
1698                                case HASHER_BIDIRECTIONAL:
1699                                        trace->hasher = (fn_hasher) toeplitz_hash_packet;
1700                                        trace->hasher_data = calloc(1, sizeof(toeplitz_conf_t));
1701                                        toeplitz_init_config(trace->hasher_data, 1);
1702                                        return 0;
1703                                case HASHER_UNIDIRECTIONAL:
1704                                        trace->hasher = (fn_hasher) toeplitz_hash_packet;
1705                                        trace->hasher_data = calloc(1, sizeof(toeplitz_conf_t));
1706                                        toeplitz_init_config(trace->hasher_data, 0);
1707                                        return 0;
1708                                case HASHER_HARDWARE:
1709                                        return -1;
1710                        }
1711                        return -1;
1712                }
1713        } else {
1714                // The hardware is dealing with this yay
1715                trace->hasher_type = HASHER_HARDWARE;
1716        }
1717
1718        return 0;
1719}
1720
1721// Waits for all threads to finish
1722DLLEXPORT void trace_join(libtrace_t *libtrace) {
1723        int i;
1724
1725        /* Firstly wait for the perpkt threads to finish, since these are
1726         * user controlled */
1727        for (i=0; i< libtrace->perpkt_thread_count; i++) {
1728                //printf("Waiting to join with perpkt #%d\n", i);
1729                ASSERT_RET(pthread_join(libtrace->perpkt_threads[i].tid, NULL), == 0);
1730                //printf("Joined with perpkt #%d\n", i);
1731                // So we must do our best effort to empty the queue - so
1732                // the producer (or any other threads) don't block.
1733                libtrace_packet_t * packet;
1734                assert(libtrace->perpkt_threads[i].state == THREAD_FINISHED);
1735                while(libtrace_ringbuffer_try_read(&libtrace->perpkt_threads[i].rbuffer, (void **) &packet))
1736                        if (packet) // This could be NULL iff the perpkt finishes early
1737                                trace_destroy_packet(packet);
1738        }
1739
1740        /* Now the hasher */
1741        // XXX signal it to stop if it hasn't already we should never be in this situation!!
1742        if (trace_has_dedicated_hasher(libtrace)) {
1743                fprintf(stderr, "Waiting to join with the hasher\n");
1744                pthread_join(libtrace->hasher_thread.tid, NULL);
1745                fprintf(stderr, "Joined with the hasher\n");
1746                assert(libtrace->hasher_thread.state == THREAD_FINISHED);
1747        }
1748
1749        // Now that everything is finished nothing can be touching our
1750        // buffers so clean them up
1751        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1752                // Its possible 1 packet got added by the reducer (or 1 per any other thread) since we cleaned up
1753                // if they lost timeslice before-during a write
1754                libtrace_packet_t * packet;
1755                while(libtrace_ringbuffer_try_read(&libtrace->perpkt_threads[i].rbuffer, (void **) &packet))
1756                        trace_destroy_packet(packet);
1757                if (libtrace->hasher) {
1758                        assert(libtrace_ringbuffer_is_empty(&libtrace->perpkt_threads[i].rbuffer));
1759                        libtrace_ringbuffer_destroy(&libtrace->perpkt_threads[i].rbuffer);
1760                }
1761                // Cannot destroy vector yet, this happens with trace_destroy
1762        }
1763        // TODO consider perpkt threads marking trace as finished before join is called
1764        libtrace_change_state(libtrace, STATE_FINSHED, true);
1765       
1766        // Wait for the tick (keepalive) thread if it has been started
1767        if (libtrace->keepalive_thread.type == THREAD_KEEPALIVE) {
1768                libtrace_message_t msg = {0};
1769                msg.code = MESSAGE_DO_STOP;
1770                fprintf(stderr, "Waiting to join with the keepalive\n");
1771                trace_send_message_to_thread(libtrace, &libtrace->keepalive_thread, &msg);
1772                pthread_join(libtrace->keepalive_thread.tid, NULL);
1773                fprintf(stderr, "Joined with with the keepalive\n");
1774        }
1775       
1776        libtrace_change_state(libtrace, STATE_JOINED, true);
1777        print_memory_stats();
1778}
1779
1780DLLEXPORT int libtrace_thread_get_message_count(libtrace_t * libtrace)
1781{
1782        libtrace_thread_t * t = get_thread_descriptor(libtrace);
1783        assert(t);
1784        return libtrace_message_queue_count(&t->messages);
1785}
1786
1787DLLEXPORT int libtrace_thread_get_message(libtrace_t * libtrace, libtrace_message_t * message)
1788{
1789        libtrace_thread_t * t = get_thread_descriptor(libtrace);
1790        assert(t);
1791        return libtrace_message_queue_get(&t->messages, message);
1792}
1793
1794DLLEXPORT int libtrace_thread_try_get_message(libtrace_t * libtrace, libtrace_message_t * message)
1795{
1796        libtrace_thread_t * t = get_thread_descriptor(libtrace);
1797        assert(t);
1798        return libtrace_message_queue_try_get(&t->messages, message);
1799}
1800
1801/**
1802 * Return backlog indicator
1803 */
1804DLLEXPORT int trace_post_reduce(libtrace_t *libtrace)
1805{
1806        libtrace_message_t message = {0};
1807        message.code = MESSAGE_POST_REDUCE;
1808        message.sender = get_thread_descriptor(libtrace);
1809        return libtrace_message_queue_put(&libtrace->reducer_thread.messages, (void *) &message);
1810}
1811
1812/**
1813 * Return backlog indicator
1814 */
1815DLLEXPORT int trace_send_message_to_reducer(libtrace_t * libtrace, libtrace_message_t * message)
1816{
1817        //printf("Sending message code=%d to reducer\n", message->code);
1818        message->sender = get_thread_descriptor(libtrace);
1819        return libtrace_message_queue_put(&libtrace->reducer_thread.messages, message);
1820}
1821
1822/**
1823 *
1824 */
1825DLLEXPORT int trace_send_message_to_thread(libtrace_t * libtrace, libtrace_thread_t *t, libtrace_message_t * message)
1826{
1827        //printf("Sending message code=%d to reducer\n", message->code);
1828        message->sender = get_thread_descriptor(libtrace);
1829        return libtrace_message_queue_put(&t->messages, message);
1830}
1831
1832DLLEXPORT int trace_send_message_to_perpkts(libtrace_t * libtrace, libtrace_message_t * message)
1833{
1834        int i;
1835        message->sender = get_thread_descriptor(libtrace);
1836        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1837                libtrace_message_queue_put(&libtrace->perpkt_threads[i].messages, message);
1838        }
1839        //printf("Sending message code=%d to reducer\n", message->code);
1840        return 0;
1841}
1842
1843DLLEXPORT void libtrace_result_set_key(libtrace_result_t * result, uint64_t key) {
1844        result->key = key;
1845}
1846DLLEXPORT uint64_t libtrace_result_get_key(libtrace_result_t * result) {
1847        return result->key;
1848}
1849DLLEXPORT void libtrace_result_set_value(libtrace_result_t * result, void * value) {
1850        result->value = value;
1851}
1852DLLEXPORT void* libtrace_result_get_value(libtrace_result_t * result) {
1853        return result->value;
1854}
1855DLLEXPORT void libtrace_result_set_key_value(libtrace_result_t * result, uint64_t key, void * value) {
1856        result->key = key;
1857        result->value = value;
1858}
1859DLLEXPORT void trace_destroy_result(libtrace_result_t ** result) {
1860        free(*result);
1861        result = NULL;
1862        // TODO automatically back with a free list!!
1863}
1864
1865DLLEXPORT void * trace_get_global(libtrace_t *trace)
1866{
1867        return trace->global_blob;
1868}
1869
1870DLLEXPORT void * trace_set_global(libtrace_t *trace, void * data)
1871{
1872        if (trace->global_blob && trace->global_blob != data) {
1873                void * ret = trace->global_blob;
1874                trace->global_blob = data;
1875                return ret;
1876        } else {
1877                trace->global_blob = data;
1878                return NULL;
1879        }
1880}
1881
1882DLLEXPORT void * trace_get_tls(libtrace_thread_t *t)
1883{
1884        return t->user_data;
1885}
1886
1887DLLEXPORT void * trace_set_tls(libtrace_thread_t *t, void * data)
1888{
1889        if(t->user_data && t->user_data != data) {
1890                void *ret = t->user_data;
1891                t->user_data = data;
1892                return ret;
1893        } else {
1894                t->user_data = data;
1895                return NULL;
1896        }
1897}
1898
1899/**
1900 * Publish to the reduce queue, return
1901 */
1902DLLEXPORT void trace_publish_result(libtrace_t *libtrace, uint64_t key, void * value) {
1903        libtrace_result_t res;
1904        res.is_packet = 0;
1905        // Who am I???
1906        int this_thread = get_thread_table_num(libtrace); // Could be worth caching ... ?
1907        libtrace_thread_t * t = &libtrace->perpkt_threads[this_thread];
1908        // Now put it into my table
1909        UNUSED static __thread int count = 0;
1910
1911
1912        libtrace_result_set_key_value(&res, key, value);
1913        /*
1914        if (count == 1)
1915                printf("My vector size is %d\n", libtrace_vector_get_size(&t->vector));
1916        count = (count+1) %1000;
1917        libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1918        */
1919        /*if (count == 1)
1920                printf("My vector size is %d\n", libtrace_deque_get_size(&t->deque));
1921        count = (count+1)%1000;*/
1922        if (libtrace->reducer_flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED)) {
1923                if (libtrace_deque_get_size(&t->deque) >= 800) {
1924                        trace_post_reduce(libtrace);
1925                }
1926                //while (libtrace_deque_get_size(&t->deque) >= 1000)
1927                //      sched_yield();
1928                libtrace_deque_push_back(&t->deque, &res); // Automatically locking for us :)
1929        } else {
1930                //while (libtrace_vector_get_size(&t->vector) >= 1000)
1931                //      sched_yield();
1932
1933                if (libtrace_vector_get_size(&t->vector) >= 800) {
1934                        trace_post_reduce(libtrace);
1935                }
1936                libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1937        }
1938}
1939
1940DLLEXPORT void trace_publish_packet(libtrace_t *libtrace, libtrace_packet_t *packet) {
1941        libtrace_result_t res;
1942        // Who am I???
1943        int this_thread = get_thread_table_num(libtrace); // Could be worth caching ... ?
1944        libtrace_thread_t * t = &libtrace->perpkt_threads[this_thread];
1945        // Now put it into my table
1946        UNUSED static __thread int count = 0;
1947
1948        res.is_packet = 1;
1949        libtrace_result_set_key_value(&res, trace_packet_get_order(packet), packet);
1950        /*
1951        if (count == 1)
1952                printf("My vector size is %d\n", libtrace_vector_get_size(&t->vector));
1953        count = (count+1) %1000;
1954        libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1955        */
1956        /*if (count == 1)
1957                printf("My vector size is %d\n", libtrace_deque_get_size(&t->deque));
1958        count = (count+1)%1000;*/
1959        if (libtrace->reducer_flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED)) {
1960                if (libtrace_deque_get_size(&t->deque) >= 800) {
1961                        trace_post_reduce(libtrace);
1962                }
1963                //while (libtrace_deque_get_size(&t->deque) >= 1000)
1964                //      sched_yield();
1965                libtrace_deque_push_back(&t->deque, &res); // Automatically locking for us :)
1966        } else {
1967                //while (libtrace_vector_get_size(&t->vector) >= 1000)
1968                //      sched_yield();
1969
1970                if (libtrace_vector_get_size(&t->vector) >= 800) {
1971                        trace_post_reduce(libtrace);
1972                }
1973                libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1974        }
1975}
1976
1977
1978static int compareres(const void* p1, const void* p2)
1979{
1980        if (libtrace_result_get_key((libtrace_result_t *) p1) < libtrace_result_get_key((libtrace_result_t *) p2))
1981                return -1;
1982        if (libtrace_result_get_key((libtrace_result_t *) p1) == libtrace_result_get_key((libtrace_result_t *) p2))
1983                return 0;
1984        else
1985                return 1;
1986}
1987
1988DLLEXPORT int trace_get_results(libtrace_t *libtrace, libtrace_vector_t * results) {
1989        int i;
1990        int flags = libtrace->reducer_flags; // Hint these aren't a changing
1991
1992        libtrace_vector_empty(results);
1993
1994        /* Here we assume queues are in order ascending order and they want
1995         * the smallest result first. If they are not in order the results
1996         * may not be in order.
1997         */
1998        if (flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED)) {
1999                int live_count = 0;
2000                bool live[libtrace->perpkt_thread_count]; // Set if a trace is alive
2001                uint64_t key[libtrace->perpkt_thread_count]; // Cached keys
2002                uint64_t min_key = UINT64_MAX; // XXX use max int here stdlimit.h?
2003                int min_queue = -1;
2004
2005                /* Loop through check all are alive (have data) and find the smallest */
2006                for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
2007                        libtrace_queue_t *v = &libtrace->perpkt_threads[i].deque;
2008                        if (libtrace_deque_get_size(v) != 0) {
2009                                libtrace_result_t r;
2010                                libtrace_deque_peek_front(v, (void *) &r);
2011                                live_count++;
2012                                live[i] = 1;
2013                                key[i] = libtrace_result_get_key(&r);
2014                                if (i==0 || min_key > key[i]) {
2015                                        min_key = key[i];
2016                                        min_queue = i;
2017                                }
2018                        } else {
2019                                live[i] = 0;
2020                        }
2021                }
2022
2023                /* Now remove the smallest and loop - special case if all threads have joined we always flush whats left */
2024                while ((live_count == libtrace->perpkt_thread_count) || (live_count &&
2025                                ((flags & REDUCE_SEQUENTIAL && min_key == libtrace->expected_key) ||
2026                                libtrace->state == STATE_JOINED))) {
2027                        /* Get the minimum queue and then do stuff */
2028                        libtrace_result_t r;
2029
2030                        assert (libtrace_deque_pop_front(&libtrace->perpkt_threads[min_queue].deque, (void *) &r) == 1);
2031                        libtrace_vector_push_back(results, &r);
2032
2033                        // We expect the key we read +1 now
2034                        libtrace->expected_key = key[min_queue] + 1;
2035
2036                        // Now update the one we just removed
2037                        if (libtrace_deque_get_size(&libtrace->perpkt_threads[min_queue].deque) )
2038                        {
2039                                libtrace_deque_peek_front(&libtrace->perpkt_threads[min_queue].deque, (void *) &r);
2040                                key[min_queue] = libtrace_result_get_key(&r);
2041                                if (key[min_queue] <= min_key) {
2042                                        // We are still the smallest, might be out of order though :(
2043                                        min_key = key[min_queue];
2044                                } else {
2045                                        min_key = key[min_queue]; // Update our minimum
2046                                        // Check all find the smallest again - all are alive
2047                                        for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
2048                                                if (live[i] && min_key > key[i]) {
2049                                                        min_key = key[i];
2050                                                        min_queue = i;
2051                                                }
2052                                        }
2053                                }
2054                        } else {
2055                                live[min_queue] = 0;
2056                                live_count--;
2057                                min_key = UINT64_MAX; // Update our minimum
2058                                // Check all find the smallest again - all are alive
2059                                for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
2060                                        // Still not 100% TODO (what if order is wrong or not increasing)
2061                                        if (live[i] && min_key >= key[i]) {
2062                                                min_key = key[i];
2063                                                min_queue = i;
2064                                        }
2065                                }
2066                        }
2067                }
2068        } else { // Queues are not in order - return all results in the queue
2069                for (i = 0; i < libtrace->perpkt_thread_count; i++) {
2070                        libtrace_vector_append(results, &libtrace->perpkt_threads[i].vector);
2071                }
2072                if (flags & REDUCE_SORT) {
2073                        qsort(results->elements, results->size, results->element_size, &compareres);
2074                }
2075        }
2076        return libtrace_vector_get_size(results);
2077}
2078
2079DLLEXPORT uint64_t trace_packet_get_order(libtrace_packet_t * packet) {
2080        return packet->order;
2081}
2082
2083DLLEXPORT uint64_t trace_packet_get_hash(libtrace_packet_t * packet) {
2084        return packet->hash;
2085}
2086
2087DLLEXPORT void trace_packet_set_order(libtrace_packet_t * packet, uint64_t order) {
2088        packet->order = order;
2089}
2090
2091DLLEXPORT void trace_packet_set_hash(libtrace_packet_t * packet, uint64_t hash) {
2092        packet->hash = hash;
2093}
2094
2095DLLEXPORT int trace_finished(libtrace_t * libtrace) {
2096        // TODO I don't like using this so much, we could use state!!!
2097        return !(libtrace->perpkt_thread_states[THREAD_RUNNING] || libtrace->perpkt_thread_states[THREAD_FINISHING]);
2098}
2099
2100DLLEXPORT int trace_parallel_config(libtrace_t *libtrace, trace_parallel_option_t option, void *value)
2101{
2102        UNUSED int ret = -1;
2103        switch (option) {
2104                case TRACE_OPTION_TICK_INTERVAL:
2105                        libtrace->tick_interval = *((int *) value);
2106                        return 1;
2107                case TRACE_OPTION_SET_HASHER:
2108                        return trace_set_hasher(libtrace, (enum hasher_types) *((int *) value), NULL, NULL);
2109                case TRACE_OPTION_SET_PERPKT_BUFFER_SIZE:
2110                        libtrace->perpkt_buffer_size = *((int *) value);
2111                        return 1;
2112                case TRACE_OPTION_SET_PACKET_FREELIST_SIZE:
2113                        libtrace->packet_freelist_size = *((int *) value);
2114                        return 1;
2115                case TRACE_OPTION_SET_PERPKT_THREAD_COUNT:
2116                        libtrace->perpkt_thread_count = *((int *) value);
2117                        return 1;
2118                case TRACE_DROP_OUT_OF_ORDER:
2119                        if (*((int *) value))
2120                                libtrace->reducer_flags |= REDUCE_DROP_OOO;
2121                        else
2122                                libtrace->reducer_flags &= ~REDUCE_DROP_OOO;
2123                        return 1;
2124                case TRACE_OPTION_SEQUENTIAL:
2125                        if (*((int *) value))
2126                                libtrace->reducer_flags |= REDUCE_SEQUENTIAL;
2127                        else
2128                                libtrace->reducer_flags &= ~REDUCE_SEQUENTIAL;
2129                        return 1;
2130                case TRACE_OPTION_ORDERED:
2131                        if (*((int *) value))
2132                                libtrace->reducer_flags |= REDUCE_ORDERED;
2133                        else
2134                                libtrace->reducer_flags &= ~REDUCE_ORDERED;
2135                        return 1;
2136                case TRACE_OPTION_TRACETIME:
2137                        if(*((int *) value))
2138                                libtrace->tracetime = 1;
2139                        else
2140                                libtrace->tracetime = 0;
2141                        return 0;
2142        }
2143        return 0;
2144}
2145
2146DLLEXPORT libtrace_packet_t* trace_result_packet(libtrace_t * libtrace, libtrace_packet_t * packet) {
2147        libtrace_packet_t* result;
2148        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &result, 1, 1);
2149        assert(result);
2150        swap_packets(result, packet); // Move the current packet into our copy
2151        return result;
2152}
2153
2154DLLEXPORT void trace_free_result_packet(libtrace_t *libtrace, libtrace_packet_t *packet) {
2155        // Try write back the packet
2156        assert(packet);
2157        // Always release any resources this might be holding such as a slot in a ringbuffer
2158        trace_fin_packet(packet);
2159        libtrace_ocache_free(&libtrace->packet_freelist, (void **) &packet, 1, 1);
2160}
2161
2162DLLEXPORT libtrace_info_t *trace_get_information(libtrace_t * libtrace) {
2163        if (libtrace->format)
2164                return &libtrace->format->info;
2165        else
2166                return NULL;
2167}
Note: See TracBrowser for help on using the repository browser.