source: lib/trace_parallel.c @ be3f75b

4.0.1-hotfixescachetimestampsdevelopdpdk-ndagetsilivelibtrace4ndag_formatpfringrc-4.0.1rc-4.0.2rc-4.0.3rc-4.0.4ringdecrementfixringperformanceringtimestampfixes
Last change on this file since be3f75b was be3f75b, checked in by Richard Sanger <rsangerarj@…>, 7 years ago

Fixs statistic counters for parallel traces

  • Property mode set to 100644
File size: 74.0 KB
Line 
1/*
2 * This file is part of libtrace
3 *
4 * Copyright (c) 2007,2008,2009,2010 The University of Waikato, Hamilton,
5 * New Zealand.
6 *
7 * All rights reserved.
8 *
9 * This code has been developed by the University of Waikato WAND
10 * research group. For further information please see http://www.wand.net.nz/
11 *
12 * libtrace is free software; you can redistribute it and/or modify
13 * it under the terms of the GNU General Public License as published by
14 * the Free Software Foundation; either version 2 of the License, or
15 * (at your option) any later version.
16 *
17 * libtrace is distributed in the hope that it will be useful,
18 * but WITHOUT ANY WARRANTY; without even the implied warranty of
19 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
20 * GNU General Public License for more details.
21 *
22 * You should have received a copy of the GNU General Public License
23 * along with libtrace; if not, write to the Free Software
24 * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
25 *
26 * $Id$
27 *
28 */
29
30
31#define _GNU_SOURCE
32#include "common.h"
33#include "config.h"
34#include <assert.h>
35#include <errno.h>
36#include <fcntl.h>
37#include <stdio.h>
38#include <stdlib.h>
39#include <string.h>
40#include <sys/stat.h>
41#include <sys/types.h>
42#ifndef WIN32
43#include <sys/socket.h>
44#endif
45#include <stdarg.h>
46#include <sys/param.h>
47
48#ifdef HAVE_LIMITS_H
49#  include <limits.h>
50#endif
51
52#ifdef HAVE_SYS_LIMITS_H
53#  include <sys/limits.h>
54#endif
55
56#ifdef HAVE_NET_IF_ARP_H
57#  include <net/if_arp.h>
58#endif
59
60#ifdef HAVE_NET_IF_H
61#  include <net/if.h>
62#endif
63
64#ifdef HAVE_NETINET_IN_H
65#  include <netinet/in.h>
66#endif
67
68#ifdef HAVE_NET_ETHERNET_H
69#  include <net/ethernet.h>
70#endif
71
72#ifdef HAVE_NETINET_IF_ETHER_H
73#  include <netinet/if_ether.h>
74#endif
75
76#include <time.h>
77#ifdef WIN32
78#include <sys/timeb.h>
79#endif
80
81#include "libtrace.h"
82#include "libtrace_int.h"
83
84#ifdef HAVE_PCAP_BPF_H
85#  include <pcap-bpf.h>
86#else
87#  ifdef HAVE_NET_BPF_H
88#    include <net/bpf.h>
89#  endif
90#endif
91
92
93#include "libtrace_int.h"
94#include "format_helper.h"
95#include "rt_protocol.h"
96#include "hash_toeplitz.h"
97
98#include <pthread.h>
99#include <signal.h>
100#include <unistd.h>
101
102
103#define VERBOSE_DEBBUGING 0
104
105
106static size_t trace_pread_packet(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packets[], size_t nb_packets);
107
108extern int libtrace_parallel;
109
110struct multithreading_stats {
111        uint64_t full_queue_hits;
112        uint64_t wait_for_fill_complete_hits;
113} contention_stats[1024];
114
115struct mem_stats {
116        struct memfail {
117           uint64_t cache_hit;
118           uint64_t ring_hit;
119           uint64_t miss;
120           uint64_t recycled;
121        } readbulk, read, write, writebulk;
122};
123
124// Grrr gcc wants this spelt out
125__thread struct mem_stats mem_hits = {{0},{0},{0},{0}};
126
127static void print_memory_stats() {
128        char t_name[50];
129        uint64_t total;
130        pthread_getname_np(pthread_self(), t_name, sizeof(t_name));
131
132        fprintf(stderr, "Thread ID#%d - %s\n", (int) pthread_self(), t_name);
133
134        total = mem_hits.read.cache_hit + mem_hits.read.ring_hit + mem_hits.read.miss;
135        if (total) {
136                fprintf(stderr, "\tRead:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
137                                mem_hits.read.cache_hit, mem_hits.read.ring_hit, mem_hits.read.miss, mem_hits.read.recycled);
138                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
139                                total, (double) mem_hits.read.miss / (double) total * 100.0);
140        }
141
142        total = mem_hits.readbulk.cache_hit + mem_hits.readbulk.ring_hit + mem_hits.readbulk.miss;
143        if (total) {
144                fprintf(stderr, "\tReadbulk:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
145                                mem_hits.readbulk.cache_hit, mem_hits.readbulk.ring_hit, mem_hits.readbulk.miss, mem_hits.readbulk.recycled);
146
147
148                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
149                                total, (double) mem_hits.readbulk.miss / (double) total * 100.0);
150        }
151
152        total = mem_hits.write.cache_hit + mem_hits.write.ring_hit + mem_hits.write.miss;
153        if (total) {
154                fprintf(stderr, "\tWrite:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
155                                mem_hits.write.cache_hit, mem_hits.write.ring_hit, mem_hits.write.miss, mem_hits.write.recycled);
156
157                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
158                                total, (double) mem_hits.write.miss / (double) total * 100.0);
159        }
160
161        total = mem_hits.writebulk.cache_hit + mem_hits.writebulk.ring_hit + mem_hits.writebulk.miss;
162        if (total) {
163                fprintf(stderr, "\tWritebulk:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
164                                mem_hits.writebulk.cache_hit, mem_hits.writebulk.ring_hit, mem_hits.writebulk.miss, mem_hits.writebulk.recycled);
165
166                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
167                                total, (double) mem_hits.writebulk.miss / (double) total * 100.0);
168        }
169
170}
171
172/**
173 * True if the trace has dedicated hasher thread otherwise false,
174 * to be used after the trace is running
175 */
176static inline int trace_has_dedicated_hasher(libtrace_t * libtrace)
177{
178        assert(libtrace->state != STATE_NEW);
179        return libtrace->hasher_thread.type == THREAD_HASHER;
180}
181
182/**
183 * Changes a thread's state and broadcasts the condition variable. This
184 * should always be done when the lock is held.
185 *
186 * Additionally for perpkt threads the state counts are updated.
187 *
188 * @param trace A pointer to the trace
189 * @param t A pointer to the thread to modify
190 * @param new_state The new state of the thread
191 * @param need_lock Set to true if libtrace_lock is not held, otherwise
192 *        false in the case the lock is currently held by this thread.
193 */
194static inline void thread_change_state(libtrace_t *trace, libtrace_thread_t *t,
195        const enum thread_states new_state, const bool need_lock)
196{
197        enum thread_states prev_state;
198        if (need_lock)
199                pthread_mutex_lock(&trace->libtrace_lock);
200        prev_state = t->state;
201        t->state = new_state;
202        if (t->type == THREAD_PERPKT) {
203                --trace->perpkt_thread_states[prev_state];
204                ++trace->perpkt_thread_states[new_state];
205        }
206
207#if VERBOSE_DEBBUGING
208        fprintf(stderr, "Thread %d State changed from %d to %d\n", t->tid,
209                t->state, prev_state);
210#endif
211        if (need_lock)
212                pthread_mutex_unlock(&trace->libtrace_lock);
213        pthread_cond_broadcast(&trace->perpkt_cond);
214}
215
216/**
217 * Changes the overall traces state and signals the condition.
218 *
219 * @param trace A pointer to the trace
220 * @param new_state The new state of the trace
221 * @param need_lock Set to true if libtrace_lock is not held, otherwise
222 *        false in the case the lock is currently held by this thread.
223 */
224static inline void libtrace_change_state(libtrace_t *trace, 
225        const enum trace_state new_state, const bool need_lock)
226{
227        UNUSED enum trace_state prev_state;
228        if (need_lock)
229                pthread_mutex_lock(&trace->libtrace_lock);
230        prev_state = trace->state;
231        trace->state = new_state;
232#if VERBOSE_DEBBUGING
233        fprintf(stderr, "Trace(%s) state changed from %s to %s\n",
234                trace->uridata, get_trace_state_name(trace->state),
235                get_trace_state_name(prev_state));
236#endif
237        if (need_lock)
238                pthread_mutex_unlock(&trace->libtrace_lock);
239        pthread_cond_broadcast(&trace->perpkt_cond);
240}
241
242/**
243 * @return True if the format supports parallel threads.
244 */
245static inline bool trace_supports_parallel(libtrace_t *trace)
246{
247        assert(trace);
248        assert(trace->format);
249        if (trace->format->pstart_input)
250                return true;
251        else
252                return false;
253}
254
255DLLEXPORT void print_contention_stats(libtrace_t *libtrace) {
256        int i;
257        struct multithreading_stats totals = {0};
258        for (i = 0; i < libtrace->perpkt_thread_count ; i++) {
259                fprintf(stderr, "\nStats for perpkt thread#%d\n", i);
260                fprintf(stderr, "\tfull_queue_hits: %"PRIu64"\n", contention_stats[i].full_queue_hits);
261                totals.full_queue_hits += contention_stats[i].full_queue_hits;
262                fprintf(stderr, "\twait_for_fill_complete_hits: %"PRIu64"\n", contention_stats[i].wait_for_fill_complete_hits);
263                totals.wait_for_fill_complete_hits += contention_stats[i].wait_for_fill_complete_hits;
264        }
265        fprintf(stderr, "\nTotals for perpkt threads\n");
266        fprintf(stderr, "\tfull_queue_hits: %"PRIu64"\n", totals.full_queue_hits);
267        fprintf(stderr, "\twait_for_fill_complete_hits: %"PRIu64"\n", totals.wait_for_fill_complete_hits);
268
269        return;
270}
271
272void libtrace_zero_thread(libtrace_thread_t * t) {
273        t->trace = NULL;
274        t->ret = NULL;
275        t->type = THREAD_EMPTY;
276        libtrace_zero_ringbuffer(&t->rbuffer);
277        libtrace_zero_vector(&t->vector);
278        libtrace_zero_deque(&t->deque);
279        t->recorded_first = false;
280        t->perpkt_num = -1;
281        t->accepted_packets = 0;
282}
283
284// Ints are aligned int is atomic so safe to read and write at same time
285// However write must be locked, read doesn't (We never try read before written to table)
286libtrace_thread_t * get_thread_table(libtrace_t *libtrace) {
287        int i = 0;
288        pthread_t tid = pthread_self();
289
290        for (;i<libtrace->perpkt_thread_count ;++i) {
291                if (pthread_equal(tid, libtrace->perpkt_threads[i].tid))
292                        return &libtrace->perpkt_threads[i];
293        }
294        return NULL;
295}
296
297int get_thread_table_num(libtrace_t *libtrace) {
298        int i = 0;
299        pthread_t tid = pthread_self();
300        for (;i<libtrace->perpkt_thread_count; ++i) {
301                if (pthread_equal(tid, libtrace->perpkt_threads[i].tid))
302                        return i;
303        }
304        return -1;
305}
306
307static libtrace_thread_t * get_thread_descriptor(libtrace_t *libtrace) {
308        libtrace_thread_t *ret;
309        if (!(ret = get_thread_table(libtrace))) {
310                pthread_t tid = pthread_self();
311                // Check if we are reducer or something else
312                if (pthread_equal(tid, libtrace->reducer_thread.tid))
313                        ret = &libtrace->reducer_thread;
314                else if (pthread_equal(tid, libtrace->hasher_thread.tid))
315                        ret = &libtrace->hasher_thread;
316                else
317                        ret = NULL;
318        }
319        return ret;
320}
321
322/** Used below in trace_make_results_packets_safe*/
323static void do_copy_result_packet(void *data)
324{
325        libtrace_result_t *res = (libtrace_result_t *)data;
326        if (res->is_packet) {
327                // Duplicate the packet in standard malloc'd memory and free the
328                // original
329                libtrace_packet_t *oldpkt, *dup;
330                oldpkt = (libtrace_packet_t *) res->value;
331                dup = trace_copy_packet(oldpkt);
332                res->value = (void *)dup;
333                trace_destroy_packet(oldpkt);
334                fprintf(stderr, "Made a packet safe!!\n");
335        }
336}
337
338/**
339 * Make a safe replacement copy of any result packets that are owned
340 * by the format in the result queue. Used when pausing traces.
341 */ 
342static void trace_make_results_packets_safe(libtrace_t *trace) {
343        libtrace_thread_t *t = get_thread_descriptor(trace);
344        if (trace->reducer_flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED))
345                libtrace_deque_apply_function(&t->deque, &do_copy_result_packet);
346        else 
347                libtrace_vector_apply_function(&t->vector, &do_copy_result_packet);
348}
349
350/**
351 * Holds threads in a paused state, until released by broadcasting
352 * the condition mutex.
353 */
354static void trace_thread_pause(libtrace_t *trace, libtrace_thread_t *t) {
355        trace_make_results_packets_safe(trace);
356        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
357        thread_change_state(trace, t, THREAD_PAUSED, false);
358        while (trace->state == STATE_PAUSED || trace->state == STATE_PAUSING) {
359                ASSERT_RET(pthread_cond_wait(&trace->perpkt_cond, &trace->libtrace_lock), == 0);
360        }
361        thread_change_state(trace, t, THREAD_RUNNING, false);
362        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
363}
364
365#define PACKETQUEUES 10
366
367/**
368 * The is the entry point for our packet processing threads.
369 */
370static void* perpkt_threads_entry(void *data) {
371        libtrace_t *trace = (libtrace_t *)data;
372        libtrace_thread_t * t;
373        libtrace_message_t message = {0};
374        libtrace_packet_t *packets[PACKETQUEUES] = {NULL};
375        size_t nb_packets;
376        size_t i;
377
378        // Force this thread to wait until trace_pstart has been completed
379        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
380        t = get_thread_table(trace);
381        assert(t);
382        //printf("Yay Started perpkt thread #%d\n", (int) get_thread_table_num(trace));
383        if (trace->format->pregister_thread) {
384                trace->format->pregister_thread(trace, t, !trace_has_dedicated_hasher(trace));
385        }
386        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
387
388        /* ~~~~~~~~~~~ Setup complete now we loop ~~~~~~~~~~~~~~~ */
389        // Send a message to say we've started
390
391        message.code = MESSAGE_STARTED;
392        message.sender = t;
393
394        // Let the per_packet function know we have started
395        (*trace->per_pkt)(trace, NULL, &message, t);
396
397
398        for (;;) {
399
400                if (libtrace_message_queue_try_get(&t->messages, &message) != LIBTRACE_MQ_FAILED) {
401                        switch (message.code) {
402                                case MESSAGE_DO_PAUSE: // This is internal
403                                        // Send message to say we are pausing, TODO consider sender
404                                        message.code = MESSAGE_PAUSING;
405                                        (*trace->per_pkt)(trace, NULL, &message, t);
406                                        // If a hasher thread is running empty input queues so we don't loose data
407                                        if (trace_has_dedicated_hasher(trace)) {
408                                                fprintf(stderr, "Trace is using a hasher thread emptying queues\n");
409                                                // The hasher has stopped by this point, so the queue shouldn't be filling
410                                                while(!libtrace_ringbuffer_is_empty(&t->rbuffer)) {
411                                                        nb_packets = trace_pread_packet(trace, t, packets, 1);
412                                                        if (nb_packets == 1) {
413                                                                if (packets[0]->error > 0)
414                                                                        packets[0] = (*trace->per_pkt)(trace, packets[0], NULL, t);
415                                                        } else {
416                                                                fprintf(stderr, "Psize=%d empty=%d this is probably EOF or message waiting, but if this continues we have a bug!!!\n", packets[0]->error, libtrace_ringbuffer_is_empty(&t->rbuffer));
417                                                        }
418                                                }
419                                        }
420                                        // Send a paused message as a final chance to memory copy any packets
421                                        message.code = MESSAGE_PAUSED;
422                                        (*trace->per_pkt)(trace, NULL, &message, t);
423                                        // Now we do the actual pause, this returns when we are done
424                                        trace_thread_pause(trace, t);
425                                        // Check for new messages as soon as we return
426                                        continue;
427                                case MESSAGE_DO_STOP: // This is internal
428                                        goto stop;
429                        }
430                        (*trace->per_pkt)(trace, NULL, &message, t);
431                        continue;
432                }
433
434                if (trace->perpkt_thread_count == 1) {
435                        if (!packets[0]) {
436                                libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packets[0], 1, 1);
437                        }
438                        assert(packets[0]);
439                        packets[0]->error = trace_read_packet(trace, packets[0]);
440                        nb_packets = 1;
441                } else {
442                        nb_packets = trace_pread_packet(trace, t, packets, PACKETQUEUES);
443                }
444                // Loop through the packets we just read
445                for (i = 0; i < nb_packets; ++i) {
446                       
447                        if (packets[i]->error > 0) {
448                                packets[i] = (*trace->per_pkt)(trace, packets[i], NULL, t);
449                        } else if (packets[i]->error != -2) {
450                                // An error this should be the last packet we read
451                                size_t z;
452                                for (z = i ; z < nb_packets; ++z)
453                                        fprintf(stderr, "i=%d nb_packet=%d err=%d\n", (int) z, (int) nb_packets, packets[i]->error);
454                                assert (i == nb_packets-1);
455                                goto stop;
456                        }
457                        // -2 is a message its not worth checking now just finish this lot and we'll check
458                        // when we loop next
459                }
460        }
461
462
463stop:
464        /* ~~~~~~~~~~~~~~ Trace is finished do tear down ~~~~~~~~~~~~~~~~~~~~~ */
465        // Let the per_packet function know we have stopped
466        message.code = MESSAGE_STOPPED;
467        message.sender = NULL;
468        message.additional.uint64 = 0;
469        (*trace->per_pkt)(trace, NULL, &message, t);
470
471        // Free any remaining packets
472        for (i = 0; i < PACKETQUEUES; i++) {
473                if (packets[i]) {
474                        libtrace_ocache_free(&trace->packet_freelist, (void **) &packets[i], 1, 1);
475                        packets[i] = NULL;
476                }
477        }
478
479       
480        thread_change_state(trace, t, THREAD_FINISHED, true);
481
482        // Notify only after we've defiantly set the state to finished
483        message.code = MESSAGE_PERPKT_ENDED;
484        message.additional.uint64 = 0;
485        trace_send_message_to_reducer(trace, &message);
486
487        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
488        if (trace->format->punregister_thread) {
489                trace->format->punregister_thread(trace, t);
490        }
491        print_memory_stats();
492
493        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
494
495        pthread_exit(NULL);
496};
497
498/**
499 * The start point for our single threaded hasher thread, this will read
500 * and hash a packet from a data source and queue it against the correct
501 * core to process it.
502 */
503static void* hasher_start(void *data) {
504        libtrace_t *trace = (libtrace_t *)data;
505        libtrace_thread_t * t;
506        int i;
507        libtrace_packet_t * packet;
508        libtrace_message_t message = {0};
509
510        assert(trace_has_dedicated_hasher(trace));
511        /* Wait until all threads are started and objects are initialised (ring buffers) */
512        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
513        t = &trace->hasher_thread;
514        assert(t->type == THREAD_HASHER && pthread_equal(pthread_self(), t->tid));
515        printf("Hasher Thread started\n");
516        if (trace->format->pregister_thread) {
517                trace->format->pregister_thread(trace, t, true);
518        }
519        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
520        int pkt_skipped = 0;
521        /* Read all packets in then hash and queue against the correct thread */
522        while (1) {
523                int thread;
524                if (!pkt_skipped)
525                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packet, 1, 1);
526                assert(packet);
527
528                if (libtrace_halt) // Signal to die has been sent - TODO
529                        break;
530
531                // Check for messages that we expect MESSAGE_DO_PAUSE, (internal messages only)
532                if (libtrace_message_queue_try_get(&t->messages, &message) != LIBTRACE_MQ_FAILED) {
533                        switch(message.code) {
534                                case MESSAGE_DO_PAUSE:
535                                        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
536                                        thread_change_state(trace, t, THREAD_PAUSED, false);
537                                        pthread_cond_broadcast(&trace->perpkt_cond);
538                                        while (trace->state == STATE_PAUSED || trace->state == STATE_PAUSING) {
539                                                ASSERT_RET(pthread_cond_wait(&trace->perpkt_cond, &trace->libtrace_lock), == 0);
540                                        }
541                                        thread_change_state(trace, t, THREAD_RUNNING, false);
542                                        pthread_cond_broadcast(&trace->perpkt_cond);
543                                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
544                                        break;
545                                case MESSAGE_DO_STOP:
546                                        // Stop called after pause
547                                        assert(trace->started == false);
548                                        assert(trace->state == STATE_FINSHED);
549                                default:
550                                        fprintf(stderr, "Hasher thread didn't expect message code=%d\n", message.code);
551                        }
552                        pkt_skipped = 1;
553                        continue;
554                }
555
556                if ((packet->error = trace_read_packet(trace, packet)) <1 /*&& psize != LIBTRACE_MESSAGE_WAITING*/) {
557                        break; /* We are EOF or error'd either way we stop  */
558                }
559
560                /* We are guaranteed to have a hash function i.e. != NULL */
561                trace_packet_set_hash(packet, (*trace->hasher)(packet, trace->hasher_data));
562                thread = trace_packet_get_hash(packet) % trace->perpkt_thread_count;
563                /* Blocking write to the correct queue - I'm the only writer */
564                if (trace->perpkt_threads[thread].state != THREAD_FINISHED) {
565                        libtrace_ringbuffer_write(&trace->perpkt_threads[thread].rbuffer, packet);
566                        pkt_skipped = 0;
567                } else {
568                        pkt_skipped = 1; // Reuse that packet no one read it
569                }
570        }
571
572        /* Broadcast our last failed read to all threads */
573        for (i = 0; i < trace->perpkt_thread_count; i++) {
574                libtrace_packet_t * bcast;
575                printf("Broadcasting error/EOF now the trace is over\n");
576                if (i == trace->perpkt_thread_count - 1) {
577                        bcast = packet;
578                } else {
579                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &bcast, 1, 1);
580                        bcast->error = packet->error;
581                }
582                ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
583                if (trace->perpkt_threads[i].state != THREAD_FINISHED) {
584                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
585                        // Unlock early otherwise we could deadlock
586                        libtrace_ringbuffer_write(&trace->perpkt_threads[i].rbuffer, bcast);
587                } else {
588                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
589                }
590        }
591
592        // We don't need to free the packet
593        thread_change_state(trace, t, THREAD_FINISHED, true);
594
595        // Notify only after we've defiantly set the state to finished
596        message.code = MESSAGE_PERPKT_ENDED;
597        message.additional.uint64 = 0;
598        trace_send_message_to_reducer(trace, &message);
599        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
600        if (trace->format->punregister_thread) {
601                trace->format->punregister_thread(trace, t);
602        }
603        print_memory_stats();
604        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
605
606        // TODO remove from TTABLE t sometime
607        pthread_exit(NULL);
608};
609
610/**
611 * Moves src into dest(Complete copy) and copies the memory buffer and
612 * its flags from dest into src ready for reuse without needing extra mallocs.
613 */
614static inline void swap_packets(libtrace_packet_t *dest, libtrace_packet_t *src) {
615        // Save the passed in buffer status
616        assert(dest->trace == NULL); // Must be a empty packet
617        void * temp_buf = dest->buffer;
618        buf_control_t temp_buf_control = dest->buf_control;
619        // Completely copy StoredPacket into packet
620        memcpy(dest, src, sizeof(libtrace_packet_t));
621        // Set the buffer settings on the returned packet
622        src->buffer = temp_buf;
623        src->buf_control = temp_buf_control;
624        src->trace = NULL;
625}
626
627/**
628 * @brief Move NULLs to the end of an array.
629 * @param values
630 * @param len
631 * @return The location the first NULL, aka the number of non NULL elements
632 */
633static inline size_t move_nulls_back(void *arr[], size_t len) {
634        size_t fr=0, en = len-1;
635        // Shift all non NULL elements to the front of the array, and NULLs to the
636        // end, traverses every element at most once
637        for (;fr < en; ++fr) {
638                if (arr[fr] == NULL) {
639                        for (;en > fr; --en) {
640                                if(arr[en]) {
641                                        arr[fr] = arr[en];
642                                        arr[en] = NULL;
643                                        break;
644                                }
645                        }
646                }
647        }
648        // This is the index of the first NULL
649        en = MIN(fr, en);
650        // Or the end of the array if this special case
651        if (arr[en])
652                en++;
653        return en;
654}
655
656/** returns the number of packets successfully allocated in the final array
657 these will all be at the front of the array */
658inline static size_t fill_array_with_empty_packets(libtrace_t *libtrace, libtrace_packet_t *packets[], size_t nb_packets) {
659        size_t nb;
660        nb = move_nulls_back((void **) packets, nb_packets);
661        mem_hits.read.recycled += nb;
662        nb += libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &packets[nb], nb_packets - nb, nb_packets - nb);
663        assert(nb_packets == nb);
664        return nb;
665}
666
667
668inline static size_t empty_array_of_packets(libtrace_t *libtrace, libtrace_packet_t *packets[], size_t nb_packets) {
669        size_t nb;
670        nb = move_nulls_back((void **) packets, nb_packets);
671        mem_hits.write.recycled += nb_packets - nb;
672        nb += nb_packets - libtrace_ocache_free(&libtrace->packet_freelist, (void **)packets, nb, nb);
673        memset(packets, 0, nb); // XXX make better, maybe do this in ocache??
674        return nb;
675}
676
677/* Our simplest case when a thread becomes ready it can obtain an exclusive
678 * lock to read packets from the underlying trace.
679 */
680inline static size_t trace_pread_packet_first_in_first_served(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packets[], size_t nb_packets)
681{
682        size_t i = 0;
683
684        nb_packets = fill_array_with_empty_packets(libtrace, packets, nb_packets);
685
686        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
687        /* Read nb_packets */
688        for (i = 0; i < nb_packets; ++i) {
689                packets[i]->error = trace_read_packet(libtrace, packets[i]);
690                // Doing this inside the lock ensures the first packet is always
691                // recorded first
692                if (packets[i]->error <= 0) {
693                        ++i;
694                        break;
695                }
696        }
697        if (packets[0]->error > 0) {
698                store_first_packet(libtrace, packets[0], t);
699        }
700        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
701        return i;
702}
703
704/**
705 * For the case that we have a dedicated hasher thread
706 * 1. We read a packet from our buffer
707 * 2. Move that into the packet provided (packet)
708 */
709inline static size_t trace_pread_packet_hasher_thread(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t **packets, size_t nb_packets)
710{
711        size_t i;
712
713        // Always grab at least one
714        if (packets[0]) // Recycle the old get the new
715                libtrace_ocache_free(&libtrace->packet_freelist, (void **) packets, 1, 1);
716        packets[0] = libtrace_ringbuffer_read(&t->rbuffer);
717
718
719        if (packets[0] == NULL) {
720                libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) packets, 1, 1);
721                packets[0]->error = -2;
722        }
723
724        if (packets[0]->error < 0)
725                return 1;
726
727        for (i = 1; i < nb_packets; i++) {
728                if (packets[i]) // Recycle the old get the new
729                        libtrace_ocache_free(&libtrace->packet_freelist, (void **) &packets[i], 1, 1);
730                if (!libtrace_ringbuffer_try_read(&t->rbuffer, (void **) &packets[i])) {
731                        packets[i] = NULL;
732                        break;
733                }
734                // Message wating
735                if (packets[i] == NULL) {
736                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &packets[i], 1, 1);
737                        packets[i]->error = -2;
738                        ++i;
739                        break;
740                }
741        }
742       
743        return i;
744        /*if (*packet) {
745                return (*packet)->error;
746        } else {
747                // This is how we do a notify, we send a message before hand to note that the trace is over etc.
748                // And this will notify the perpkt thread to read that message, this is easiest
749                // since cases like pause can also be dealt with this way without actually
750                // having to be the end of the stream.
751                fprintf(stderr, "Got a NULL packet from hasher therefore message waiting\n");
752                return -2;
753        }*/
754}
755
756/**
757 * Tries to read from our queue and returns 1 if a packet was retrieved
758 */
759static inline int try_waiting_queue(libtrace_t *libtrace, libtrace_thread_t * t, libtrace_packet_t **packet, int * ret)
760{
761        libtrace_packet_t* retrived_packet;
762
763        /* Lets see if we have one waiting */
764        if (libtrace_ringbuffer_try_read(&t->rbuffer, (void **) &retrived_packet)) {
765                /* Copy paste from trace_pread_packet_hasher_thread() except that we try read (non-blocking) */
766                assert(retrived_packet);
767
768                if (*packet) // Recycle the old get the new
769                        libtrace_ocache_free(&libtrace->packet_freelist, (void **) packet, 1, 1);
770                *packet = retrived_packet;
771                *ret = (*packet)->error;
772                return 1;
773        }
774        return 0;
775}
776
777/**
778 * Allows us to ensure all threads are finished writing to our threads ring_buffer
779 * before returning EOF/error.
780 */
781inline static int trace_handle_finishing_perpkt(libtrace_t *libtrace, libtrace_packet_t **packet, libtrace_thread_t * t)
782{
783        /* We are waiting for the condition that another thread ends to check
784         * our queue for new data, once all threads end we can go to finished */
785        bool complete = false;
786        int ret;
787
788        do {
789                // Wait for a thread to end
790                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
791
792                // Check before
793                if (libtrace->perpkt_thread_states[THREAD_FINISHING] == libtrace->perpkt_thread_count) {
794                        complete = true;
795                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
796                        continue;
797                }
798
799                ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
800
801                // Check after
802                if (libtrace->perpkt_thread_states[THREAD_FINISHING] == libtrace->perpkt_thread_count) {
803                        complete = true;
804                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
805                        continue;
806                }
807
808                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
809
810                // Always trying to keep our buffer empty for the unlikely case more threads than buffer space want to write into our queue
811                if(try_waiting_queue(libtrace, t, packet, &ret))
812                        return ret;
813        } while (!complete);
814
815        // We can only end up here once all threads complete
816        try_waiting_queue(libtrace, t, packet, &ret);
817
818        return ret;
819        // TODO rethink this logic fix bug here
820}
821
822/**
823 * Expects the libtrace_lock to not be held
824 */
825inline static int trace_finish_perpkt(libtrace_t *libtrace, libtrace_packet_t **packet, libtrace_thread_t * t)
826{
827        thread_change_state(libtrace, t, THREAD_FINISHING, true);
828        return trace_handle_finishing_perpkt(libtrace, packet, t);
829}
830
831/**
832 * This case is much like the dedicated hasher, except that we will become
833 * hasher if we don't have a a packet waiting.
834 *
835 * Note: This is only every used if we have are doing hashing.
836 *
837 * TODO: Can block on zero copy formats such as ring: and dpdk: if the
838 * queue sizes in total are larger than the ring size.
839 *
840 * 1. We read a packet from our buffer
841 * 2. Move that into the packet provided (packet)
842 */
843inline static int trace_pread_packet_hash_locked(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t **packet)
844{
845        int thread, ret/*, psize*/;
846
847        while (1) {
848                if(try_waiting_queue(libtrace, t, packet, &ret))
849                        return ret;
850                // Can still block here if another thread is writing to a full queue
851                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
852
853                // Its impossible for our own queue to overfill, because no one can write
854                // when we are in the lock
855                if(try_waiting_queue(libtrace, t, packet, &ret)) {
856                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
857                        return ret;
858                }
859
860                // Another thread cannot write a packet because a queue has filled up. Is it ours?
861                if (libtrace->perpkt_queue_full) {
862                        contention_stats[t->perpkt_num].wait_for_fill_complete_hits++;
863                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
864                        continue;
865                }
866
867                if (!*packet)
868                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) packet, 1, 1);
869                assert(*packet);
870
871                // If we fail here we can guarantee that our queue is empty (and no new data will be added because we hold the lock)
872                if (libtrace_halt || ((*packet)->error = trace_read_packet(libtrace, *packet)) <1 /*&& psize != LIBTRACE_MESSAGE_WAITING*/) {
873                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
874                        if (libtrace_halt)
875                                return 0;
876                        else
877                                return (*packet)->error;
878                }
879
880                trace_packet_set_hash(*packet, (*libtrace->hasher)(*packet, libtrace->hasher_data));
881                thread = trace_packet_get_hash(*packet) % libtrace->perpkt_thread_count;
882                if (thread == t->perpkt_num) {
883                        // If it's this thread we must be in order because we checked the buffer once we got the lock
884                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
885                        return (*packet)->error;
886                }
887
888                if (libtrace->perpkt_threads[thread].state != THREAD_FINISHED) {
889                        while (!libtrace_ringbuffer_try_swrite_bl(&libtrace->perpkt_threads[thread].rbuffer, *packet)) {
890                                libtrace->perpkt_queue_full = true;
891                                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
892                                contention_stats[t->perpkt_num].full_queue_hits++;
893                                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
894                        }
895                        *packet = NULL;
896                        libtrace->perpkt_queue_full = false;
897                } else {
898                        /* We can get here if the user closes the thread before natural completion/or error */
899                        assert (!"packet_hash_locked() The user terminated the trace in a abnormal manner");
900                }
901                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
902        }
903}
904
905/**
906 * This case is much like the dedicated hasher, except that we will become
907 * hasher if we don't have a packet waiting.
908 *
909 * TODO: You can lose the tail of a trace if the final thread
910 * fills its own queue and therefore breaks early and doesn't empty the sliding window.
911 *
912 * TODO: Can block on zero copy formats such as ring: and dpdk: if the
913 * queue sizes in total are larger than the ring size.
914 *
915 * 1. We read a packet from our buffer
916 * 2. Move that into the packet provided (packet)
917 */
918inline static int trace_pread_packet_sliding_window(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t **packet)
919{
920        int ret, i, thread/*, psize*/;
921
922        if (t->state == THREAD_FINISHING)
923                return trace_handle_finishing_perpkt(libtrace, packet, t);
924
925        while (1) {
926                // Check if we have packets ready
927                if(try_waiting_queue(libtrace, t, packet, &ret))
928                        return ret;
929
930                // We limit the number of packets we get to the size of the sliding window
931                // such that it is impossible for any given thread to fail to store a packet
932                ASSERT_RET(sem_wait(&libtrace->sem), == 0);
933                /*~~~~Single threaded read of a packet~~~~*/
934                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
935
936                /* Re-check our queue things we might have data waiting */
937                if(try_waiting_queue(libtrace, t, packet, &ret)) {
938                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
939                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
940                        return ret;
941                }
942
943                // TODO put on *proper* condition variable
944                if (libtrace->perpkt_queue_full) {
945                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
946                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
947                        contention_stats[t->perpkt_num].wait_for_fill_complete_hits++;
948                        continue;
949                }
950
951                if (!*packet)
952                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) packet, 1, 1);
953                assert(*packet);
954
955                if (libtrace_halt || ((*packet)->error = trace_read_packet(libtrace, *packet)) <1 /*&& psize != LIBTRACE_MESSAGE_WAITING*/) {
956                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
957                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
958                        // Finish this thread ensuring that any data written later by another thread is retrieved also
959                        if (libtrace_halt)
960                                return 0;
961                        else
962                                return trace_finish_perpkt(libtrace, packet, t);
963                }
964                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
965
966                /* ~~~~Multiple threads can run the hasher~~~~ */
967                trace_packet_set_hash(*packet, (*libtrace->hasher)(*packet, libtrace->hasher_data));
968
969                /* Yes this is correct opposite read lock for a write operation */
970                ASSERT_RET(pthread_rwlock_rdlock(&libtrace->window_lock), == 0);
971                if (!libtrace_slidingwindow_try_write(&libtrace->sliding_window, trace_packet_get_order(*packet), *packet))
972                        assert(!"Semaphore should stop us from ever overfilling the sliding window");
973                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
974                *packet = NULL;
975
976                // Always try read any data from the sliding window
977                while (libtrace_slidingwindow_read_ready(&libtrace->sliding_window)) {
978                        ASSERT_RET(pthread_rwlock_wrlock(&libtrace->window_lock), == 0);
979                        if (libtrace->perpkt_queue_full) {
980                                // I might be the holdup in which case if I can read my queue I should do that and return
981                                if(try_waiting_queue(libtrace, t, packet, &ret)) {
982                                        ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
983                                        return ret;
984                                }
985                                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
986                                continue;
987                        }
988                        // Read greedily as many as we can
989                        while (libtrace_slidingwindow_try_read(&libtrace->sliding_window, (void **) packet, NULL)) {
990                                thread = trace_packet_get_hash(*packet) % libtrace->perpkt_thread_count;
991                                if (libtrace->perpkt_threads[thread].state != THREAD_FINISHED) {
992                                        while (!libtrace_ringbuffer_try_swrite_bl(&libtrace->perpkt_threads[thread].rbuffer, *packet)) {
993                                                if (t->perpkt_num == thread)
994                                                {
995                                                        // TODO think about this case more because we have to stop early if this were to happen on the last read
996                                                        // before EOF/error we might not have emptied the sliding window
997                                                        printf("!~!~!~!~!~!~In this Code~!~!~!~!\n");
998                                                        // Its our queue we must have a packet to read out
999                                                        if(try_waiting_queue(libtrace, t, packet, &ret)) {
1000                                                                // We must be able to write this now 100% without fail
1001                                                                libtrace_ringbuffer_write(&libtrace->perpkt_threads[thread].rbuffer, *packet);
1002                                                                ASSERT_RET(sem_post(&libtrace->sem), == 0);
1003                                                                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
1004                                                                return ret;
1005                                                        } else {
1006                                                                assert(!"Our queue is full but I cannot read from it??");
1007                                                        }
1008                                                }
1009                                                // Not us we have to give the other threads a chance to write there packets then
1010                                                libtrace->perpkt_queue_full = true;
1011                                                ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
1012                                                for (i = 0; i < libtrace->perpkt_thread_count-1; i++) // Release all other threads to read there packets
1013                                                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
1014
1015                                                contention_stats[t->perpkt_num].full_queue_hits++;
1016                                                ASSERT_RET(pthread_rwlock_wrlock(&libtrace->window_lock), == 0);
1017                                                // Grab these back
1018                                                for (i = 0; i < libtrace->perpkt_thread_count-1; i++) // Release all other threads to read there packets
1019                                                        ASSERT_RET(sem_wait(&libtrace->sem), == 0);
1020                                                libtrace->perpkt_queue_full = false;
1021                                        }
1022                                        ASSERT_RET(sem_post(&libtrace->sem), == 0);
1023                                        *packet = NULL;
1024                                } else {
1025                                        // Cannot write to a queue if no ones waiting (I think this is unreachable)
1026                                        // in the general case (unless the user ends early without proper clean up).
1027                                        assert (!"unreachable code??");
1028                                }
1029                        }
1030                        ASSERT_RET(pthread_rwlock_unlock(&libtrace->window_lock), == 0);
1031                }
1032                // Now we go back to checking our queue anyways
1033        }
1034}
1035
1036
1037/**
1038 * For the first packet of each queue we keep a copy and note the system
1039 * time it was received at.
1040 *
1041 * This is used for finding the first packet when playing back a trace
1042 * in trace time. And can be used by real time applications to print
1043 * results out every XXX seconds.
1044 */
1045void store_first_packet(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t)
1046{
1047        if (!t->recorded_first) {
1048                struct timeval tv;
1049                libtrace_packet_t * dup;
1050                // For what it's worth we can call these outside of the lock
1051                gettimeofday(&tv, NULL);
1052                dup = trace_copy_packet(packet);
1053                ASSERT_RET(pthread_spin_lock(&libtrace->first_packets.lock), == 0);
1054                libtrace->first_packets.packets[t->perpkt_num].packet = dup;
1055                //printf("Stored first packet time=%f\n", trace_get_seconds(dup));
1056                memcpy(&libtrace->first_packets.packets[t->perpkt_num].tv, &tv, sizeof(tv));
1057                // Now update the first
1058                libtrace->first_packets.count++;
1059                if (libtrace->first_packets.count == 1) {
1060                        // We the first entry hence also the first known packet
1061                        libtrace->first_packets.first = t->perpkt_num;
1062                } else {
1063                        // Check if we are newer than the previous 'first' packet
1064                        size_t first = libtrace->first_packets.first;
1065                        if (trace_get_seconds(dup) <
1066                                trace_get_seconds(libtrace->first_packets.packets[first].packet))
1067                                libtrace->first_packets.first = t->perpkt_num;
1068                }
1069                ASSERT_RET(pthread_spin_unlock(&libtrace->first_packets.lock), == 0);
1070                libtrace_message_t mesg = {0};
1071                mesg.code = MESSAGE_FIRST_PACKET;
1072                trace_send_message_to_reducer(libtrace, &mesg);
1073                t->recorded_first = true;
1074        }
1075}
1076
1077/**
1078 * Returns 1 if it's certain that the first packet is truly the first packet
1079 * rather than a best guess based upon threads that have published so far.
1080 * Otherwise 0 is returned.
1081 * It's recommended that this result is stored rather than calling this
1082 * function again.
1083 */
1084DLLEXPORT int retrive_first_packet(libtrace_t *libtrace, libtrace_packet_t **packet, struct timeval **tv)
1085{
1086        int ret = 0;
1087        ASSERT_RET(pthread_spin_lock(&libtrace->first_packets.lock), == 0);
1088        if (libtrace->first_packets.count) {
1089                *packet = libtrace->first_packets.packets[libtrace->first_packets.first].packet;
1090                *tv = &libtrace->first_packets.packets[libtrace->first_packets.first].tv;
1091                if (libtrace->first_packets.count == (size_t) libtrace->perpkt_thread_count) {
1092                        ret = 1;
1093                } else {
1094                        struct timeval curr_tv;
1095                        // If a second has passed since the first entry we will assume this is the very first packet
1096                        gettimeofday(&curr_tv, NULL);
1097                        if (curr_tv.tv_sec > (*tv)->tv_sec) {
1098                                if(curr_tv.tv_usec > (*tv)->tv_usec || curr_tv.tv_sec - (*tv)->tv_sec > 1) {
1099                                        ret = 1;
1100                                }
1101                        }
1102                }
1103        } else {
1104                *packet = NULL;
1105                *tv = NULL;
1106        }
1107        ASSERT_RET(pthread_spin_unlock(&libtrace->first_packets.lock), == 0);
1108        return ret;
1109}
1110
1111
1112DLLEXPORT uint64_t tv_to_usec(struct timeval *tv)
1113{
1114        return (uint64_t) tv->tv_sec*1000000ull + (uint64_t) tv->tv_usec;
1115}
1116
1117inline static struct timeval usec_to_tv(uint64_t usec)
1118{
1119        struct timeval tv;
1120        tv.tv_sec = usec / 1000000;
1121        tv.tv_usec = usec % 1000000;
1122        return tv;
1123}
1124
1125/** Similar to delay_tracetime but send messages to all threads periodically */
1126static void* keepalive_entry(void *data) {
1127        struct timeval prev, next;
1128        libtrace_message_t message = {0};
1129        libtrace_t *trace = (libtrace_t *)data;
1130        uint64_t next_release;
1131        fprintf(stderr, "keepalive thread is starting\n");
1132
1133        gettimeofday(&prev, NULL);
1134        message.code = MESSAGE_TICK;
1135        while (trace->state != STATE_FINSHED) {
1136                fd_set rfds;
1137                next_release = tv_to_usec(&prev) + (trace->tick_interval * 1000);
1138                gettimeofday(&next, NULL);
1139                if (next_release > tv_to_usec(&next)) {
1140                        next = usec_to_tv(next_release - tv_to_usec(&next));
1141                        // Wait for timeout or a message
1142                        FD_ZERO(&rfds);
1143                FD_SET(libtrace_message_queue_get_fd(&trace->keepalive_thread.messages), &rfds);
1144                        if (select(libtrace_message_queue_get_fd(&trace->keepalive_thread.messages)+1, &rfds, NULL, NULL, &next) == 1) {
1145                                libtrace_message_t msg;
1146                                libtrace_message_queue_get(&trace->keepalive_thread.messages, &msg);
1147                                assert(msg.code == MESSAGE_DO_STOP);
1148                                goto done;
1149                        }
1150                }
1151                prev = usec_to_tv(next_release);
1152                if (trace->state == STATE_RUNNING) {
1153                        message.additional.uint64 = tv_to_usec(&prev);
1154                        trace_send_message_to_perpkts(trace, &message);
1155                }
1156        }
1157done:
1158
1159        thread_change_state(trace, &trace->keepalive_thread, THREAD_FINISHED, true);
1160        return NULL;
1161}
1162
1163/**
1164 * Delays a packets playback so the playback will be in trace time
1165 */
1166static inline void delay_tracetime(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t) {
1167        struct timeval curr_tv, pkt_tv;
1168        uint64_t next_release = t->tracetime_offset_usec; // Time at which to release the packet
1169        uint64_t curr_usec;
1170        /* Tracetime we might delay releasing this packet */
1171        if (!t->tracetime_offset_usec) {
1172                libtrace_packet_t * first_pkt;
1173                struct timeval *sys_tv;
1174                int64_t initial_offset;
1175                int stable = retrive_first_packet(libtrace, &first_pkt, &sys_tv);
1176                assert(first_pkt);
1177                pkt_tv = trace_get_timeval(first_pkt);
1178                initial_offset = (int64_t)tv_to_usec(sys_tv) - (int64_t)tv_to_usec(&pkt_tv);
1179                if (stable)
1180                        // 0->1 because 0 is used to mean unset
1181                        t->tracetime_offset_usec = initial_offset ? initial_offset: 1;
1182                next_release = initial_offset;
1183        }
1184        /* next_release == offset */
1185        pkt_tv = trace_get_timeval(packet);
1186        next_release += tv_to_usec(&pkt_tv);
1187        gettimeofday(&curr_tv, NULL);
1188        curr_usec = tv_to_usec(&curr_tv);
1189        if (next_release > curr_usec) {
1190                // We need to wait
1191                struct timeval delay_tv = usec_to_tv(next_release-curr_usec);
1192                //printf("WAITING for %d.%d next=%"PRIu64" curr=%"PRIu64" seconds packettime %f\n", delay_tv.tv_sec, delay_tv.tv_usec, next_release, curr_usec, trace_get_seconds(packet));
1193                select(0, NULL, NULL, NULL, &delay_tv);
1194        }
1195}
1196
1197/* Read one packet from the trace into a buffer. Note that this function will
1198 * block until a packet is read (or EOF is reached).
1199 *
1200 * @param libtrace      the libtrace opaque pointer
1201 * @param packet        the packet opaque pointer
1202 * @returns 0 on EOF, negative value on error
1203 *
1204 * Note this is identical to read_packet but calls pread_packet instead of
1205 * read packet in the format.
1206 *
1207 */
1208static inline int trace_pread_packet_wrapper(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packet) {
1209
1210        assert(libtrace && "You called trace_read_packet() with a NULL libtrace parameter!\n");
1211        if (trace_is_err(libtrace))
1212                return -1;
1213        if (!libtrace->started) {
1214                trace_set_err(libtrace,TRACE_ERR_BAD_STATE,"You must call libtrace_start() before trace_read_packet()\n");
1215                return -1;
1216        }
1217        if (!(packet->buf_control==TRACE_CTRL_PACKET || packet->buf_control==TRACE_CTRL_EXTERNAL)) {
1218                trace_set_err(libtrace,TRACE_ERR_BAD_STATE,"Packet passed to trace_read_packet() is invalid\n");
1219                return -1;
1220        }
1221        assert(packet);
1222
1223        if (libtrace->format->read_packet) {
1224                do {
1225                        size_t ret;
1226                        /* Finalise the packet, freeing any resources the format module
1227                         * may have allocated it and zeroing all data associated with it.
1228                         */
1229                        trace_fin_packet(packet);
1230                        /* Store the trace we are reading from into the packet opaque
1231                         * structure */
1232                        packet->trace = libtrace;
1233                        ret=libtrace->format->pread_packet(libtrace, t, packet);
1234                        if (ret==(size_t)-1 || ret==(size_t)-2 || ret==0) {
1235                                return ret;
1236                        }
1237                        if (libtrace->filter) {
1238                                /* If the filter doesn't match, read another
1239                                 * packet
1240                                 */
1241                                if (!trace_apply_filter(libtrace->filter,packet)){
1242                                        ++libtrace->filtered_packets;
1243                                        continue;
1244                                }
1245                        }
1246                        if (libtrace->snaplen>0) {
1247                                /* Snap the packet */
1248                                trace_set_capture_length(packet,
1249                                                libtrace->snaplen);
1250                        }
1251                       
1252                        ++t->accepted_packets;
1253                        // TODO look into this better
1254                        trace_packet_set_order(packet, trace_get_erf_timestamp(packet));
1255                        //trace_packet_set_order(packet, libtrace->accepted_packets);
1256                        //++libtrace->accepted_packets;
1257                        return ret;
1258                } while(1);
1259        }
1260        trace_set_err(libtrace,TRACE_ERR_UNSUPPORTED,"This format does not support reading packets\n");
1261        return ~0U;
1262}
1263
1264/**
1265 * Read packets from the parallel trace
1266 * @return the number of packets read, null packets indicate messages. Check packet->error before
1267 * assuming a packet is valid.
1268 */
1269static size_t trace_pread_packet(libtrace_t *libtrace, libtrace_thread_t *t, libtrace_packet_t *packets[], size_t nb_packets)
1270{
1271        size_t ret;
1272        size_t i;
1273        assert(nb_packets);
1274
1275        for (i = 0; i < nb_packets; i++) {
1276                // Cleanup the packet passed back
1277                if (packets[i])
1278                        trace_fin_packet(packets[i]);
1279        }
1280
1281        if (trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1282                if (!packets[0])
1283                        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **)packets, 1, 1);
1284                packets[0]->error = trace_pread_packet_wrapper(libtrace, t, *packets);
1285                ret = 1;
1286        } else if (trace_has_dedicated_hasher(libtrace)) {
1287                ret = trace_pread_packet_hasher_thread(libtrace, t, packets, nb_packets);
1288        } else if (!trace_has_dedicated_hasher(libtrace)) {
1289                /* We don't care about which core a packet goes to */
1290                ret = trace_pread_packet_first_in_first_served(libtrace, t, packets, nb_packets);
1291        } /* else {
1292                ret = trace_pread_packet_hash_locked(libtrace, packet);
1293        }*/
1294
1295        // Formats can also optionally do this internally to ensure the first
1296        // packet is always reported correctly
1297        assert(ret);
1298        assert(ret <= nb_packets);
1299        if (packets[0]->error > 0) {
1300                store_first_packet(libtrace, packets[0], t);
1301                if (libtrace->tracetime)
1302                        delay_tracetime(libtrace, packets[0], t);
1303        }
1304
1305        return ret;
1306}
1307
1308/* Starts perpkt threads
1309 * @return threads_started
1310 */
1311static inline int trace_start_perpkt_threads (libtrace_t *libtrace) {
1312        int i;
1313        char name[16];
1314        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1315                libtrace_thread_t *t = &libtrace->perpkt_threads[i];
1316                ASSERT_RET(pthread_create(&t->tid, NULL, perpkt_threads_entry, (void *) libtrace), == 0);
1317                snprintf(name, 16, "perpkt-%d", i);
1318                pthread_setname_np(t->tid, name);
1319        }
1320        return libtrace->perpkt_thread_count;
1321}
1322
1323/* Start an input trace in a parallel fashion, or restart a paused trace.
1324 *
1325 * NOTE: libtrace lock is held for the majority of this function
1326 *
1327 * @param libtrace the input trace to start
1328 * @param global_blob some global data you can share with the new perpkt threads
1329 * @returns 0 on success
1330 */
1331DLLEXPORT int trace_pstart(libtrace_t *libtrace, void* global_blob, fn_per_pkt per_pkt, fn_reducer reducer)
1332{
1333        int i;
1334        char name[16];
1335        sigset_t sig_before, sig_block_all;
1336        assert(libtrace);
1337        if (trace_is_err(libtrace)) {
1338                return -1;
1339        }
1340       
1341        // NOTE: Until the trace is started we wont have a libtrace_lock initialised
1342        if (libtrace->state != STATE_NEW) {
1343                int err = 0;
1344                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1345                if (libtrace->state != STATE_PAUSED) {
1346                        trace_set_err(libtrace, TRACE_ERR_BAD_STATE,
1347                                "The trace(%s) has already been started and is not paused!!", libtrace->uridata);
1348                        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1349                        return -1;
1350                }
1351               
1352                // Update the per_pkt function, or reuse the old one
1353                if (per_pkt)
1354                        libtrace->per_pkt = per_pkt;
1355
1356                assert(libtrace_parallel);
1357                assert(!libtrace->perpkt_thread_states[THREAD_RUNNING]);
1358                assert(libtrace->per_pkt);
1359               
1360                if (libtrace->perpkt_thread_count > 1 && trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1361                        fprintf(stderr, "Restarting trace pstart_input()\n");
1362                        err = libtrace->format->pstart_input(libtrace);
1363                } else {
1364                        if (libtrace->format->start_input) {
1365                                fprintf(stderr, "Restarting trace start_input()\n");
1366                                err = libtrace->format->start_input(libtrace);
1367                        }
1368                }
1369               
1370                if (err == 0) {
1371                        libtrace->started = true;
1372                        libtrace_change_state(libtrace, STATE_RUNNING, false);
1373                }
1374                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1375                return err;
1376        }
1377
1378        assert(libtrace->state == STATE_NEW);
1379        libtrace_parallel = 1;
1380
1381        // Store the user defined things against the trace
1382        libtrace->global_blob = global_blob;
1383        libtrace->per_pkt = per_pkt;
1384        libtrace->reducer = reducer;
1385
1386        ASSERT_RET(pthread_mutex_init(&libtrace->libtrace_lock, NULL), == 0);
1387        ASSERT_RET(pthread_cond_init(&libtrace->perpkt_cond, NULL), == 0);
1388        ASSERT_RET(pthread_rwlock_init(&libtrace->window_lock, NULL), == 0);
1389        // Grab the lock
1390        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1391
1392        // Set default buffer sizes
1393        if (libtrace->perpkt_buffer_size <= 0)
1394                libtrace->perpkt_buffer_size = 1000;
1395
1396        if (libtrace->perpkt_thread_count <= 0) {
1397                // TODO add BSD support
1398                libtrace->perpkt_thread_count = sysconf(_SC_NPROCESSORS_ONLN);
1399                if (libtrace->perpkt_thread_count <= 0)
1400                        // Lets just use one
1401                        libtrace->perpkt_thread_count = 1;
1402        }
1403
1404        if(libtrace->packet_freelist_size <= 0)
1405                libtrace->packet_freelist_size = (libtrace->perpkt_buffer_size + 1) * libtrace->perpkt_thread_count;
1406
1407        if(libtrace->packet_freelist_size <
1408                (libtrace->perpkt_buffer_size + 1) * libtrace->perpkt_thread_count)
1409                fprintf(stderr, "WARNING deadlocks may occur and extra memory allocating buffer sizes (packet_freelist_size) mismatched\n");
1410
1411        libtrace->started = true; // Before we start the threads otherwise we could have issues
1412        libtrace_change_state(libtrace, STATE_RUNNING, false);
1413        /* Disable signals - Pthread signal handling */
1414
1415        sigemptyset(&sig_block_all);
1416
1417        ASSERT_RET(pthread_sigmask(SIG_SETMASK, &sig_block_all, &sig_before), == 0);
1418
1419        // If we are using a hasher start it
1420        // If single threaded we don't need a hasher
1421        if (libtrace->perpkt_thread_count > 1 && libtrace->hasher && libtrace->hasher_type != HASHER_HARDWARE) {
1422                libtrace_thread_t *t = &libtrace->hasher_thread;
1423                t->trace = libtrace;
1424                t->ret = NULL;
1425                t->type = THREAD_HASHER;
1426                t->state = THREAD_RUNNING;
1427                libtrace_message_queue_init(&t->messages, sizeof(libtrace_message_t));
1428                ASSERT_RET(pthread_create(&t->tid, NULL, hasher_start, (void *) libtrace), == 0);
1429                snprintf(name, sizeof(name), "hasher-thread");
1430                pthread_setname_np(t->tid, name);
1431        } else {
1432                libtrace->hasher_thread.type = THREAD_EMPTY;
1433        }
1434        //libtrace_ocache_init(&libtrace->packet_freelist, trace_create_packet, trace_destroy_packet, 64, libtrace->packet_freelist_size * 4, true);
1435        libtrace_ocache_init(&libtrace->packet_freelist,
1436                                                 (void* (*)()) trace_create_packet,
1437                                                 (void (*)(void *))trace_destroy_packet,
1438                                                 64,
1439                                                 libtrace->packet_freelist_size * 4,
1440                                                 true);
1441        //libtrace_slidingwindow_init(&libtrace->sliding_window, libtrace->packet_freelist_size, 0);
1442        ASSERT_RET(sem_init(&libtrace->sem, 0, libtrace->packet_freelist_size), == 0);
1443        // This will be applied to every new thread that starts, i.e. they will block all signals
1444        // Lets start a fixed number of reading threads
1445
1446        // For now we never have a dedicated thread for the reducer
1447        // i.e. This main thread is used as the reducer
1448        libtrace->reducer_thread.tid = pthread_self();
1449        libtrace->reducer_thread.type = THREAD_REDUCER;
1450        libtrace->reducer_thread.state = THREAD_RUNNING;
1451        libtrace_message_queue_init(&libtrace->reducer_thread.messages, sizeof(libtrace_message_t));
1452
1453        /* Ready some storages */
1454        libtrace->first_packets.first = 0;
1455        libtrace->first_packets.count = 0;
1456        ASSERT_RET(pthread_spin_init(&libtrace->first_packets.lock, 0), == 0);
1457        libtrace->first_packets.packets = calloc(libtrace->perpkt_thread_count, sizeof(struct  __packet_storage_magic_type));
1458
1459
1460        /* Ready all of our perpkt threads - they are started later */
1461        libtrace->perpkt_threads = calloc(sizeof(libtrace_thread_t), libtrace->perpkt_thread_count);
1462        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1463                libtrace_thread_t *t = &libtrace->perpkt_threads[i];
1464                t->trace = libtrace;
1465                t->ret = NULL;
1466                t->type = THREAD_PERPKT;
1467                t->state = THREAD_RUNNING;
1468                t->user_data = NULL;
1469                // t->tid DONE on create
1470                t->perpkt_num = i;
1471                if (libtrace->hasher)
1472                        libtrace_ringbuffer_init(&t->rbuffer, libtrace->perpkt_buffer_size, LIBTRACE_RINGBUFFER_POLLING);
1473                // Depending on the mode vector or deque might be chosen
1474                libtrace_vector_init(&t->vector, sizeof(libtrace_result_t));
1475                libtrace_deque_init(&t->deque, sizeof(libtrace_result_t));
1476                libtrace_message_queue_init(&t->messages, sizeof(libtrace_message_t));
1477                t->recorded_first = false;
1478                t->tracetime_offset_usec = 0;;
1479        }
1480
1481        int threads_started = 0;
1482        /* Setup the trace and start our threads */
1483        if (libtrace->perpkt_thread_count > 1 && trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1484                printf("This format has direct support for p's\n");
1485                threads_started = libtrace->format->pstart_input(libtrace);
1486        } else {
1487                if (libtrace->format->start_input) {
1488                        threads_started=libtrace->format->start_input(libtrace);
1489                }
1490        }
1491        if (threads_started == 0)
1492                threads_started = trace_start_perpkt_threads(libtrace);
1493
1494        if (libtrace->tick_interval > 0) {
1495                libtrace->keepalive_thread.type = THREAD_KEEPALIVE;
1496                libtrace->keepalive_thread.state = THREAD_RUNNING;
1497                libtrace_message_queue_init(&libtrace->keepalive_thread.messages, sizeof(libtrace_message_t));
1498                ASSERT_RET(pthread_create(&libtrace->keepalive_thread.tid, NULL, keepalive_entry, (void *) libtrace), == 0);
1499        }
1500
1501        for (i = 0; i < THREAD_STATE_MAX; ++i) {
1502                libtrace->perpkt_thread_states[i] = 0;
1503        }
1504        libtrace->perpkt_thread_states[THREAD_RUNNING] = threads_started;
1505
1506        // Revert back - Allow signals again
1507        ASSERT_RET(pthread_sigmask(SIG_SETMASK, &sig_before, NULL), == 0);
1508        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1509
1510        if (threads_started < 0)
1511                // Error
1512                return threads_started;
1513
1514        // TODO fix these leaks etc
1515        if (libtrace->perpkt_thread_count != threads_started)
1516                fprintf(stderr, "Warning started threads not equal requested s=%d r=%d", threads_started, libtrace->perpkt_thread_count);
1517
1518
1519        return 0;
1520}
1521
1522/**
1523 * Pauses a trace, this should only be called by the main thread
1524 * 1. Set started = false
1525 * 2. All perpkt threads are paused waiting on a condition var
1526 * 3. Then call ppause on the underlying format if found
1527 * 4. The traces state is paused
1528 *
1529 * Once done you should be able to modify the trace setup and call pstart again
1530 * TODO handle changing thread numbers
1531 */
1532DLLEXPORT int trace_ppause(libtrace_t *libtrace)
1533{
1534        libtrace_thread_t *t;
1535        int i;
1536        assert(libtrace);
1537       
1538        t = get_thread_table(libtrace);
1539        // Check state from within the lock if we are going to change it
1540        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1541        if (!libtrace->started || libtrace->state != STATE_RUNNING) {
1542                fprintf(stderr, "pause failed started=%d state=%s (%d)\n", libtrace->started, get_trace_state_name(libtrace->state), libtrace->state);
1543                trace_set_err(libtrace,TRACE_ERR_BAD_STATE, "You must call trace_start() before calling trace_ppause()");
1544                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1545                return -1;
1546        }
1547
1548        libtrace_change_state(libtrace, STATE_PAUSING, false);
1549        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1550
1551        // Special case handle the hasher thread case
1552        if (trace_has_dedicated_hasher(libtrace)) {
1553                fprintf(stderr, "Hasher thread running we deal with this special!\n");
1554                libtrace_message_t message = {0};
1555                message.code = MESSAGE_DO_PAUSE;
1556                trace_send_message_to_thread(libtrace, &libtrace->hasher_thread, &message);
1557                // Wait for it to pause
1558                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1559                while (libtrace->hasher_thread.state == THREAD_RUNNING) {
1560                        ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1561                }
1562                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1563        }
1564
1565        fprintf(stderr, "Sending messages \n");
1566        // Stop threads, skip this one if it's a perpkt
1567        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1568                if (&libtrace->perpkt_threads[i] != t) {
1569                        libtrace_message_t message = {0};
1570                        message.code = MESSAGE_DO_PAUSE;
1571                        trace_send_message_to_thread(libtrace, &libtrace->perpkt_threads[i], &message);
1572                        if(trace_has_dedicated_hasher(libtrace)) {
1573                                // The hasher has stopped and other threads have messages waiting therefore
1574                                // If the queues are empty the other threads would have no data
1575                                // So send some NULL packets to simply ask the threads to check there message queues
1576                                // We are the only writer since hasher has paused
1577                                libtrace_ringbuffer_write(&libtrace->perpkt_threads[i].rbuffer, NULL);
1578                        }
1579                } else {
1580                        fprintf(stderr, "Mapper threads should not be used to pause a trace this could cause any number of problems!!\n");
1581                }
1582        }
1583
1584        // Formats must support native message handling if a message is ready
1585        // Approach per Perry's suggestion is a non-blocking read
1586        // followed by a blocking read. XXX STRIP THIS OUT
1587
1588        if (t) {
1589                // A perpkt is doing the pausing, interesting, fake an extra thread paused
1590                // We rely on the user to *not* return before starting the trace again
1591                thread_change_state(libtrace, t, THREAD_PAUSED, true);
1592        }
1593
1594        fprintf(stderr, "Asking threads to pause\n");
1595
1596        // Wait for all threads to pause
1597        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1598        while(libtrace->perpkt_thread_states[THREAD_RUNNING]) {
1599                ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1600        }
1601        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1602
1603        fprintf(stderr, "Threads have paused\n");
1604
1605        if (trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace)) {
1606                uint64_t tmp_stats;
1607                libtrace->dropped_packets = trace_get_dropped_packets(libtrace);
1608                libtrace->received_packets = trace_get_received_packets(libtrace);
1609                if (libtrace->format->get_filtered_packets) {
1610                        if ((tmp_stats = libtrace->format->get_filtered_packets(libtrace)) != UINT64_MAX) {
1611                                libtrace->filtered_packets += tmp_stats;
1612                        }
1613                }
1614                libtrace->started = false;
1615                if (libtrace->format->ppause_input)
1616                        libtrace->format->ppause_input(libtrace);
1617                // TODO What happens if we don't have pause input??
1618        } else {
1619                int err;
1620                fprintf(stderr, "Trace is not parallel so we are doing a normal pause %s\n", libtrace->uridata);
1621                err = trace_pause(libtrace);
1622                // We should handle this a bit better
1623                if (err)
1624                        return err;
1625        }
1626
1627        // Only set as paused after the pause has been called on the trace
1628        libtrace_change_state(libtrace, STATE_PAUSED, true);
1629        return 0;
1630}
1631
1632/**
1633 * Stop trace finish prematurely as though it meet an EOF
1634 * This should only be called by the main thread
1635 * 1. Calls ppause
1636 * 2. Sends a message asking for threads to finish
1637 * 3. Releases threads which will pause
1638 */
1639DLLEXPORT int trace_pstop(libtrace_t *libtrace)
1640{
1641        int i, err;
1642        libtrace_message_t message = {0};
1643        assert(libtrace);
1644
1645        // Ensure all threads have paused and the underlying trace format has
1646        // been closed and all packets associated are cleaned up
1647        // Pause will do any state checks for us
1648        err = trace_ppause(libtrace);
1649        if (err)
1650                return err;
1651
1652        // Now send a message asking the threads to stop
1653        // This will be retrieved before trying to read another packet
1654       
1655        message.code = MESSAGE_DO_STOP;
1656        trace_send_message_to_perpkts(libtrace, &message);
1657        if (trace_has_dedicated_hasher(libtrace))
1658                trace_send_message_to_thread(libtrace, &libtrace->hasher_thread, &message);
1659       
1660        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1661                trace_send_message_to_thread(libtrace, &libtrace->perpkt_threads[i], &message);
1662        }
1663
1664        // Now release the threads and let them stop
1665        libtrace_change_state(libtrace, STATE_FINSHED, true);
1666        return 0;
1667}
1668
1669/**
1670 * Set the hasher type along with a selected function, if hardware supports
1671 * that generic type of hashing it will be used otherwise the supplied
1672 * hasher function will be used and passed data when called.
1673 *
1674 * @return 0 if successful otherwise -1 on error
1675 */
1676DLLEXPORT int trace_set_hasher(libtrace_t *trace, enum hasher_types type, fn_hasher hasher, void *data) {
1677        int ret = -1;
1678        if (type == HASHER_HARDWARE || (type == HASHER_CUSTOM && !hasher) || (type == HASHER_BALANCE && hasher)) {
1679                return -1;
1680        }
1681
1682        // Save the requirements
1683        trace->hasher_type = type;
1684        if (hasher) {
1685                trace->hasher = hasher;
1686                trace->hasher_data = data;
1687        } else {
1688                trace->hasher = NULL;
1689                // TODO consider how to handle freeing this
1690                trace->hasher_data = NULL;
1691        }
1692
1693        // Try push this to hardware - NOTE hardware could do custom if
1694        // there is a more efficient way to apply it, in this case
1695        // it will simply grab the function out of libtrace_t
1696        if (trace->format->pconfig_input)
1697                ret = trace->format->pconfig_input(trace, TRACE_OPTION_SET_HASHER, &type);
1698
1699        if (ret == -1) {
1700                // We have to deal with this ourself
1701                // This most likely means single threaded reading of the trace
1702                if (!hasher) {
1703                        switch (type)
1704                        {
1705                                case HASHER_CUSTOM:
1706                                case HASHER_BALANCE:
1707                                        return 0;
1708                                case HASHER_BIDIRECTIONAL:
1709                                        trace->hasher = (fn_hasher) toeplitz_hash_packet;
1710                                        trace->hasher_data = calloc(1, sizeof(toeplitz_conf_t));
1711                                        toeplitz_init_config(trace->hasher_data, 1);
1712                                        return 0;
1713                                case HASHER_UNIDIRECTIONAL:
1714                                        trace->hasher = (fn_hasher) toeplitz_hash_packet;
1715                                        trace->hasher_data = calloc(1, sizeof(toeplitz_conf_t));
1716                                        toeplitz_init_config(trace->hasher_data, 0);
1717                                        return 0;
1718                                case HASHER_HARDWARE:
1719                                        return -1;
1720                        }
1721                        return -1;
1722                }
1723        } else {
1724                // The hardware is dealing with this yay
1725                trace->hasher_type = HASHER_HARDWARE;
1726        }
1727
1728        return 0;
1729}
1730
1731// Waits for all threads to finish
1732DLLEXPORT void trace_join(libtrace_t *libtrace) {
1733        int i;
1734
1735        /* Firstly wait for the perpkt threads to finish, since these are
1736         * user controlled */
1737        for (i=0; i< libtrace->perpkt_thread_count; i++) {
1738                //printf("Waiting to join with perpkt #%d\n", i);
1739                ASSERT_RET(pthread_join(libtrace->perpkt_threads[i].tid, NULL), == 0);
1740                //printf("Joined with perpkt #%d\n", i);
1741                // So we must do our best effort to empty the queue - so
1742                // the producer (or any other threads) don't block.
1743                libtrace_packet_t * packet;
1744                assert(libtrace->perpkt_threads[i].state == THREAD_FINISHED);
1745                while(libtrace_ringbuffer_try_read(&libtrace->perpkt_threads[i].rbuffer, (void **) &packet))
1746                        if (packet) // This could be NULL iff the perpkt finishes early
1747                                trace_destroy_packet(packet);
1748        }
1749
1750        /* Now the hasher */
1751        // XXX signal it to stop if it hasn't already we should never be in this situation!!
1752        if (trace_has_dedicated_hasher(libtrace)) {
1753                fprintf(stderr, "Waiting to join with the hasher\n");
1754                pthread_join(libtrace->hasher_thread.tid, NULL);
1755                fprintf(stderr, "Joined with the hasher\n");
1756                assert(libtrace->hasher_thread.state == THREAD_FINISHED);
1757        }
1758
1759        // Now that everything is finished nothing can be touching our
1760        // buffers so clean them up
1761        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1762                // Its possible 1 packet got added by the reducer (or 1 per any other thread) since we cleaned up
1763                // if they lost timeslice before-during a write
1764                libtrace_packet_t * packet;
1765                while(libtrace_ringbuffer_try_read(&libtrace->perpkt_threads[i].rbuffer, (void **) &packet))
1766                        trace_destroy_packet(packet);
1767                if (libtrace->hasher) {
1768                        assert(libtrace_ringbuffer_is_empty(&libtrace->perpkt_threads[i].rbuffer));
1769                        libtrace_ringbuffer_destroy(&libtrace->perpkt_threads[i].rbuffer);
1770                }
1771                // Cannot destroy vector yet, this happens with trace_destroy
1772        }
1773        // TODO consider perpkt threads marking trace as finished before join is called
1774        libtrace_change_state(libtrace, STATE_FINSHED, true);
1775       
1776        // Wait for the tick (keepalive) thread if it has been started
1777        if (libtrace->keepalive_thread.type == THREAD_KEEPALIVE) {
1778                libtrace_message_t msg = {0};
1779                msg.code = MESSAGE_DO_STOP;
1780                fprintf(stderr, "Waiting to join with the keepalive\n");
1781                trace_send_message_to_thread(libtrace, &libtrace->keepalive_thread, &msg);
1782                pthread_join(libtrace->keepalive_thread.tid, NULL);
1783                fprintf(stderr, "Joined with with the keepalive\n");
1784        }
1785       
1786        libtrace_change_state(libtrace, STATE_JOINED, true);
1787        print_memory_stats();
1788}
1789
1790DLLEXPORT int libtrace_thread_get_message_count(libtrace_t * libtrace)
1791{
1792        libtrace_thread_t * t = get_thread_descriptor(libtrace);
1793        assert(t);
1794        return libtrace_message_queue_count(&t->messages);
1795}
1796
1797DLLEXPORT int libtrace_thread_get_message(libtrace_t * libtrace, libtrace_message_t * message)
1798{
1799        libtrace_thread_t * t = get_thread_descriptor(libtrace);
1800        assert(t);
1801        return libtrace_message_queue_get(&t->messages, message);
1802}
1803
1804DLLEXPORT int libtrace_thread_try_get_message(libtrace_t * libtrace, libtrace_message_t * message)
1805{
1806        libtrace_thread_t * t = get_thread_descriptor(libtrace);
1807        assert(t);
1808        return libtrace_message_queue_try_get(&t->messages, message);
1809}
1810
1811/**
1812 * Return backlog indicator
1813 */
1814DLLEXPORT int trace_post_reduce(libtrace_t *libtrace)
1815{
1816        libtrace_message_t message = {0};
1817        message.code = MESSAGE_POST_REDUCE;
1818        message.sender = get_thread_descriptor(libtrace);
1819        return libtrace_message_queue_put(&libtrace->reducer_thread.messages, (void *) &message);
1820}
1821
1822/**
1823 * Return backlog indicator
1824 */
1825DLLEXPORT int trace_send_message_to_reducer(libtrace_t * libtrace, libtrace_message_t * message)
1826{
1827        //printf("Sending message code=%d to reducer\n", message->code);
1828        message->sender = get_thread_descriptor(libtrace);
1829        return libtrace_message_queue_put(&libtrace->reducer_thread.messages, message);
1830}
1831
1832/**
1833 *
1834 */
1835DLLEXPORT int trace_send_message_to_thread(libtrace_t * libtrace, libtrace_thread_t *t, libtrace_message_t * message)
1836{
1837        //printf("Sending message code=%d to reducer\n", message->code);
1838        message->sender = get_thread_descriptor(libtrace);
1839        return libtrace_message_queue_put(&t->messages, message);
1840}
1841
1842DLLEXPORT int trace_send_message_to_perpkts(libtrace_t * libtrace, libtrace_message_t * message)
1843{
1844        int i;
1845        message->sender = get_thread_descriptor(libtrace);
1846        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1847                libtrace_message_queue_put(&libtrace->perpkt_threads[i].messages, message);
1848        }
1849        //printf("Sending message code=%d to reducer\n", message->code);
1850        return 0;
1851}
1852
1853DLLEXPORT void libtrace_result_set_key(libtrace_result_t * result, uint64_t key) {
1854        result->key = key;
1855}
1856DLLEXPORT uint64_t libtrace_result_get_key(libtrace_result_t * result) {
1857        return result->key;
1858}
1859DLLEXPORT void libtrace_result_set_value(libtrace_result_t * result, void * value) {
1860        result->value = value;
1861}
1862DLLEXPORT void* libtrace_result_get_value(libtrace_result_t * result) {
1863        return result->value;
1864}
1865DLLEXPORT void libtrace_result_set_key_value(libtrace_result_t * result, uint64_t key, void * value) {
1866        result->key = key;
1867        result->value = value;
1868}
1869DLLEXPORT void trace_destroy_result(libtrace_result_t ** result) {
1870        free(*result);
1871        result = NULL;
1872        // TODO automatically back with a free list!!
1873}
1874
1875DLLEXPORT void * trace_get_global(libtrace_t *trace)
1876{
1877        return trace->global_blob;
1878}
1879
1880DLLEXPORT void * trace_set_global(libtrace_t *trace, void * data)
1881{
1882        if (trace->global_blob && trace->global_blob != data) {
1883                void * ret = trace->global_blob;
1884                trace->global_blob = data;
1885                return ret;
1886        } else {
1887                trace->global_blob = data;
1888                return NULL;
1889        }
1890}
1891
1892DLLEXPORT void * trace_get_tls(libtrace_thread_t *t)
1893{
1894        return t->user_data;
1895}
1896
1897DLLEXPORT void * trace_set_tls(libtrace_thread_t *t, void * data)
1898{
1899        if(t->user_data && t->user_data != data) {
1900                void *ret = t->user_data;
1901                t->user_data = data;
1902                return ret;
1903        } else {
1904                t->user_data = data;
1905                return NULL;
1906        }
1907}
1908
1909/**
1910 * Publish to the reduce queue, return
1911 */
1912DLLEXPORT void trace_publish_result(libtrace_t *libtrace, uint64_t key, void * value) {
1913        libtrace_result_t res;
1914        res.is_packet = 0;
1915        // Who am I???
1916        int this_thread = get_thread_table_num(libtrace); // Could be worth caching ... ?
1917        libtrace_thread_t * t = &libtrace->perpkt_threads[this_thread];
1918        // Now put it into my table
1919        UNUSED static __thread int count = 0;
1920
1921
1922        libtrace_result_set_key_value(&res, key, value);
1923        /*
1924        if (count == 1)
1925                printf("My vector size is %d\n", libtrace_vector_get_size(&t->vector));
1926        count = (count+1) %1000;
1927        libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1928        */
1929        /*if (count == 1)
1930                printf("My vector size is %d\n", libtrace_deque_get_size(&t->deque));
1931        count = (count+1)%1000;*/
1932        if (libtrace->reducer_flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED)) {
1933                if (libtrace_deque_get_size(&t->deque) >= 800) {
1934                        trace_post_reduce(libtrace);
1935                }
1936                //while (libtrace_deque_get_size(&t->deque) >= 1000)
1937                //      sched_yield();
1938                libtrace_deque_push_back(&t->deque, &res); // Automatically locking for us :)
1939        } else {
1940                //while (libtrace_vector_get_size(&t->vector) >= 1000)
1941                //      sched_yield();
1942
1943                if (libtrace_vector_get_size(&t->vector) >= 800) {
1944                        trace_post_reduce(libtrace);
1945                }
1946                libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1947        }
1948}
1949
1950DLLEXPORT void trace_publish_packet(libtrace_t *libtrace, libtrace_packet_t *packet) {
1951        libtrace_result_t res;
1952        // Who am I???
1953        int this_thread = get_thread_table_num(libtrace); // Could be worth caching ... ?
1954        libtrace_thread_t * t = &libtrace->perpkt_threads[this_thread];
1955        // Now put it into my table
1956        UNUSED static __thread int count = 0;
1957
1958        res.is_packet = 1;
1959        libtrace_result_set_key_value(&res, trace_packet_get_order(packet), packet);
1960        /*
1961        if (count == 1)
1962                printf("My vector size is %d\n", libtrace_vector_get_size(&t->vector));
1963        count = (count+1) %1000;
1964        libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1965        */
1966        /*if (count == 1)
1967                printf("My vector size is %d\n", libtrace_deque_get_size(&t->deque));
1968        count = (count+1)%1000;*/
1969        if (libtrace->reducer_flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED)) {
1970                if (libtrace_deque_get_size(&t->deque) >= 800) {
1971                        trace_post_reduce(libtrace);
1972                }
1973                //while (libtrace_deque_get_size(&t->deque) >= 1000)
1974                //      sched_yield();
1975                libtrace_deque_push_back(&t->deque, &res); // Automatically locking for us :)
1976        } else {
1977                //while (libtrace_vector_get_size(&t->vector) >= 1000)
1978                //      sched_yield();
1979
1980                if (libtrace_vector_get_size(&t->vector) >= 800) {
1981                        trace_post_reduce(libtrace);
1982                }
1983                libtrace_vector_push_back(&t->vector, &res); // Automatically locking for us :)
1984        }
1985}
1986
1987
1988static int compareres(const void* p1, const void* p2)
1989{
1990        if (libtrace_result_get_key((libtrace_result_t *) p1) < libtrace_result_get_key((libtrace_result_t *) p2))
1991                return -1;
1992        if (libtrace_result_get_key((libtrace_result_t *) p1) == libtrace_result_get_key((libtrace_result_t *) p2))
1993                return 0;
1994        else
1995                return 1;
1996}
1997
1998DLLEXPORT int trace_get_results(libtrace_t *libtrace, libtrace_vector_t * results) {
1999        int i;
2000        int flags = libtrace->reducer_flags; // Hint these aren't a changing
2001
2002        libtrace_vector_empty(results);
2003
2004        /* Here we assume queues are in order ascending order and they want
2005         * the smallest result first. If they are not in order the results
2006         * may not be in order.
2007         */
2008        if (flags & (REDUCE_SEQUENTIAL | REDUCE_ORDERED)) {
2009                int live_count = 0;
2010                bool live[libtrace->perpkt_thread_count]; // Set if a trace is alive
2011                uint64_t key[libtrace->perpkt_thread_count]; // Cached keys
2012                uint64_t min_key = UINT64_MAX; // XXX use max int here stdlimit.h?
2013                int min_queue = -1;
2014
2015                /* Loop through check all are alive (have data) and find the smallest */
2016                for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
2017                        libtrace_queue_t *v = &libtrace->perpkt_threads[i].deque;
2018                        if (libtrace_deque_get_size(v) != 0) {
2019                                libtrace_result_t r;
2020                                libtrace_deque_peek_front(v, (void *) &r);
2021                                live_count++;
2022                                live[i] = 1;
2023                                key[i] = libtrace_result_get_key(&r);
2024                                if (i==0 || min_key > key[i]) {
2025                                        min_key = key[i];
2026                                        min_queue = i;
2027                                }
2028                        } else {
2029                                live[i] = 0;
2030                        }
2031                }
2032
2033                /* Now remove the smallest and loop - special case if all threads have joined we always flush whats left */
2034                while ((live_count == libtrace->perpkt_thread_count) || (live_count &&
2035                                ((flags & REDUCE_SEQUENTIAL && min_key == libtrace->expected_key) ||
2036                                libtrace->state == STATE_JOINED))) {
2037                        /* Get the minimum queue and then do stuff */
2038                        libtrace_result_t r;
2039
2040                        assert (libtrace_deque_pop_front(&libtrace->perpkt_threads[min_queue].deque, (void *) &r) == 1);
2041                        libtrace_vector_push_back(results, &r);
2042
2043                        // We expect the key we read +1 now
2044                        libtrace->expected_key = key[min_queue] + 1;
2045
2046                        // Now update the one we just removed
2047                        if (libtrace_deque_get_size(&libtrace->perpkt_threads[min_queue].deque) )
2048                        {
2049                                libtrace_deque_peek_front(&libtrace->perpkt_threads[min_queue].deque, (void *) &r);
2050                                key[min_queue] = libtrace_result_get_key(&r);
2051                                if (key[min_queue] <= min_key) {
2052                                        // We are still the smallest, might be out of order though :(
2053                                        min_key = key[min_queue];
2054                                } else {
2055                                        min_key = key[min_queue]; // Update our minimum
2056                                        // Check all find the smallest again - all are alive
2057                                        for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
2058                                                if (live[i] && min_key > key[i]) {
2059                                                        min_key = key[i];
2060                                                        min_queue = i;
2061                                                }
2062                                        }
2063                                }
2064                        } else {
2065                                live[min_queue] = 0;
2066                                live_count--;
2067                                min_key = UINT64_MAX; // Update our minimum
2068                                // Check all find the smallest again - all are alive
2069                                for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
2070                                        // Still not 100% TODO (what if order is wrong or not increasing)
2071                                        if (live[i] && min_key >= key[i]) {
2072                                                min_key = key[i];
2073                                                min_queue = i;
2074                                        }
2075                                }
2076                        }
2077                }
2078        } else { // Queues are not in order - return all results in the queue
2079                for (i = 0; i < libtrace->perpkt_thread_count; i++) {
2080                        libtrace_vector_append(results, &libtrace->perpkt_threads[i].vector);
2081                }
2082                if (flags & REDUCE_SORT) {
2083                        qsort(results->elements, results->size, results->element_size, &compareres);
2084                }
2085        }
2086        return libtrace_vector_get_size(results);
2087}
2088
2089DLLEXPORT uint64_t trace_packet_get_order(libtrace_packet_t * packet) {
2090        return packet->order;
2091}
2092
2093DLLEXPORT uint64_t trace_packet_get_hash(libtrace_packet_t * packet) {
2094        return packet->hash;
2095}
2096
2097DLLEXPORT void trace_packet_set_order(libtrace_packet_t * packet, uint64_t order) {
2098        packet->order = order;
2099}
2100
2101DLLEXPORT void trace_packet_set_hash(libtrace_packet_t * packet, uint64_t hash) {
2102        packet->hash = hash;
2103}
2104
2105DLLEXPORT int trace_finished(libtrace_t * libtrace) {
2106        // TODO I don't like using this so much, we could use state!!!
2107        return !(libtrace->perpkt_thread_states[THREAD_RUNNING] || libtrace->perpkt_thread_states[THREAD_FINISHING]);
2108}
2109
2110DLLEXPORT int trace_parallel_config(libtrace_t *libtrace, trace_parallel_option_t option, void *value)
2111{
2112        UNUSED int ret = -1;
2113        switch (option) {
2114                case TRACE_OPTION_TICK_INTERVAL:
2115                        libtrace->tick_interval = *((int *) value);
2116                        return 1;
2117                case TRACE_OPTION_SET_HASHER:
2118                        return trace_set_hasher(libtrace, (enum hasher_types) *((int *) value), NULL, NULL);
2119                case TRACE_OPTION_SET_PERPKT_BUFFER_SIZE:
2120                        libtrace->perpkt_buffer_size = *((int *) value);
2121                        return 1;
2122                case TRACE_OPTION_SET_PACKET_FREELIST_SIZE:
2123                        libtrace->packet_freelist_size = *((int *) value);
2124                        return 1;
2125                case TRACE_OPTION_SET_PERPKT_THREAD_COUNT:
2126                        libtrace->perpkt_thread_count = *((int *) value);
2127                        return 1;
2128                case TRACE_DROP_OUT_OF_ORDER:
2129                        if (*((int *) value))
2130                                libtrace->reducer_flags |= REDUCE_DROP_OOO;
2131                        else
2132                                libtrace->reducer_flags &= ~REDUCE_DROP_OOO;
2133                        return 1;
2134                case TRACE_OPTION_SEQUENTIAL:
2135                        if (*((int *) value))
2136                                libtrace->reducer_flags |= REDUCE_SEQUENTIAL;
2137                        else
2138                                libtrace->reducer_flags &= ~REDUCE_SEQUENTIAL;
2139                        return 1;
2140                case TRACE_OPTION_ORDERED:
2141                        if (*((int *) value))
2142                                libtrace->reducer_flags |= REDUCE_ORDERED;
2143                        else
2144                                libtrace->reducer_flags &= ~REDUCE_ORDERED;
2145                        return 1;
2146                case TRACE_OPTION_TRACETIME:
2147                        if(*((int *) value))
2148                                libtrace->tracetime = 1;
2149                        else
2150                                libtrace->tracetime = 0;
2151                        return 0;
2152        }
2153        return 0;
2154}
2155
2156DLLEXPORT libtrace_packet_t* trace_result_packet(libtrace_t * libtrace, libtrace_packet_t * packet) {
2157        libtrace_packet_t* result;
2158        libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &result, 1, 1);
2159        assert(result);
2160        swap_packets(result, packet); // Move the current packet into our copy
2161        return result;
2162}
2163
2164DLLEXPORT void trace_free_result_packet(libtrace_t *libtrace, libtrace_packet_t *packet) {
2165        // Try write back the packet
2166        assert(packet);
2167        // Always release any resources this might be holding such as a slot in a ringbuffer
2168        trace_fin_packet(packet);
2169        libtrace_ocache_free(&libtrace->packet_freelist, (void **) &packet, 1, 1);
2170}
2171
2172DLLEXPORT libtrace_info_t *trace_get_information(libtrace_t * libtrace) {
2173        if (libtrace->format)
2174                return &libtrace->format->info;
2175        else
2176                return NULL;
2177}
Note: See TracBrowser for help on using the repository browser.