source: lib/trace_parallel.c @ d3849c7

4.0.1-hotfixescachetimestampsdevelopdpdk-ndagetsilivelibtrace4ndag_formatpfringrc-4.0.1rc-4.0.2rc-4.0.3rc-4.0.4ringdecrementfixringperformanceringtimestampfixes
Last change on this file since d3849c7 was d3849c7, checked in by Richard Sanger <rsangerarj@…>, 6 years ago

Remove lots of debug prints

  • Property mode set to 100644
File size: 75.3 KB
Line 
1/*
2 * This file is part of libtrace
3 *
4 * Copyright (c) 2007,2008,2009,2010 The University of Waikato, Hamilton,
5 * New Zealand.
6 *
7 * All rights reserved.
8 *
9 * This code has been developed by the University of Waikato WAND
10 * research group. For further information please see http://www.wand.net.nz/
11 *
12 * libtrace is free software; you can redistribute it and/or modify
13 * it under the terms of the GNU General Public License as published by
14 * the Free Software Foundation; either version 2 of the License, or
15 * (at your option) any later version.
16 *
17 * libtrace is distributed in the hope that it will be useful,
18 * but WITHOUT ANY WARRANTY; without even the implied warranty of
19 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
20 * GNU General Public License for more details.
21 *
22 * You should have received a copy of the GNU General Public License
23 * along with libtrace; if not, write to the Free Software
24 * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
25 *
26 * $Id$
27 *
28 */
29
30
31#define _GNU_SOURCE
32#include "common.h"
33#include "config.h"
34#include <assert.h>
35#include <errno.h>
36#include <fcntl.h>
37#include <stdio.h>
38#include <stdlib.h>
39#include <string.h>
40#include <sys/stat.h>
41#include <sys/types.h>
42#ifndef WIN32
43#include <sys/socket.h>
44#endif
45#include <stdarg.h>
46#include <sys/param.h>
47
48#ifdef HAVE_LIMITS_H
49#  include <limits.h>
50#endif
51
52#ifdef HAVE_SYS_LIMITS_H
53#  include <sys/limits.h>
54#endif
55
56#ifdef HAVE_NET_IF_ARP_H
57#  include <net/if_arp.h>
58#endif
59
60#ifdef HAVE_NET_IF_H
61#  include <net/if.h>
62#endif
63
64#ifdef HAVE_NETINET_IN_H
65#  include <netinet/in.h>
66#endif
67
68#ifdef HAVE_NET_ETHERNET_H
69#  include <net/ethernet.h>
70#endif
71
72#ifdef HAVE_NETINET_IF_ETHER_H
73#  include <netinet/if_ether.h>
74#endif
75
76#include <time.h>
77#ifdef WIN32
78#include <sys/timeb.h>
79#endif
80
81#include "libtrace.h"
82#include "libtrace_int.h"
83
84#ifdef HAVE_PCAP_BPF_H
85#  include <pcap-bpf.h>
86#else
87#  ifdef HAVE_NET_BPF_H
88#    include <net/bpf.h>
89#  endif
90#endif
91
92
93#include "libtrace_int.h"
94#include "format_helper.h"
95#include "rt_protocol.h"
96#include "hash_toeplitz.h"
97
98#include <pthread.h>
99#include <signal.h>
100#include <unistd.h>
101#include <ctype.h>
102
103static inline int delay_tracetime(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t);
104extern int libtrace_parallel;
105
106struct mem_stats {
107        struct memfail {
108           uint64_t cache_hit;
109           uint64_t ring_hit;
110           uint64_t miss;
111           uint64_t recycled;
112        } readbulk, read, write, writebulk;
113};
114
115// Grrr gcc wants this spelt out
116__thread struct mem_stats mem_hits = {{0},{0},{0},{0}};
117
118static void print_memory_stats() {
119#if 0
120        uint64_t total;
121#if defined(HAVE_PTHREAD_SETNAME_NP) && defined(__linux__)
122        char t_name[50];
123        pthread_getname_np(pthread_self(), t_name, sizeof(t_name));
124
125        fprintf(stderr, "Thread ID#%d - %s\n", (int) pthread_self(), t_name);
126#else
127        fprintf(stderr, "Thread ID#%d\n", (int) pthread_self());
128#endif
129
130        total = mem_hits.read.cache_hit + mem_hits.read.ring_hit + mem_hits.read.miss;
131        if (total) {
132                fprintf(stderr, "\tRead:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
133                                mem_hits.read.cache_hit, mem_hits.read.ring_hit, mem_hits.read.miss, mem_hits.read.recycled);
134                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
135                                total, (double) mem_hits.read.miss / (double) total * 100.0);
136        }
137
138        total = mem_hits.readbulk.cache_hit + mem_hits.readbulk.ring_hit + mem_hits.readbulk.miss;
139        if (total) {
140                fprintf(stderr, "\tReadbulk:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
141                                mem_hits.readbulk.cache_hit, mem_hits.readbulk.ring_hit, mem_hits.readbulk.miss, mem_hits.readbulk.recycled);
142
143
144                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
145                                total, (double) mem_hits.readbulk.miss / (double) total * 100.0);
146        }
147
148        total = mem_hits.write.cache_hit + mem_hits.write.ring_hit + mem_hits.write.miss;
149        if (total) {
150                fprintf(stderr, "\tWrite:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
151                                mem_hits.write.cache_hit, mem_hits.write.ring_hit, mem_hits.write.miss, mem_hits.write.recycled);
152
153                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
154                                total, (double) mem_hits.write.miss / (double) total * 100.0);
155        }
156
157        total = mem_hits.writebulk.cache_hit + mem_hits.writebulk.ring_hit + mem_hits.writebulk.miss;
158        if (total) {
159                fprintf(stderr, "\tWritebulk:\n\t---CHits=%"PRIu64"\n\t---RHits=%"PRIu64"\n\t---Misses=%"PRIu64"\n\t---Recycled=%"PRIu64"\n",
160                                mem_hits.writebulk.cache_hit, mem_hits.writebulk.ring_hit, mem_hits.writebulk.miss, mem_hits.writebulk.recycled);
161
162                fprintf(stderr, "\t---Total=%"PRIu64"\n\t---Miss %%=%f\n",
163                                total, (double) mem_hits.writebulk.miss / (double) total * 100.0);
164        }
165#endif
166}
167
168/*
169 * This can be used once the hasher thread has been started and internally after
170 * verify_configuration.
171 */
172DLLEXPORT bool trace_has_dedicated_hasher(libtrace_t * libtrace)
173{
174        return libtrace->hasher_thread.type == THREAD_HASHER;
175}
176
177DLLEXPORT bool trace_has_reporter(libtrace_t * libtrace)
178{
179        assert(libtrace->state != STATE_NEW);
180        return libtrace->reporter_thread.type == THREAD_REPORTER && libtrace->reporter;
181}
182
183/**
184 * When running the number of perpkt threads in use.
185 * TODO what if the trace is not running yet, or has finished??
186 *
187 * @brief libtrace_perpkt_thread_nb
188 * @param t The trace
189 * @return
190 */
191DLLEXPORT int libtrace_get_perpkt_count(libtrace_t * t) {
192        return t->perpkt_thread_count;
193}
194
195/**
196 * Changes the overall traces state and signals the condition.
197 *
198 * @param trace A pointer to the trace
199 * @param new_state The new state of the trace
200 * @param need_lock Set to true if libtrace_lock is not held, otherwise
201 *        false in the case the lock is currently held by this thread.
202 */
203static inline void libtrace_change_state(libtrace_t *trace,
204        const enum trace_state new_state, const bool need_lock)
205{
206        UNUSED enum trace_state prev_state;
207        if (need_lock)
208                pthread_mutex_lock(&trace->libtrace_lock);
209        prev_state = trace->state;
210        trace->state = new_state;
211
212        if (trace->config.debug_state)
213                fprintf(stderr, "Trace(%s) state changed from %s to %s\n",
214                        trace->uridata, get_trace_state_name(prev_state),
215                        get_trace_state_name(trace->state));
216
217        pthread_cond_broadcast(&trace->perpkt_cond);
218        if (need_lock)
219                pthread_mutex_unlock(&trace->libtrace_lock);
220}
221
222/**
223 * Changes a thread's state and broadcasts the condition variable. This
224 * should always be done when the lock is held.
225 *
226 * Additionally for perpkt threads the state counts are updated.
227 *
228 * @param trace A pointer to the trace
229 * @param t A pointer to the thread to modify
230 * @param new_state The new state of the thread
231 * @param need_lock Set to true if libtrace_lock is not held, otherwise
232 *        false in the case the lock is currently held by this thread.
233 */
234static inline void thread_change_state(libtrace_t *trace, libtrace_thread_t *t,
235        const enum thread_states new_state, const bool need_lock)
236{
237        enum thread_states prev_state;
238        if (need_lock)
239                pthread_mutex_lock(&trace->libtrace_lock);
240        prev_state = t->state;
241        t->state = new_state;
242        if (t->type == THREAD_PERPKT) {
243                --trace->perpkt_thread_states[prev_state];
244                ++trace->perpkt_thread_states[new_state];
245        }
246
247        if (trace->config.debug_state)
248                fprintf(stderr, "Thread %d state changed from %d to %d\n",
249                        (int) t->tid, prev_state, t->state);
250
251        if (trace->perpkt_thread_states[THREAD_FINISHED] == trace->perpkt_thread_count)
252                libtrace_change_state(trace, STATE_FINISHED, false);
253
254        pthread_cond_broadcast(&trace->perpkt_cond);
255        if (need_lock)
256                pthread_mutex_unlock(&trace->libtrace_lock);
257}
258
259/**
260 * This is valid once a trace is initialised
261 *
262 * @return True if the format supports parallel threads.
263 */
264static inline bool trace_supports_parallel(libtrace_t *trace)
265{
266        assert(trace);
267        assert(trace->format);
268        if (trace->format->pstart_input)
269                return true;
270        else
271                return false;
272}
273
274void libtrace_zero_thread(libtrace_thread_t * t) {
275        t->accepted_packets = 0;
276        t->filtered_packets = 0;
277        t->recorded_first = false;
278        t->tracetime_offset_usec = 0;
279        t->user_data = 0;
280        t->format_data = 0;
281        libtrace_zero_ringbuffer(&t->rbuffer);
282        t->trace = NULL;
283        t->ret = NULL;
284        t->type = THREAD_EMPTY;
285        t->perpkt_num = -1;
286}
287
288// Ints are aligned int is atomic so safe to read and write at same time
289// However write must be locked, read doesn't (We never try read before written to table)
290libtrace_thread_t * get_thread_table(libtrace_t *libtrace) {
291        int i = 0;
292        pthread_t tid = pthread_self();
293
294        for (;i<libtrace->perpkt_thread_count ;++i) {
295                if (pthread_equal(tid, libtrace->perpkt_threads[i].tid))
296                        return &libtrace->perpkt_threads[i];
297        }
298        return NULL;
299}
300
301static libtrace_thread_t * get_thread_descriptor(libtrace_t *libtrace) {
302        libtrace_thread_t *ret;
303        if (!(ret = get_thread_table(libtrace))) {
304                pthread_t tid = pthread_self();
305                // Check if we are reporter or something else
306                if (pthread_equal(tid, libtrace->reporter_thread.tid))
307                        ret = &libtrace->reporter_thread;
308                else if (pthread_equal(tid, libtrace->hasher_thread.tid))
309                        ret = &libtrace->hasher_thread;
310                else
311                        ret = NULL;
312        }
313        return ret;
314}
315
316DLLEXPORT void libtrace_make_packet_safe(libtrace_packet_t *pkt) {
317        // Duplicate the packet in standard malloc'd memory and free the
318        // original, This is a 1:1 exchange so is ocache count remains unchanged.
319        if (pkt->buf_control != TRACE_CTRL_PACKET) {
320                libtrace_packet_t *dup;
321                dup = trace_copy_packet(pkt);
322                /* Release the external buffer */
323                trace_fin_packet(pkt);
324                /* Copy the duplicated packet over the existing */
325                memcpy(pkt, dup, sizeof(libtrace_packet_t));
326        }
327}
328
329/**
330 * Makes a libtrace_result_t safe, used when pausing a trace.
331 * This will call libtrace_make_packet_safe if the result is
332 * a packet.
333 */
334DLLEXPORT void libtrace_make_result_safe(libtrace_result_t *res) {
335        if (res->type == RESULT_PACKET) {
336                libtrace_make_packet_safe(res->value.pkt);
337        }
338}
339
340/**
341 * Holds threads in a paused state, until released by broadcasting
342 * the condition mutex.
343 */
344static void trace_thread_pause(libtrace_t *trace, libtrace_thread_t *t) {
345        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
346        thread_change_state(trace, t, THREAD_PAUSED, false);
347        while (trace->state == STATE_PAUSED || trace->state == STATE_PAUSING) {
348                ASSERT_RET(pthread_cond_wait(&trace->perpkt_cond, &trace->libtrace_lock), == 0);
349        }
350        thread_change_state(trace, t, THREAD_RUNNING, false);
351        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
352}
353
354/**
355 * Sends a packet to the user, expects either a valid packet or a TICK packet.
356 *
357 * @param trace The trace
358 * @param t The current thread
359 * @param packet A pointer to the packet storage, which may be set to null upon
360 *               return, or a packet to be finished.
361 * @param tracetime If true packets are delayed to match with tracetime
362 * @return 0 is successful, otherwise if playing back in tracetime
363 *         READ_MESSAGE(-2) can be returned in which case the packet is not sent.
364 *
365 * @note READ_MESSAGE will only be returned if tracetime is true.
366 */
367static inline int dispatch_packet(libtrace_t *trace,
368                                  libtrace_thread_t *t,
369                                  libtrace_packet_t **packet,
370                                  bool tracetime) {
371
372        if ((*packet)->error > 0) {
373                if (tracetime) {
374                        if (delay_tracetime(trace, packet[0], t) == READ_MESSAGE)
375                                return READ_MESSAGE;
376                }
377                t->accepted_packets++;
378                libtrace_generic_t data = {.pkt = *packet};
379                *packet = (*trace->per_pkt)(trace, t, MESSAGE_PACKET, data, t);
380                trace_fin_packet(*packet);
381        } else {
382                assert((*packet)->error == READ_TICK);
383                libtrace_generic_t data = {.uint64 = trace_packet_get_order(*packet)};
384                (*trace->per_pkt)(trace, t, MESSAGE_TICK_COUNT, data, t);
385        }
386        return 0;
387}
388
389/**
390 * Sends a batch of packets to the user, expects either a valid packet or a
391 * TICK packet.
392 *
393 * @param trace The trace
394 * @param t The current thread
395 * @param packets [in,out] An array of packets, these may be null upon return
396 * @param nb_packets The total number of packets in the list
397 * @param empty [in,out] A pointer to an integer storing the first empty slot,
398 * upon return this is updated
399 * @param offset [in,out] The offset into the array, upon return this is updated
400 * @param tracetime If true packets are delayed to match with tracetime
401 * @return 0 is successful, otherwise if playing back in tracetime
402 *         READ_MESSAGE(-2) can be returned in which case the packet is not sent.
403 *
404 * @note READ_MESSAGE will only be returned if tracetime is true.
405 */
406static inline int dispatch_packets(libtrace_t *trace,
407                                  libtrace_thread_t *t,
408                                  libtrace_packet_t *packets[],
409                                  int nb_packets, int *empty, int *offset,
410                                  bool tracetime) {
411        for (;*offset < nb_packets; ++*offset) {
412                int ret;
413                ret = dispatch_packet(trace, t, &packets[*offset], tracetime);
414                if (ret == 0) {
415                        /* Move full slots to front as we go */
416                        if (packets[*offset]) {
417                                if (*empty != *offset) {
418                                        packets[*empty] = packets[*offset];
419                                        packets[*offset] = NULL;
420                                }
421                                ++*empty;
422                        }
423                } else {
424                        /* Break early */
425                        assert(ret == READ_MESSAGE);
426                        return READ_MESSAGE;
427                }
428        }
429
430        return 0;
431}
432
433/**
434 * Pauses a per packet thread, messages will not be processed when the thread
435 * is paused.
436 *
437 * This process involves reading packets if a hasher thread is used. As such
438 * this function can fail to pause due to errors when reading in which case
439 * the thread should be stopped instead.
440 *
441 *
442 * @brief trace_perpkt_thread_pause
443 * @return READ_ERROR(-1) or READ_EOF(0) or 1 if successfull
444 */
445static int trace_perpkt_thread_pause(libtrace_t *trace, libtrace_thread_t *t,
446                                     libtrace_packet_t *packets[],
447                                     int nb_packets, int *empty, int *offset) {
448        libtrace_packet_t * packet = NULL;
449
450        /* Let the user thread know we are going to pause */
451        (*trace->per_pkt)(trace, t, MESSAGE_PAUSING, (libtrace_generic_t){0}, t);
452
453        /* Send through any remaining packets (or messages) without delay */
454
455        /* First send those packets already read, as fast as possible
456         * This should never fail or check for messages etc. */
457        ASSERT_RET(dispatch_packets(trace, t, packets, nb_packets, empty,
458                                    offset, false), == 0);
459
460        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packet, 1, 1);
461        /* If a hasher thread is running, empty input queues so we don't lose data */
462        if (trace_has_dedicated_hasher(trace)) {
463                // The hasher has stopped by this point, so the queue shouldn't be filling
464                while(!libtrace_ringbuffer_is_empty(&t->rbuffer) || t->format_data) {
465                        int ret = trace->pread(trace, t, &packet, 1);
466                        if (ret == 1) {
467                                if (packet->error > 0) {
468                                        store_first_packet(trace, packet, t);
469                                }
470                                ASSERT_RET(dispatch_packet(trace, t, &packet, false), == 0);
471                                if (packet == NULL)
472                                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packet, 1, 1);
473                        } else if (ret != READ_MESSAGE) {
474                                /* Ignore messages we pick these up next loop */
475                                assert (ret == READ_EOF || ret == READ_ERROR);
476                                /* Verify no packets are remaining */
477                                /* TODO refactor this sanity check out!! */
478                                while (!libtrace_ringbuffer_is_empty(&t->rbuffer)) {
479                                        ASSERT_RET(trace->pread(trace, t, &packet, 1), <= 0);
480                                        // No packets after this should have any data in them
481                                        assert(packet->error <= 0);
482                                }
483                                libtrace_ocache_free(&trace->packet_freelist, (void **) &packet, 1, 1);
484                                return -1;
485                        }
486                }
487        }
488        libtrace_ocache_free(&trace->packet_freelist, (void **) &packet, 1, 1);
489
490        /* Now we do the actual pause, this returns when we resumed */
491        trace_thread_pause(trace, t);
492        (*trace->per_pkt)(trace, t, MESSAGE_RESUMING, (libtrace_generic_t){0}, t);
493        return 1;
494}
495
496/**
497 * The is the entry point for our packet processing threads.
498 */
499static void* perpkt_threads_entry(void *data) {
500        libtrace_t *trace = (libtrace_t *)data;
501        libtrace_thread_t *t;
502        libtrace_message_t message = {0};
503        libtrace_packet_t *packets[trace->config.burst_size];
504        size_t i;
505        //int ret;
506        /* The current reading position into the packets */
507        int offset = 0;
508        /* The number of packets last read */
509        int nb_packets = 0;
510        /* The offset to the first NULL packet upto offset */
511        int empty = 0;
512
513        /* Wait until trace_pstart has been completed */
514        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
515        t = get_thread_table(trace);
516        assert(t);
517        if (trace->state == STATE_ERROR) {
518                thread_change_state(trace, t, THREAD_FINISHED, false);
519                ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
520                pthread_exit(NULL);
521        }
522        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
523
524        if (trace->format->pregister_thread) {
525                trace->format->pregister_thread(trace, t, !trace_has_dedicated_hasher(trace));
526        }
527
528        /* Fill our buffer with empty packets */
529        memset(&packets, 0, sizeof(void*) * trace->config.burst_size);
530        libtrace_ocache_alloc(&trace->packet_freelist, (void **) packets,
531                              trace->config.burst_size,
532                              trace->config.burst_size);
533
534        /* ~~~~~~~~~~~ Setup complete now we loop ~~~~~~~~~~~~~~~ */
535
536        /* Let the per_packet function know we have started */
537        (*trace->per_pkt)(trace, t, MESSAGE_STARTING, (libtrace_generic_t){0}, t);
538        (*trace->per_pkt)(trace, t, MESSAGE_RESUMING, (libtrace_generic_t){0}, t);
539
540        for (;;) {
541
542                if (libtrace_message_queue_try_get(&t->messages, &message) != LIBTRACE_MQ_FAILED) {
543                        int ret;
544                        switch (message.code) {
545                                case MESSAGE_DO_PAUSE: // This is internal
546                                        ret = trace_perpkt_thread_pause(trace, t,
547                                              packets, nb_packets, &empty, &offset);
548                                        if (ret == READ_EOF) {
549                                                goto eof;
550                                        } else if (ret == READ_ERROR) {
551                                                goto error;
552                                        }
553                                        assert(ret == 1);
554                                        continue;
555                                case MESSAGE_DO_STOP: // This is internal
556                                        goto eof;
557                        }
558                        (*trace->per_pkt)(trace, t, message.code, message.data, message.sender);
559                        /* Continue and the empty messages out before packets */
560                        continue;
561                }
562
563
564                /* Do we need to read a new set of packets MOST LIKELY we do */
565                if (offset == nb_packets) {
566                        /* Refill the packet buffer */
567                        if (empty != nb_packets) {
568                                // Refill the empty packets
569                                libtrace_ocache_alloc(&trace->packet_freelist,
570                                                      (void **) &packets[empty],
571                                                      nb_packets - empty,
572                                                      nb_packets - empty);
573                        }
574                        if (!trace->pread) {
575                                assert(packets[0]);
576                                nb_packets = trace_read_packet(trace, packets[0]);
577                                packets[0]->error = nb_packets;
578                                if (nb_packets > 0)
579                                        nb_packets = 1;
580                        } else {
581                                nb_packets = trace->pread(trace, t, packets, trace->config.burst_size);
582                        }
583                        offset = 0;
584                        empty = 0;
585                }
586
587                /* Handle error/message cases */
588                if (nb_packets > 0) {
589                        /* Store the first packet */
590                        if (packets[0]->error > 0) {
591                                store_first_packet(trace, packets[0], t);
592                        }
593                        dispatch_packets(trace, t, packets, nb_packets, &empty,
594                                         &offset, trace->tracetime);
595                } else {
596                        switch (nb_packets) {
597                        case READ_EOF:
598                                goto eof;
599                        case READ_ERROR:
600                                goto error;
601                        case READ_MESSAGE:
602                                nb_packets = 0;
603                                continue;
604                        default:
605                                fprintf(stderr, "Unexpected error %d!!\n", nb_packets);
606                                goto error;
607                        }
608                }
609
610        }
611
612error:
613        message.code = MESSAGE_DO_STOP;
614        message.sender = t;
615        message.data.uint64 = 0;
616        trace_message_perpkts(trace, &message);
617eof:
618        /* ~~~~~~~~~~~~~~ Trace is finished do tear down ~~~~~~~~~~~~~~~~~~~~~ */
619
620        // Let the per_packet function know we have stopped
621        (*trace->per_pkt)(trace, t, MESSAGE_PAUSING, (libtrace_generic_t){0}, t);
622        (*trace->per_pkt)(trace, t, MESSAGE_STOPPING, (libtrace_generic_t){0}, t);
623
624        // Free any remaining packets
625        for (i = 0; i < trace->config.burst_size; i++) {
626                if (packets[i]) {
627                        libtrace_ocache_free(&trace->packet_freelist, (void **) &packets[i], 1, 1);
628                        packets[i] = NULL;
629                }
630        }
631
632        thread_change_state(trace, t, THREAD_FINISHED, true);
633
634        /* Make sure the reporter sees we have finished */
635        if (trace_has_reporter(trace))
636                trace_post_reporter(trace);
637
638        // Release all ocache memory before unregistering with the format
639        // because this might(it does in DPDK) unlink the formats mempool
640        // causing destroy/finish packet to fail.
641        libtrace_ocache_unregister_thread(&trace->packet_freelist);
642        if (trace->format->punregister_thread) {
643                trace->format->punregister_thread(trace, t);
644        }
645        print_memory_stats();
646
647        pthread_exit(NULL);
648}
649
650/**
651 * The start point for our single threaded hasher thread, this will read
652 * and hash a packet from a data source and queue it against the correct
653 * core to process it.
654 */
655static void* hasher_entry(void *data) {
656        libtrace_t *trace = (libtrace_t *)data;
657        libtrace_thread_t * t;
658        int i;
659        libtrace_packet_t * packet;
660        libtrace_message_t message = {0};
661        int pkt_skipped = 0;
662
663        assert(trace_has_dedicated_hasher(trace));
664        /* Wait until all threads are started and objects are initialised (ring buffers) */
665        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
666        t = &trace->hasher_thread;
667        assert(t->type == THREAD_HASHER && pthread_equal(pthread_self(), t->tid));
668        if (trace->state == STATE_ERROR) {
669                thread_change_state(trace, t, THREAD_FINISHED, false);
670                ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
671                pthread_exit(NULL);
672        }
673        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
674
675        /* We are reading but it is not the parallel API */
676        if (trace->format->pregister_thread) {
677                trace->format->pregister_thread(trace, t, true);
678        }
679
680        /* Read all packets in then hash and queue against the correct thread */
681        while (1) {
682                int thread;
683                if (!pkt_skipped)
684                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &packet, 1, 1);
685                assert(packet);
686
687                if (libtrace_halt) {
688                        packet->error = 0;
689                        break;
690                }
691
692                // Check for messages that we expect MESSAGE_DO_PAUSE, (internal messages only)
693                if (libtrace_message_queue_try_get(&t->messages, &message) != LIBTRACE_MQ_FAILED) {
694                        switch(message.code) {
695                                case MESSAGE_DO_PAUSE:
696                                        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
697                                        thread_change_state(trace, t, THREAD_PAUSED, false);
698                                        pthread_cond_broadcast(&trace->perpkt_cond);
699                                        while (trace->state == STATE_PAUSED || trace->state == STATE_PAUSING) {
700                                                ASSERT_RET(pthread_cond_wait(&trace->perpkt_cond, &trace->libtrace_lock), == 0);
701                                        }
702                                        thread_change_state(trace, t, THREAD_RUNNING, false);
703                                        pthread_cond_broadcast(&trace->perpkt_cond);
704                                        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
705                                        break;
706                                case MESSAGE_DO_STOP:
707                                        assert(trace->started == false);
708                                        assert(trace->state == STATE_FINISHED);
709                                        /* Mark the current packet as EOF */
710                                        packet->error = 0;
711                                        break;
712                                default:
713                                        fprintf(stderr, "Hasher thread didn't expect message code=%d\n", message.code);
714                        }
715                        pkt_skipped = 1;
716                        continue;
717                }
718
719                if ((packet->error = trace_read_packet(trace, packet)) <1) {
720                        break; /* We are EOF or error'd either way we stop  */
721                }
722
723                /* We are guaranteed to have a hash function i.e. != NULL */
724                trace_packet_set_hash(packet, (*trace->hasher)(packet, trace->hasher_data));
725                thread = trace_packet_get_hash(packet) % trace->perpkt_thread_count;
726                /* Blocking write to the correct queue - I'm the only writer */
727                if (trace->perpkt_threads[thread].state != THREAD_FINISHED) {
728                        uint64_t order = trace_packet_get_order(packet);
729                        libtrace_ringbuffer_write(&trace->perpkt_threads[thread].rbuffer, packet);
730                        if (trace->config.tick_count && order % trace->config.tick_count == 0) {
731                                // Write ticks to everyone else
732                                libtrace_packet_t * pkts[trace->perpkt_thread_count];
733                                memset(pkts, 0, sizeof(void *) * trace->perpkt_thread_count);
734                                libtrace_ocache_alloc(&trace->packet_freelist, (void **) pkts, trace->perpkt_thread_count, trace->perpkt_thread_count);
735                                for (i = 0; i < trace->perpkt_thread_count; i++) {
736                                        pkts[i]->error = READ_TICK;
737                                        trace_packet_set_order(pkts[i], order);
738                                        libtrace_ringbuffer_write(&trace->perpkt_threads[i].rbuffer, pkts[i]);
739                                }
740                        }
741                        pkt_skipped = 0;
742                } else {
743                        assert(!"Dropping a packet!!");
744                        pkt_skipped = 1; // Reuse that packet no one read it
745                }
746        }
747
748        /* Broadcast our last failed read to all threads */
749        for (i = 0; i < trace->perpkt_thread_count; i++) {
750                libtrace_packet_t * bcast;
751                if (i == trace->perpkt_thread_count - 1) {
752                        bcast = packet;
753                } else {
754                        libtrace_ocache_alloc(&trace->packet_freelist, (void **) &bcast, 1, 1);
755                        bcast->error = packet->error;
756                }
757                ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
758                if (trace->perpkt_threads[i].state != THREAD_FINISHED) {
759                        // Unlock early otherwise we could deadlock
760                        libtrace_ringbuffer_write(&trace->perpkt_threads[i].rbuffer, bcast);
761                }
762                ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
763        }
764
765        // We don't need to free the packet
766        thread_change_state(trace, t, THREAD_FINISHED, true);
767
768        libtrace_ocache_unregister_thread(&trace->packet_freelist);
769        if (trace->format->punregister_thread) {
770                trace->format->punregister_thread(trace, t);
771        }
772        print_memory_stats();
773
774        // TODO remove from TTABLE t sometime
775        pthread_exit(NULL);
776}
777
778/* Our simplest case when a thread becomes ready it can obtain an exclusive
779 * lock to read packets from the underlying trace.
780 */
781static int trace_pread_packet_first_in_first_served(libtrace_t *libtrace,
782                                                    libtrace_thread_t *t,
783                                                    libtrace_packet_t *packets[],
784                                                    size_t nb_packets) {
785        size_t i = 0;
786        //bool tick_hit = false;
787
788        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
789        /* Read nb_packets */
790        for (i = 0; i < nb_packets; ++i) {
791                if (libtrace_halt) {
792                        break;
793                }
794                packets[i]->error = trace_read_packet(libtrace, packets[i]);
795
796                if (packets[i]->error <= 0) {
797                        /* We'll catch this next time if we have already got packets */
798                        if ( i==0 ) {
799                                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
800                                return packets[i]->error;
801                        } else {
802                                break;
803                        }
804                }
805                /*
806                if (libtrace->config.tick_count && trace_packet_get_order(packets[i]) % libtrace->config.tick_count == 0) {
807                        tick_hit = true;
808                }*/
809        }
810        // Doing this inside the lock ensures the first packet is always
811        // recorded first
812        if (packets[0]->error > 0) {
813                store_first_packet(libtrace, packets[0], t);
814        }
815        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
816        /* XXX TODO this needs to be inband with packets, or we don't bother in this case
817        if (tick_hit) {
818                libtrace_message_t tick;
819                tick.additional.uint64 = trace_packet_get_order(packets[i]);
820                tick.code = MESSAGE_TICK;
821                trace_send_message_to_perpkts(libtrace, &tick);
822        } */
823        return i;
824}
825
826/**
827 * For the case that we have a dedicated hasher thread
828 * 1. We read a packet from our buffer
829 * 2. Move that into the packet provided (packet)
830 */
831inline static int trace_pread_packet_hasher_thread(libtrace_t *libtrace,
832                                                   libtrace_thread_t *t,
833                                                   libtrace_packet_t *packets[],
834                                                   size_t nb_packets) {
835        size_t i;
836
837        /* We store the last error message here */
838        if (t->format_data) {
839                return ((libtrace_packet_t *)t->format_data)->error;
840        }
841
842        // Always grab at least one
843        if (packets[0]) // Recycle the old get the new
844                libtrace_ocache_free(&libtrace->packet_freelist, (void **) packets, 1, 1);
845        packets[0] = libtrace_ringbuffer_read(&t->rbuffer);
846
847        if (packets[0]->error <= 0 && packets[0]->error != READ_TICK) {
848                return packets[0]->error;
849        }
850
851        for (i = 1; i < nb_packets; i++) {
852                if (packets[i]) // Recycle the old get the new
853                        libtrace_ocache_free(&libtrace->packet_freelist, (void **) &packets[i], 1, 1);
854                if (!libtrace_ringbuffer_try_read(&t->rbuffer, (void **) &packets[i])) {
855                        packets[i] = NULL;
856                        break;
857                }
858
859                /* We will return an error or EOF the next time around */
860                if (packets[i]->error <= 0 && packets[0]->error != READ_TICK) {
861                        /* The message case will be checked automatically -
862                           However other cases like EOF and error will only be
863                           sent once*/
864                        if (packets[i]->error != READ_MESSAGE) {
865                                assert(t->format_data == NULL);
866                                t->format_data = packets[i];
867                        }
868                        break;
869                }
870        }
871
872        return i;
873}
874
875/**
876 * For the first packet of each queue we keep a copy and note the system
877 * time it was received at.
878 *
879 * This is used for finding the first packet when playing back a trace
880 * in trace time. And can be used by real time applications to print
881 * results out every XXX seconds.
882 */
883void store_first_packet(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t)
884{
885        if (!t->recorded_first) {
886                libtrace_message_t mesg = {0};
887                struct timeval tv;
888                libtrace_packet_t * dup;
889
890                /* We mark system time against a copy of the packet */
891                gettimeofday(&tv, NULL);
892                dup = trace_copy_packet(packet);
893
894                ASSERT_RET(pthread_spin_lock(&libtrace->first_packets.lock), == 0);
895                libtrace->first_packets.packets[t->perpkt_num].packet = dup;
896                memcpy(&libtrace->first_packets.packets[t->perpkt_num].tv, &tv, sizeof(tv));
897                libtrace->first_packets.count++;
898
899                /* Now update the first */
900                if (libtrace->first_packets.count == 1) {
901                        /* We the first entry hence also the first known packet */
902                        libtrace->first_packets.first = t->perpkt_num;
903                } else {
904                        /* Check if we are newer than the previous 'first' packet */
905                        size_t first = libtrace->first_packets.first;
906                        if (trace_get_seconds(dup) <
907                                trace_get_seconds(libtrace->first_packets.packets[first].packet))
908                                libtrace->first_packets.first = t->perpkt_num;
909                }
910                ASSERT_RET(pthread_spin_unlock(&libtrace->first_packets.lock), == 0);
911
912                mesg.code = MESSAGE_FIRST_PACKET;
913                trace_message_reporter(libtrace, &mesg);
914                trace_message_perpkts(libtrace, &mesg);
915                t->recorded_first = true;
916        }
917}
918
919DLLEXPORT int trace_get_first_packet(libtrace_t *libtrace,
920                                     libtrace_thread_t *t,
921                                     const libtrace_packet_t **packet,
922                                     const struct timeval **tv)
923{
924        void * tmp;
925        int ret = 0;
926
927        if (t) {
928                if (t->type != THREAD_PERPKT || t->trace != libtrace)
929                        return -1;
930        }
931
932        /* Throw away these which we don't use */
933        if (!packet)
934                packet = (const libtrace_packet_t **) &tmp;
935        if (!tv)
936                tv = (const struct timeval **) &tmp;
937
938        ASSERT_RET(pthread_spin_lock(&libtrace->first_packets.lock), == 0);
939        if (t) {
940                /* Get the requested thread */
941                *packet = libtrace->first_packets.packets[t->perpkt_num].packet;
942                *tv = &libtrace->first_packets.packets[t->perpkt_num].tv;
943        } else if (libtrace->first_packets.count) {
944                /* Get the first packet across all threads */
945                *packet = libtrace->first_packets.packets[libtrace->first_packets.first].packet;
946                *tv = &libtrace->first_packets.packets[libtrace->first_packets.first].tv;
947                if (libtrace->first_packets.count == (size_t) libtrace->perpkt_thread_count) {
948                        ret = 1;
949                } else {
950                        struct timeval curr_tv;
951                        // If a second has passed since the first entry we will assume this is the very first packet
952                        gettimeofday(&curr_tv, NULL);
953                        if (curr_tv.tv_sec > (*tv)->tv_sec) {
954                                if(curr_tv.tv_usec > (*tv)->tv_usec || curr_tv.tv_sec - (*tv)->tv_sec > 1) {
955                                        ret = 1;
956                                }
957                        }
958                }
959        } else {
960                *packet = NULL;
961                *tv = NULL;
962        }
963        ASSERT_RET(pthread_spin_unlock(&libtrace->first_packets.lock), == 0);
964        return ret;
965}
966
967
968DLLEXPORT uint64_t tv_to_usec(const struct timeval *tv)
969{
970        return (uint64_t) tv->tv_sec*1000000ull + (uint64_t) tv->tv_usec;
971}
972
973inline static struct timeval usec_to_tv(uint64_t usec)
974{
975        struct timeval tv;
976        tv.tv_sec = usec / 1000000;
977        tv.tv_usec = usec % 1000000;
978        return tv;
979}
980
981/** Similar to delay_tracetime but send messages to all threads periodically */
982static void* reporter_entry(void *data) {
983        libtrace_message_t message = {0};
984        libtrace_t *trace = (libtrace_t *)data;
985        libtrace_thread_t *t = &trace->reporter_thread;
986
987        /* Wait until all threads are started */
988        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
989        if (trace->state == STATE_ERROR) {
990                thread_change_state(trace, t, THREAD_FINISHED, false);
991                ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
992                pthread_exit(NULL);
993        }
994        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
995
996        if (trace->format->pregister_thread) {
997                trace->format->pregister_thread(trace, t, false);
998        }
999
1000        (*trace->reporter)(trace, MESSAGE_STARTING, (libtrace_generic_t) {0}, t);
1001        (*trace->reporter)(trace, MESSAGE_RESUMING, (libtrace_generic_t) {0}, t);
1002
1003        while (!trace_has_finished(trace)) {
1004                if (trace->config.reporter_polling) {
1005                        if (libtrace_message_queue_try_get(&t->messages, &message) == LIBTRACE_MQ_FAILED)
1006                                message.code = MESSAGE_POST_REPORTER;
1007                } else {
1008                        libtrace_message_queue_get(&t->messages, &message);
1009                }
1010                switch (message.code) {
1011                        // Check for results
1012                        case MESSAGE_POST_REPORTER:
1013                                trace->combiner.read(trace, &trace->combiner);
1014                                break;
1015                        case MESSAGE_DO_PAUSE:
1016                                assert(trace->combiner.pause);
1017                                trace->combiner.pause(trace, &trace->combiner);
1018                                (*trace->reporter)(trace, MESSAGE_PAUSING, (libtrace_generic_t) {0}, t);
1019                                trace_thread_pause(trace, t);
1020                                (*trace->reporter)(trace, MESSAGE_RESUMING, (libtrace_generic_t) {0}, t);
1021                                break;
1022                default:
1023                        (*trace->reporter)(trace, message.code, message.data, message.sender);
1024                }
1025        }
1026
1027        // Flush out whats left now all our threads have finished
1028        trace->combiner.read_final(trace, &trace->combiner);
1029
1030        // GOODBYE
1031        (*trace->reporter)(trace, MESSAGE_PAUSING, (libtrace_generic_t) {0}, t);
1032        (*trace->reporter)(trace, MESSAGE_STOPPING, (libtrace_generic_t) {0}, t);
1033
1034        thread_change_state(trace, &trace->reporter_thread, THREAD_FINISHED, true);
1035        print_memory_stats();
1036        return NULL;
1037}
1038
1039/** Similar to delay_tracetime but send messages to all threads periodically */
1040static void* keepalive_entry(void *data) {
1041        struct timeval prev, next;
1042        libtrace_message_t message = {0};
1043        libtrace_t *trace = (libtrace_t *)data;
1044        uint64_t next_release;
1045        libtrace_thread_t *t = &trace->keepalive_thread;
1046
1047        /* Wait until all threads are started */
1048        ASSERT_RET(pthread_mutex_lock(&trace->libtrace_lock), == 0);
1049        if (trace->state == STATE_ERROR) {
1050                thread_change_state(trace, t, THREAD_FINISHED, false);
1051                ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
1052                pthread_exit(NULL);
1053        }
1054        ASSERT_RET(pthread_mutex_unlock(&trace->libtrace_lock), == 0);
1055
1056        gettimeofday(&prev, NULL);
1057        message.code = MESSAGE_TICK_INTERVAL;
1058
1059        while (trace->state != STATE_FINISHED) {
1060                fd_set rfds;
1061                next_release = tv_to_usec(&prev) + (trace->config.tick_interval * 1000);
1062                gettimeofday(&next, NULL);
1063                if (next_release > tv_to_usec(&next)) {
1064                        next = usec_to_tv(next_release - tv_to_usec(&next));
1065                        // Wait for timeout or a message
1066                        FD_ZERO(&rfds);
1067                        FD_SET(libtrace_message_queue_get_fd(&t->messages), &rfds);
1068                        if (select(libtrace_message_queue_get_fd(&t->messages)+1, &rfds, NULL, NULL, &next) == 1) {
1069                                libtrace_message_t msg;
1070                                libtrace_message_queue_get(&t->messages, &msg);
1071                                assert(msg.code == MESSAGE_DO_STOP);
1072                                goto done;
1073                        }
1074                }
1075                prev = usec_to_tv(next_release);
1076                if (trace->state == STATE_RUNNING) {
1077                        message.data.uint64 = ((((uint64_t)prev.tv_sec) << 32) +
1078                                               (((uint64_t)prev.tv_usec << 32)/1000000));
1079                        trace_message_perpkts(trace, &message);
1080                }
1081        }
1082done:
1083
1084        thread_change_state(trace, t, THREAD_FINISHED, true);
1085        return NULL;
1086}
1087
1088/**
1089 * Delays a packets playback so the playback will be in trace time.
1090 * This may break early if a message becomes available.
1091 *
1092 * Requires the first packet for this thread to be received.
1093 * @param libtrace  The trace
1094 * @param packet    The packet to delay
1095 * @param t         The current thread
1096 * @return Either READ_MESSAGE(-2) or 0 is successful
1097 */
1098static inline int delay_tracetime(libtrace_t *libtrace, libtrace_packet_t *packet, libtrace_thread_t *t) {
1099        struct timeval curr_tv, pkt_tv;
1100        uint64_t next_release = t->tracetime_offset_usec;
1101        uint64_t curr_usec;
1102
1103        if (!t->tracetime_offset_usec) {
1104                const libtrace_packet_t *first_pkt;
1105                const struct timeval *sys_tv;
1106                int64_t initial_offset;
1107                int stable = trace_get_first_packet(libtrace, NULL, &first_pkt, &sys_tv);
1108                assert(first_pkt);
1109                pkt_tv = trace_get_timeval(first_pkt);
1110                initial_offset = (int64_t)tv_to_usec(sys_tv) - (int64_t)tv_to_usec(&pkt_tv);
1111                /* In the unlikely case offset is 0, change it to 1 */
1112                if (stable)
1113                        t->tracetime_offset_usec = initial_offset ? initial_offset: 1;
1114                next_release = initial_offset;
1115        }
1116        /* next_release == offset */
1117        pkt_tv = trace_get_timeval(packet);
1118        next_release += tv_to_usec(&pkt_tv);
1119        gettimeofday(&curr_tv, NULL);
1120        curr_usec = tv_to_usec(&curr_tv);
1121        if (next_release > curr_usec) {
1122                int ret, mesg_fd = libtrace_message_queue_get_fd(&t->messages);
1123                struct timeval delay_tv = usec_to_tv(next_release-curr_usec);
1124                fd_set rfds;
1125                FD_ZERO(&rfds);
1126                FD_SET(mesg_fd, &rfds);
1127                // We need to wait
1128                ret = select(mesg_fd+1, &rfds, NULL, NULL, &delay_tv);
1129                if (ret == 0) {
1130                        return 0;
1131                } else if (ret > 0) {
1132                        return READ_MESSAGE;
1133                } else {
1134                        assert(!"trace_delay_packet: Unexpected return from select");
1135                }
1136        }
1137        return 0;
1138}
1139
1140/* Discards packets that don't match the filter.
1141 * Discarded packets are emptied and then moved to the end of the packet list.
1142 *
1143 * @param trace       The trace format, containing the filter
1144 * @param packets     An array of packets
1145 * @param nb_packets  The number of valid items in packets
1146 *
1147 * @return The number of packets that passed the filter, which are moved to
1148 *          the start of the packets array
1149 */
1150static inline size_t filter_packets(libtrace_t *trace,
1151                                    libtrace_packet_t **packets,
1152                                    size_t nb_packets) {
1153        size_t offset = 0;
1154        size_t i;
1155
1156        for (i = 0; i < nb_packets; ++i) {
1157                // The filter needs the trace attached to receive the link type
1158                packets[i]->trace = trace;
1159                if (trace_apply_filter(trace->filter, packets[i])) {
1160                        libtrace_packet_t *tmp;
1161                        tmp = packets[offset];
1162                        packets[offset++] = packets[i];
1163                        packets[i] = tmp;
1164                } else {
1165                        trace_fin_packet(packets[i]);
1166                }
1167        }
1168
1169        return offset;
1170}
1171
1172/* Read a batch of packets from the trace into a buffer.
1173 * Note that this function will block until a packet is read (or EOF is reached)
1174 *
1175 * @param libtrace    The trace
1176 * @param t           The thread
1177 * @param packets     An array of packets
1178 * @param nb_packets  The number of empty packets in packets
1179 * @return The number of packets read, 0 on EOF (or an error/message -1,-2).
1180 */
1181static int trace_pread_packet_wrapper(libtrace_t *libtrace,
1182                                      libtrace_thread_t *t,
1183                                      libtrace_packet_t *packets[],
1184                                      size_t nb_packets) {
1185        int i;
1186        assert(nb_packets);
1187        assert(libtrace && "libtrace is NULL in trace_read_packet()");
1188        if (trace_is_err(libtrace))
1189                return -1;
1190        if (!libtrace->started) {
1191                trace_set_err(libtrace, TRACE_ERR_BAD_STATE,
1192                              "You must call libtrace_start() before trace_read_packet()\n");
1193                return -1;
1194        }
1195
1196        if (libtrace->format->pread_packets) {
1197                int ret;
1198                for (i = 0; i < (int) nb_packets; ++i) {
1199                        assert(i[packets]);
1200                        if (!(packets[i]->buf_control==TRACE_CTRL_PACKET ||
1201                              packets[i]->buf_control==TRACE_CTRL_EXTERNAL)) {
1202                                trace_set_err(libtrace,TRACE_ERR_BAD_STATE,
1203                                              "Packet passed to trace_read_packet() is invalid\n");
1204                                return -1;
1205                        }
1206                }
1207                do {
1208                        ret=libtrace->format->pread_packets(libtrace, t,
1209                                                            packets,
1210                                                            nb_packets);
1211                        /* Error, EOF or message? */
1212                        if (ret <= 0) {
1213                                return ret;
1214                        }
1215
1216                        if (libtrace->filter) {
1217                                int remaining;
1218                                remaining = filter_packets(libtrace,
1219                                                           packets, ret);
1220                                t->filtered_packets += ret - remaining;
1221                                ret = remaining;
1222                        }
1223                        for (i = 0; i < ret; ++i) {
1224                                /* We do not mark the packet against the trace,
1225                                 * before hand or after. After breaks DAG meta
1226                                 * packets and before is inefficient */
1227                                //packets[i]->trace = libtrace;
1228                                /* TODO IN FORMAT?? Like traditional libtrace */
1229                                if (libtrace->snaplen>0)
1230                                        trace_set_capture_length(packets[i],
1231                                                        libtrace->snaplen);
1232                                trace_packet_set_order(packets[i], trace_get_erf_timestamp(packets[i]));
1233                        }
1234                } while(ret == 0);
1235                return ret;
1236        }
1237        trace_set_err(libtrace, TRACE_ERR_UNSUPPORTED,
1238                      "This format does not support reading packets\n");
1239        return ~0U;
1240}
1241
1242/* Restarts a parallel trace, this is called from trace_pstart.
1243 * The libtrace lock is held upon calling this function.
1244 * Typically with a parallel trace the threads are not
1245 * killed rather.
1246 */
1247static int trace_prestart(libtrace_t * libtrace, void *global_blob,
1248                          fn_per_pkt per_pkt, fn_reporter reporter) {
1249        int i, err = 0;
1250        if (libtrace->state != STATE_PAUSED) {
1251                trace_set_err(libtrace, TRACE_ERR_BAD_STATE,
1252                        "trace(%s) is not currently paused",
1253                              libtrace->uridata);
1254                return -1;
1255        }
1256
1257        assert(libtrace_parallel);
1258        assert(!libtrace->perpkt_thread_states[THREAD_RUNNING]);
1259
1260        /* Reset first packets */
1261        pthread_spin_lock(&libtrace->first_packets.lock);
1262        for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
1263                assert(!!libtrace->perpkt_threads[i].recorded_first == !!libtrace->first_packets.packets[i].packet);
1264                if (libtrace->first_packets.packets[i].packet) {
1265                        trace_destroy_packet(libtrace->first_packets.packets[i].packet);
1266                        libtrace->first_packets.packets[i].packet = NULL;
1267                        libtrace->first_packets.packets[i].tv.tv_sec = 0;
1268                        libtrace->first_packets.packets[i].tv.tv_usec = 0;
1269                        libtrace->first_packets.count--;
1270                        libtrace->perpkt_threads[i].recorded_first = false;
1271                }
1272        }
1273        assert(libtrace->first_packets.count == 0);
1274        libtrace->first_packets.first = 0;
1275        pthread_spin_unlock(&libtrace->first_packets.lock);
1276
1277        /* Reset delay */
1278        for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
1279                libtrace->perpkt_threads[i].tracetime_offset_usec = 0;
1280        }
1281
1282        /* Reset statistics */
1283        for (i = 0; i < libtrace->perpkt_thread_count; ++i) {
1284                libtrace->perpkt_threads[i].accepted_packets = 0;
1285                libtrace->perpkt_threads[i].filtered_packets = 0;
1286        }
1287        libtrace->accepted_packets = 0;
1288        libtrace->filtered_packets = 0;
1289
1290        /* Update functions if requested */
1291        if (per_pkt)
1292                libtrace->per_pkt = per_pkt;
1293        assert(libtrace->per_pkt);
1294        if (reporter)
1295                libtrace->reporter = reporter;
1296        if(global_blob)
1297                libtrace->global_blob = global_blob;
1298
1299        if (libtrace->perpkt_thread_count > 1 &&
1300            trace_supports_parallel(libtrace) &&
1301            !trace_has_dedicated_hasher(libtrace)) {
1302                err = libtrace->format->pstart_input(libtrace);
1303        } else {
1304                if (libtrace->format->start_input) {
1305                        err = libtrace->format->start_input(libtrace);
1306                }
1307        }
1308
1309        if (err == 0) {
1310                libtrace->started = true;
1311                libtrace_change_state(libtrace, STATE_RUNNING, false);
1312        }
1313        return err;
1314}
1315
1316/**
1317 * @return the number of CPU cores on the machine. -1 if unknown.
1318 */
1319SIMPLE_FUNCTION static int get_nb_cores() {
1320        int numCPU;
1321#ifdef _SC_NPROCESSORS_ONLN
1322        /* Most systems do this now */
1323        numCPU = sysconf(_SC_NPROCESSORS_ONLN);
1324
1325#else
1326        int mib[] = {CTL_HW, HW_AVAILCPU};
1327        size_t len = sizeof(numCPU);
1328
1329        /* get the number of CPUs from the system */
1330        sysctl(mib, 2, &numCPU, &len, NULL, 0);
1331#endif
1332        return numCPU <= 0 ? 1 : numCPU;
1333}
1334
1335/**
1336 * Verifies the configuration and sets default values for any values not
1337 * specified by the user.
1338 */
1339static void verify_configuration(libtrace_t *libtrace) {
1340
1341        if (libtrace->config.hasher_queue_size <= 0)
1342                libtrace->config.hasher_queue_size = 1000;
1343
1344        if (libtrace->config.perpkt_threads <= 0) {
1345                libtrace->perpkt_thread_count = get_nb_cores();
1346                if (libtrace->perpkt_thread_count <= 0)
1347                        // Lets just use one
1348                        libtrace->perpkt_thread_count = 1;
1349        } else {
1350                libtrace->perpkt_thread_count = libtrace->config.perpkt_threads;
1351        }
1352
1353        if (libtrace->config.reporter_thold <= 0)
1354                libtrace->config.reporter_thold = 100;
1355        if (libtrace->config.burst_size <= 0)
1356                libtrace->config.burst_size = 10;
1357        if (libtrace->config.thread_cache_size <= 0)
1358                libtrace->config.thread_cache_size = 20;
1359        if (libtrace->config.cache_size <= 0)
1360                libtrace->config.cache_size = (libtrace->config.hasher_queue_size + 1) * libtrace->perpkt_thread_count;
1361
1362        if (libtrace->config.cache_size <
1363                (libtrace->config.hasher_queue_size + 1) * libtrace->perpkt_thread_count)
1364                fprintf(stderr, "WARNING deadlocks may occur and extra memory allocating buffer sizes (packet_freelist_size) mismatched\n");
1365
1366        if (libtrace->combiner.initialise == NULL && libtrace->combiner.publish == NULL)
1367                libtrace->combiner = combiner_unordered;
1368
1369        /* Figure out if we are using a dedicated hasher thread? */
1370        if (libtrace->hasher && libtrace->perpkt_thread_count > 1) {
1371                libtrace->hasher_thread.type = THREAD_HASHER;
1372        }
1373}
1374
1375/**
1376 * Starts a libtrace_thread, including allocating memory for messaging.
1377 * Threads are expected to wait until the libtrace look is released.
1378 * Hence why we don't init structures until later.
1379 *
1380 * @param trace The trace the thread is associated with
1381 * @param t The thread that is filled when the thread is started
1382 * @param type The type of thread
1383 * @param start_routine The entry location of the thread
1384 * @param perpkt_num The perpkt thread number (should be set -1 if not perpkt)
1385 * @param name For debugging purposes set the threads name (Optional)
1386 *
1387 * @return 0 on success or -1 upon error in which case the libtrace error is set.
1388 *         In this situation the thread structure is zeroed.
1389 */
1390static int trace_start_thread(libtrace_t *trace,
1391                       libtrace_thread_t *t,
1392                       enum thread_types type,
1393                       void *(*start_routine) (void *),
1394                       int perpkt_num,
1395                       const char *name) {
1396#ifdef __linux__
1397        pthread_attr_t attrib;
1398        cpu_set_t cpus;
1399#endif
1400        int ret, i;
1401        assert(t->type == THREAD_EMPTY);
1402        t->trace = trace;
1403        t->ret = NULL;
1404        t->user_data = NULL;
1405        t->type = type;
1406        t->state = THREAD_RUNNING;
1407
1408#ifdef __linux__
1409        CPU_ZERO(&cpus);
1410        for (i = 0; i < get_nb_cores(); i++)
1411                CPU_SET(i, &cpus);
1412        pthread_attr_init(&attrib);
1413        pthread_attr_setaffinity_np(&attrib, sizeof(cpus), &cpus);
1414        ret = pthread_create(&t->tid, &attrib, start_routine, (void *) trace);
1415        pthread_attr_destroy(&attrib);
1416#else
1417        ret = pthread_create(&t->tid, NULL, start_routine, (void *) trace);
1418#endif
1419        if (ret != 0) {
1420                libtrace_zero_thread(t);
1421                trace_set_err(trace, ret, "Failed to create a thread of type=%d\n", type);
1422                return -1;
1423        }
1424        libtrace_message_queue_init(&t->messages, sizeof(libtrace_message_t));
1425        if (trace_has_dedicated_hasher(trace) && type == THREAD_PERPKT) {
1426                libtrace_ringbuffer_init(&t->rbuffer,
1427                                         trace->config.hasher_queue_size,
1428                                         trace->config.hasher_polling?
1429                                                 LIBTRACE_RINGBUFFER_POLLING:
1430                                                 LIBTRACE_RINGBUFFER_BLOCKING);
1431        }
1432#if defined(HAVE_PTHREAD_SETNAME_NP) && defined(__linux__)
1433        if(name)
1434                pthread_setname_np(t->tid, name);
1435#endif
1436        t->perpkt_num = perpkt_num;
1437        return 0;
1438}
1439
1440/** Parses the environment variable LIBTRACE_CONF into the supplied
1441 * configuration structure.
1442 *
1443 * @param[in,out] libtrace The trace from which we determine the URI and set
1444 * the configuration.
1445 *
1446 * We search for 3 environment variables and apply them to the config in the
1447 * following order. Such that the first has the lowest priority.
1448 *
1449 * 1. LIBTRACE_CONF, The global environment configuration
1450 * 2. LIBTRACE_CONF_<FORMAT>, Applied to a given format
1451 * 3. LIBTRACE_CONF_<FORMAT_URI>, Applied the specified trace
1452 *
1453 * E.g.
1454 * - int:eth0 would match LIBTRACE_CONF, LIBTRACE_CONF_INT, LIBTRACE_CONF_INT_ETH0
1455 * - dag:/dev/dag0,0 would match LIBTRACE_CONF, LIBTRACE_CONF_DAG, LIBTRACE_CONF_DAG__DEV_DAG0_0
1456 * - test.erf would match LIBTRACE_CONF, LIBTRACE_CONF_ERF, LIBTRACE_CONF_ERF_TEST_ERF
1457 *
1458 * @note All environment variables names MUST only contian
1459 * [A-Z], [0-9] and [_] (underscore) and not start with a number. Any characters
1460 * outside of this range should be captilised if possible or replaced with an
1461 * underscore.
1462 */
1463static void parse_env_config (libtrace_t *libtrace) {
1464        char env_name[1024] = "LIBTRACE_CONF_";
1465        size_t len = strlen(env_name);
1466        size_t mark = 0;
1467        size_t i;
1468        char * env;
1469
1470        /* Make our compound string */
1471        strncpy(&env_name[len], libtrace->format->name, sizeof(env_name) - len);
1472        len += strlen(libtrace->format->name);
1473        strncpy(&env_name[len], ":", sizeof(env_name) - len);
1474        len += 1;
1475        strncpy(&env_name[len], libtrace->uridata, sizeof(env_name) - len);
1476
1477        /* env names are allowed to be A-Z (CAPS) 0-9 and _ */
1478        for (i = 0; env_name[i] != 0; ++i) {
1479                env_name[i] = toupper(env_name[i]);
1480                if(env_name[i] == ':') {
1481                        mark = i;
1482                }
1483                if (!( (env_name[i] >= 'A' && env_name[i] <= 'Z') ||
1484                       (env_name[i] >= '0' && env_name[i] <= '9') )) {
1485                        env_name[i] = '_';
1486                }
1487        }
1488
1489        /* First apply global env settings LIBTRACE_CONF */
1490        env = getenv("LIBTRACE_CONF");
1491        if (env)
1492        {
1493                printf("Got env %s", env);
1494                trace_set_configuration(libtrace, env);
1495        }
1496
1497        /* Then format settings LIBTRACE_CONF_<FORMAT> */
1498        if (mark != 0) {
1499                env_name[mark] = 0;
1500                env = getenv(env_name);
1501                if (env) {
1502                        trace_set_configuration(libtrace, env);
1503                }
1504                env_name[mark] = '_';
1505        }
1506
1507        /* Finally this specific trace LIBTRACE_CONF_<FORMAT_URI> */
1508        env = getenv(env_name);
1509        if (env) {
1510                trace_set_configuration(libtrace, env);
1511        }
1512}
1513
1514DLLEXPORT int trace_pstart(libtrace_t *libtrace, void* global_blob,
1515                           fn_per_pkt per_pkt, fn_reporter reporter) {
1516        int i;
1517        int ret = -1;
1518        char name[16];
1519        sigset_t sig_before, sig_block_all;
1520        assert(libtrace);
1521
1522        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1523        if (trace_is_err(libtrace)) {
1524                goto cleanup_none;
1525        }
1526
1527        if (libtrace->state == STATE_PAUSED) {
1528                ret = trace_prestart(libtrace, global_blob, per_pkt, reporter);
1529                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1530                return ret;
1531        }
1532
1533        if (libtrace->state != STATE_NEW) {
1534                trace_set_err(libtrace, TRACE_ERR_BAD_STATE, "trace_pstart "
1535                              "should be called on a NEW or PAUSED trace but "
1536                              "instead was called from %s",
1537                              get_trace_state_name(libtrace->state));
1538                goto cleanup_none;
1539        }
1540
1541        /* Store the user defined things against the trace */
1542        libtrace->global_blob = global_blob;
1543        libtrace->per_pkt = per_pkt;
1544        libtrace->reporter = reporter;
1545        /* And zero other fields */
1546        for (i = 0; i < THREAD_STATE_MAX; ++i) {
1547                libtrace->perpkt_thread_states[i] = 0;
1548        }
1549        libtrace->first_packets.first = 0;
1550        libtrace->first_packets.count = 0;
1551        libtrace->first_packets.packets = NULL;
1552        libtrace->perpkt_threads = NULL;
1553        /* Set a global which says we are using a parallel trace. This is
1554         * for backwards compatability due to changes when destroying packets */
1555        libtrace_parallel = 1;
1556
1557        /* Parses configuration passed through environment variables */
1558        parse_env_config(libtrace);
1559        verify_configuration(libtrace);
1560
1561        /* Try start the format - we prefer parallel over single threaded, as
1562         * these formats should support messages better */
1563        if (trace_supports_parallel(libtrace) &&
1564            !trace_has_dedicated_hasher(libtrace)) {
1565                ret = libtrace->format->pstart_input(libtrace);
1566                libtrace->pread = trace_pread_packet_wrapper;
1567        } else {
1568                if (libtrace->format->start_input) {
1569                        ret = libtrace->format->start_input(libtrace);
1570                }
1571                if (libtrace->perpkt_thread_count > 1)
1572                        libtrace->pread = trace_pread_packet_first_in_first_served;
1573                else
1574                        /* Use standard read_packet */
1575                        libtrace->pread = NULL;
1576        }
1577
1578        if (ret != 0) {
1579                goto cleanup_none;
1580        }
1581
1582        /* --- Start all the threads we need --- */
1583        /* Disable signals because it is inherited by the threads we start */
1584        sigemptyset(&sig_block_all);
1585        ASSERT_RET(pthread_sigmask(SIG_SETMASK, &sig_block_all, &sig_before), == 0);
1586
1587        /* If we need a hasher thread start it
1588         * Special Case: If single threaded we don't need a hasher
1589         */
1590        if (trace_has_dedicated_hasher(libtrace)) {
1591                libtrace->hasher_thread.type = THREAD_EMPTY;
1592                ret = trace_start_thread(libtrace, &libtrace->hasher_thread,
1593                                   THREAD_HASHER, hasher_entry, -1,
1594                                   "hasher-thread");
1595                if (ret != 0)
1596                        goto cleanup_started;
1597                libtrace->pread = trace_pread_packet_hasher_thread;
1598        } else {
1599                libtrace->hasher_thread.type = THREAD_EMPTY;
1600        }
1601
1602        /* Start up our perpkt threads */
1603        libtrace->perpkt_threads = calloc(sizeof(libtrace_thread_t),
1604                                          libtrace->perpkt_thread_count);
1605        if (!libtrace->perpkt_threads) {
1606                trace_set_err(libtrace, errno, "trace_pstart "
1607                              "failed to allocate memory.");
1608                goto cleanup_threads;
1609        }
1610        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1611                snprintf(name, sizeof(name), "perpkt-%d", i);
1612                libtrace_zero_thread(&libtrace->perpkt_threads[i]);
1613                ret = trace_start_thread(libtrace, &libtrace->perpkt_threads[i],
1614                                   THREAD_PERPKT, perpkt_threads_entry, i,
1615                                   name);
1616                if (ret != 0)
1617                        goto cleanup_threads;
1618        }
1619
1620        /* Start the reporter thread */
1621        if (reporter) {
1622                if (libtrace->combiner.initialise)
1623                        libtrace->combiner.initialise(libtrace, &libtrace->combiner);
1624                ret = trace_start_thread(libtrace, &libtrace->reporter_thread,
1625                                   THREAD_REPORTER, reporter_entry, -1,
1626                                   "reporter_thread");
1627                if (ret != 0)
1628                        goto cleanup_threads;
1629        }
1630
1631        /* Start the keepalive thread */
1632        if (libtrace->config.tick_interval > 0) {
1633                ret = trace_start_thread(libtrace, &libtrace->keepalive_thread,
1634                                   THREAD_KEEPALIVE, keepalive_entry, -1,
1635                                   "keepalive_thread");
1636                if (ret != 0)
1637                        goto cleanup_threads;
1638        }
1639
1640        /* Init other data structures */
1641        libtrace->perpkt_thread_states[THREAD_RUNNING] = libtrace->perpkt_thread_count;
1642        ASSERT_RET(pthread_spin_init(&libtrace->first_packets.lock, 0), == 0);
1643        libtrace->first_packets.packets = calloc(libtrace->perpkt_thread_count,
1644                                                 sizeof(*libtrace->first_packets.packets));
1645        if (libtrace->first_packets.packets == NULL) {
1646                trace_set_err(libtrace, errno, "trace_pstart "
1647                              "failed to allocate memory.");
1648                goto cleanup_threads;
1649        }
1650
1651        if (libtrace_ocache_init(&libtrace->packet_freelist,
1652                             (void* (*)()) trace_create_packet,
1653                             (void (*)(void *))trace_destroy_packet,
1654                             libtrace->config.thread_cache_size,
1655                             libtrace->config.cache_size * 4,
1656                             libtrace->config.fixed_count) != 0) {
1657                trace_set_err(libtrace, TRACE_ERR_INIT_FAILED, "trace_pstart "
1658                              "failed to allocate ocache.");
1659                goto cleanup_threads;
1660        }
1661
1662        /* Threads don't start */
1663        libtrace->started = true;
1664        libtrace_change_state(libtrace, STATE_RUNNING, false);
1665
1666        ret = 0;
1667        goto success;
1668cleanup_threads:
1669        if (libtrace->first_packets.packets) {
1670                free(libtrace->first_packets.packets);
1671                libtrace->first_packets.packets = NULL;
1672        }
1673        libtrace_change_state(libtrace, STATE_ERROR, false);
1674        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1675        if (libtrace->hasher_thread.type == THREAD_HASHER) {
1676                pthread_join(libtrace->hasher_thread.tid, NULL);
1677                libtrace_zero_thread(&libtrace->hasher_thread);
1678        }
1679
1680        if (libtrace->perpkt_threads) {
1681                for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1682                        if (libtrace->perpkt_threads[i].type == THREAD_PERPKT) {
1683                                pthread_join(libtrace->perpkt_threads[i].tid, NULL);
1684                                libtrace_zero_thread(&libtrace->perpkt_threads[i]);
1685                        } else break;
1686                }
1687                free(libtrace->perpkt_threads);
1688                libtrace->perpkt_threads = NULL;
1689        }
1690
1691        if (libtrace->reporter_thread.type == THREAD_REPORTER) {
1692                pthread_join(libtrace->reporter_thread.tid, NULL);
1693                libtrace_zero_thread(&libtrace->reporter_thread);
1694        }
1695
1696        if (libtrace->keepalive_thread.type == THREAD_KEEPALIVE) {
1697                pthread_join(libtrace->keepalive_thread.tid, NULL);
1698                libtrace_zero_thread(&libtrace->keepalive_thread);
1699        }
1700        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1701        libtrace_change_state(libtrace, STATE_NEW, false);
1702        assert(libtrace->perpkt_thread_states[THREAD_RUNNING] == 0);
1703        libtrace->perpkt_thread_states[THREAD_FINISHED] = 0;
1704cleanup_started:
1705        if (trace_supports_parallel(libtrace) &&
1706            !trace_has_dedicated_hasher(libtrace)
1707            && libtrace->perpkt_thread_count > 1) {
1708                if (libtrace->format->ppause_input)
1709                        libtrace->format->ppause_input(libtrace);
1710        } else {
1711                if (libtrace->format->pause_input)
1712                        libtrace->format->pause_input(libtrace);
1713        }
1714        ret = -1;
1715success:
1716        ASSERT_RET(pthread_sigmask(SIG_SETMASK, &sig_before, NULL), == 0);
1717cleanup_none:
1718        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1719        return ret;
1720}
1721
1722/*
1723 * Pauses a trace, this should only be called by the main thread
1724 * 1. Set started = false
1725 * 2. All perpkt threads are paused waiting on a condition var
1726 * 3. Then call ppause on the underlying format if found
1727 * 4. The traces state is paused
1728 *
1729 * Once done you should be able to modify the trace setup and call pstart again
1730 * TODO handle changing thread numbers
1731 */
1732DLLEXPORT int trace_ppause(libtrace_t *libtrace)
1733{
1734        libtrace_thread_t *t;
1735        int i;
1736        assert(libtrace);
1737
1738        t = get_thread_table(libtrace);
1739        // Check state from within the lock if we are going to change it
1740        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1741        if (!libtrace->started || libtrace->state != STATE_RUNNING) {
1742                trace_set_err(libtrace,TRACE_ERR_BAD_STATE, "You must call trace_start() before calling trace_ppause()");
1743                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1744                return -1;
1745        }
1746
1747        libtrace_change_state(libtrace, STATE_PAUSING, false);
1748        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1749
1750        // Special case handle the hasher thread case
1751        if (trace_has_dedicated_hasher(libtrace)) {
1752                if (libtrace->config.debug_state)
1753                        fprintf(stderr, "Hasher thread is running, asking it to pause ...");
1754                libtrace_message_t message = {0};
1755                message.code = MESSAGE_DO_PAUSE;
1756                trace_message_thread(libtrace, &libtrace->hasher_thread, &message);
1757                // Wait for it to pause
1758                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1759                while (libtrace->hasher_thread.state == THREAD_RUNNING) {
1760                        ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1761                }
1762                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1763                if (libtrace->config.debug_state)
1764                        fprintf(stderr, " DONE\n");
1765        }
1766
1767        if (libtrace->config.debug_state)
1768                fprintf(stderr, "Asking perpkt threads to pause ...");
1769        // Stop threads, skip this one if it's a perpkt
1770        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1771                if (&libtrace->perpkt_threads[i] != t) {
1772                        libtrace_message_t message = {0};
1773                        message.code = MESSAGE_DO_PAUSE;
1774                        ASSERT_RET(trace_message_thread(libtrace, &libtrace->perpkt_threads[i], &message), != -1);
1775                        if(trace_has_dedicated_hasher(libtrace)) {
1776                                // The hasher has stopped and other threads have messages waiting therefore
1777                                // If the queues are empty the other threads would have no data
1778                                // So send some message packets to simply ask the threads to check
1779                                // We are the only writer since hasher has paused
1780                                libtrace_packet_t *pkt;
1781                                libtrace_ocache_alloc(&libtrace->packet_freelist, (void **) &pkt, 1, 1);
1782                                pkt->error = READ_MESSAGE;
1783                                libtrace_ringbuffer_write(&libtrace->perpkt_threads[i].rbuffer, pkt);
1784                        }
1785                } else {
1786                        fprintf(stderr, "Mapper threads should not be used to pause a trace this could cause any number of problems!!\n");
1787                }
1788        }
1789
1790        if (t) {
1791                // A perpkt is doing the pausing, interesting, fake an extra thread paused
1792                // We rely on the user to *not* return before starting the trace again
1793                thread_change_state(libtrace, t, THREAD_PAUSED, true);
1794        }
1795
1796        // Wait for all threads to pause
1797        ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1798        while(libtrace->perpkt_thread_states[THREAD_RUNNING]) {
1799                ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1800        }
1801        ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1802
1803        if (libtrace->config.debug_state)
1804                fprintf(stderr, " DONE\n");
1805
1806        // Deal with the reporter
1807        if (trace_has_reporter(libtrace)) {
1808                if (libtrace->config.debug_state)
1809                        fprintf(stderr, "Reporter thread is running, asking it to pause ...");
1810                libtrace_message_t message = {0};
1811                message.code = MESSAGE_DO_PAUSE;
1812                trace_message_thread(libtrace, &libtrace->reporter_thread, &message);
1813                // Wait for it to pause
1814                ASSERT_RET(pthread_mutex_lock(&libtrace->libtrace_lock), == 0);
1815                while (libtrace->reporter_thread.state == THREAD_RUNNING) {
1816                        ASSERT_RET(pthread_cond_wait(&libtrace->perpkt_cond, &libtrace->libtrace_lock), == 0);
1817                }
1818                ASSERT_RET(pthread_mutex_unlock(&libtrace->libtrace_lock), == 0);
1819                if (libtrace->config.debug_state)
1820                        fprintf(stderr, " DONE\n");
1821        }
1822
1823        /* Cache values before we pause */
1824        if (libtrace->stats == NULL)
1825                libtrace->stats = trace_create_statistics();
1826        // Save the statistics against the trace
1827        trace_get_statistics(libtrace, NULL);
1828        if (trace_supports_parallel(libtrace) && !trace_has_dedicated_hasher(libtrace) && libtrace->perpkt_thread_count > 1) {
1829                libtrace->started = false;
1830                if (libtrace->format->ppause_input)
1831                        libtrace->format->ppause_input(libtrace);
1832                // TODO What happens if we don't have pause input??
1833        } else {
1834                int err;
1835                err = trace_pause(libtrace);
1836                // We should handle this a bit better
1837                if (err)
1838                        return err;
1839        }
1840
1841        // Only set as paused after the pause has been called on the trace
1842        libtrace_change_state(libtrace, STATE_PAUSED, true);
1843        return 0;
1844}
1845
1846/**
1847 * Stop trace finish prematurely as though it meet an EOF
1848 * This should only be called by the main thread
1849 * 1. Calls ppause
1850 * 2. Sends a message asking for threads to finish
1851 * 3. Releases threads which will pause
1852 */
1853DLLEXPORT int trace_pstop(libtrace_t *libtrace)
1854{
1855        int i, err;
1856        libtrace_message_t message = {0};
1857        assert(libtrace);
1858
1859        // Ensure all threads have paused and the underlying trace format has
1860        // been closed and all packets associated are cleaned up
1861        // Pause will do any state checks for us
1862        err = trace_ppause(libtrace);
1863        if (err)
1864                return err;
1865
1866        // Now send a message asking the threads to stop
1867        // This will be retrieved before trying to read another packet
1868
1869        message.code = MESSAGE_DO_STOP;
1870        trace_message_perpkts(libtrace, &message);
1871        if (trace_has_dedicated_hasher(libtrace))
1872                trace_message_thread(libtrace, &libtrace->hasher_thread, &message);
1873
1874        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1875                trace_message_thread(libtrace, &libtrace->perpkt_threads[i], &message);
1876        }
1877
1878        /* Now release the threads and let them stop - when the threads finish
1879         * the state will be set to finished */
1880        libtrace_change_state(libtrace, STATE_FINISHING, true);
1881        return 0;
1882}
1883
1884DLLEXPORT int trace_set_hasher(libtrace_t *trace, enum hasher_types type, fn_hasher hasher, void *data) {
1885        int ret = -1;
1886        if ((type == HASHER_CUSTOM && !hasher) || (type == HASHER_BALANCE && hasher)) {
1887                return -1;
1888        }
1889
1890        // Save the requirements
1891        trace->hasher_type = type;
1892        if (hasher) {
1893                trace->hasher = hasher;
1894                trace->hasher_data = data;
1895        } else {
1896                trace->hasher = NULL;
1897                trace->hasher_data = NULL;
1898        }
1899
1900        // Try push this to hardware - NOTE hardware could do custom if
1901        // there is a more efficient way to apply it, in this case
1902        // it will simply grab the function out of libtrace_t
1903        if (trace_supports_parallel(trace) && trace->format->config_input)
1904                ret = trace->format->config_input(trace, TRACE_OPTION_HASHER, &type);
1905
1906        if (ret == -1) {
1907                /* We have to deal with this ourself */
1908                if (!hasher) {
1909                        switch (type)
1910                        {
1911                                case HASHER_CUSTOM:
1912                                case HASHER_BALANCE:
1913                                        return 0;
1914                                case HASHER_BIDIRECTIONAL:
1915                                        trace->hasher = (fn_hasher) toeplitz_hash_packet;
1916                                        trace->hasher_data = calloc(1, sizeof(toeplitz_conf_t));
1917                                        toeplitz_init_config(trace->hasher_data, 1);
1918                                        return 0;
1919                                case HASHER_UNIDIRECTIONAL:
1920                                        trace->hasher = (fn_hasher) toeplitz_hash_packet;
1921                                        trace->hasher_data = calloc(1, sizeof(toeplitz_conf_t));
1922                                        toeplitz_init_config(trace->hasher_data, 0);
1923                                        return 0;
1924                        }
1925                        return -1;
1926                }
1927        } else {
1928                /* If the hasher is hardware we zero out the hasher and hasher
1929                 * data fields - only if we need a hasher do we do this */
1930                trace->hasher = NULL;
1931                trace->hasher_data = NULL;
1932        }
1933
1934        return 0;
1935}
1936
1937// Waits for all threads to finish
1938DLLEXPORT void trace_join(libtrace_t *libtrace) {
1939        int i;
1940
1941        /* Firstly wait for the perpkt threads to finish, since these are
1942         * user controlled */
1943        for (i=0; i< libtrace->perpkt_thread_count; i++) {
1944                ASSERT_RET(pthread_join(libtrace->perpkt_threads[i].tid, NULL), == 0);
1945                // So we must do our best effort to empty the queue - so
1946                // the producer (or any other threads) don't block.
1947                libtrace_packet_t * packet;
1948                assert(libtrace->perpkt_threads[i].state == THREAD_FINISHED);
1949                while(libtrace_ringbuffer_try_read(&libtrace->perpkt_threads[i].rbuffer, (void **) &packet))
1950                        if (packet) // This could be NULL iff the perpkt finishes early
1951                                trace_destroy_packet(packet);
1952        }
1953
1954        /* Now the hasher */
1955        if (trace_has_dedicated_hasher(libtrace)) {
1956                pthread_join(libtrace->hasher_thread.tid, NULL);
1957                assert(libtrace->hasher_thread.state == THREAD_FINISHED);
1958        }
1959
1960        // Now that everything is finished nothing can be touching our
1961        // buffers so clean them up
1962        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
1963                // Its possible 1 packet got added by the reporter (or 1 per any other thread) since we cleaned up
1964                // if they lost timeslice before-during a write
1965                libtrace_packet_t * packet;
1966                while(libtrace_ringbuffer_try_read(&libtrace->perpkt_threads[i].rbuffer, (void **) &packet))
1967                        trace_destroy_packet(packet);
1968                if (trace_has_dedicated_hasher(libtrace)) {
1969                        assert(libtrace_ringbuffer_is_empty(&libtrace->perpkt_threads[i].rbuffer));
1970                        libtrace_ringbuffer_destroy(&libtrace->perpkt_threads[i].rbuffer);
1971                }
1972                // Cannot destroy vector yet, this happens with trace_destroy
1973        }
1974
1975        if (trace_has_reporter(libtrace)) {
1976                pthread_join(libtrace->reporter_thread.tid, NULL);
1977                assert(libtrace->reporter_thread.state == THREAD_FINISHED);
1978        }
1979
1980        // Wait for the tick (keepalive) thread if it has been started
1981        if (libtrace->keepalive_thread.type == THREAD_KEEPALIVE) {
1982                libtrace_message_t msg = {0};
1983                msg.code = MESSAGE_DO_STOP;
1984                trace_message_thread(libtrace, &libtrace->keepalive_thread, &msg);
1985                pthread_join(libtrace->keepalive_thread.tid, NULL);
1986        }
1987
1988        libtrace_change_state(libtrace, STATE_JOINED, true);
1989        print_memory_stats();
1990}
1991
1992DLLEXPORT int libtrace_thread_get_message_count(libtrace_t * libtrace,
1993                                                libtrace_thread_t *t)
1994{
1995        int ret;
1996        if (t == NULL)
1997                t = get_thread_descriptor(libtrace);
1998        if (t == NULL)
1999                return -1;
2000        ret = libtrace_message_queue_count(&t->messages);
2001        return ret < 0 ? 0 : ret;
2002}
2003
2004DLLEXPORT int libtrace_thread_get_message(libtrace_t * libtrace,
2005                                          libtrace_thread_t *t,
2006                                          libtrace_message_t * message)
2007{
2008        int ret;
2009        if (t == NULL)
2010                t = get_thread_descriptor(libtrace);
2011        if (t == NULL)
2012                return -1;
2013        ret = libtrace_message_queue_get(&t->messages, message);
2014        return ret < 0 ? 0 : ret;
2015}
2016
2017DLLEXPORT int libtrace_thread_try_get_message(libtrace_t * libtrace,
2018                                              libtrace_thread_t *t,
2019                                              libtrace_message_t * message)
2020{
2021        if (t == NULL)
2022                t = get_thread_descriptor(libtrace);
2023        if (t == NULL)
2024                return -1;
2025        if (libtrace_message_queue_try_get(&t->messages, message) != LIBTRACE_MQ_FAILED)
2026                return 0;
2027        else
2028                return -1;
2029}
2030
2031DLLEXPORT int trace_message_thread(libtrace_t * libtrace, libtrace_thread_t *t, libtrace_message_t * message)
2032{
2033        int ret;
2034        if (!message->sender)
2035                message->sender = get_thread_descriptor(libtrace);
2036
2037        ret = libtrace_message_queue_put(&t->messages, message);
2038        return ret < 0 ? 0 : ret;
2039}
2040
2041DLLEXPORT int trace_message_reporter(libtrace_t * libtrace, libtrace_message_t * message)
2042{
2043        if (!trace_has_reporter(libtrace) ||
2044            !(libtrace->reporter_thread.state == THREAD_RUNNING
2045              || libtrace->reporter_thread.state == THREAD_PAUSED))
2046                return -1;
2047
2048        return trace_message_thread(libtrace, &libtrace->reporter_thread, message);
2049}
2050
2051DLLEXPORT int trace_post_reporter(libtrace_t *libtrace)
2052{
2053        libtrace_message_t message = {0};
2054        message.code = MESSAGE_POST_REPORTER;
2055        return trace_message_reporter(libtrace, (void *) &message);
2056}
2057
2058DLLEXPORT int trace_message_perpkts(libtrace_t * libtrace, libtrace_message_t * message)
2059{
2060        int i;
2061        int missed = 0;
2062        if (message->sender == NULL)
2063                message->sender = get_thread_descriptor(libtrace);
2064        for (i = 0; i < libtrace->perpkt_thread_count; i++) {
2065                if (libtrace->perpkt_threads[i].state == THREAD_RUNNING ||
2066                    libtrace->perpkt_threads[i].state == THREAD_PAUSED) {
2067                        libtrace_message_queue_put(&libtrace->perpkt_threads[i].messages, message);
2068                } else {
2069                        missed += 1;
2070                }
2071        }
2072        return -missed;
2073}
2074
2075DLLEXPORT void * trace_get_local(libtrace_t *trace)
2076{
2077        return trace->global_blob;
2078}
2079
2080DLLEXPORT void * trace_set_local(libtrace_t *trace, void * data)
2081{
2082        void *ret;
2083        pthread_mutex_lock(&trace->libtrace_lock);
2084        ret = trace->global_blob;
2085        trace->global_blob = data;
2086        pthread_mutex_unlock(&trace->libtrace_lock);
2087        return ret;
2088}
2089
2090DLLEXPORT void * trace_get_tls(libtrace_thread_t *t)
2091{
2092        return t->user_data;
2093}
2094
2095DLLEXPORT void * trace_set_tls(libtrace_thread_t *t, void * data)
2096{
2097        void *ret = t->user_data;
2098        t->user_data = data;
2099        return ret;
2100}
2101
2102/**
2103 * Publishes a result to the reduce queue
2104 * Should only be called by a perpkt thread, i.e. from a perpkt handler
2105 */
2106DLLEXPORT void trace_publish_result(libtrace_t *libtrace, libtrace_thread_t *t, uint64_t key, libtrace_generic_t value, int type) {
2107        libtrace_result_t res;
2108        res.type = type;
2109        res.key = key;
2110        res.value = value;
2111        assert(libtrace->combiner.publish);
2112        libtrace->combiner.publish(libtrace, t->perpkt_num, &libtrace->combiner, &res);
2113        return;
2114}
2115
2116DLLEXPORT void trace_set_combiner(libtrace_t *trace, const libtrace_combine_t *combiner, libtrace_generic_t config){
2117        if (combiner) {
2118                trace->combiner = *combiner;
2119                trace->combiner.configuration = config;
2120        } else {
2121                // No combiner, so don't try use it
2122                memset(&trace->combiner, 0, sizeof(trace->combiner));
2123        }
2124}
2125
2126DLLEXPORT uint64_t trace_packet_get_order(libtrace_packet_t * packet) {
2127        return packet->order;
2128}
2129
2130DLLEXPORT uint64_t trace_packet_get_hash(libtrace_packet_t * packet) {
2131        return packet->hash;
2132}
2133
2134DLLEXPORT void trace_packet_set_order(libtrace_packet_t * packet, uint64_t order) {
2135        packet->order = order;
2136}
2137
2138DLLEXPORT void trace_packet_set_hash(libtrace_packet_t * packet, uint64_t hash) {
2139        packet->hash = hash;
2140}
2141
2142DLLEXPORT bool trace_has_finished(libtrace_t * libtrace) {
2143        return libtrace->state == STATE_FINISHED || libtrace->state == STATE_JOINED;
2144}
2145
2146/**
2147 * @return True if the trace is not running such that it can be configured
2148 */
2149static inline bool trace_is_configurable(libtrace_t *trace) {
2150        return trace->state == STATE_NEW ||
2151                        trace->state == STATE_PAUSED;
2152}
2153
2154DLLEXPORT int trace_set_perpkt_threads(libtrace_t *trace, int nb) {
2155        if (!trace_is_configurable(trace)) return -1;
2156
2157        /* TODO consider allowing an offset from the total number of cores i.e.
2158         * -1 reserve 1 core */
2159        if (nb >= 0) {
2160                trace->config.perpkt_threads = nb;
2161                return 0;
2162        } else {
2163                return -1;
2164        }
2165}
2166
2167DLLEXPORT int trace_set_tick_interval(libtrace_t *trace, size_t millisec) {
2168        if (!trace_is_configurable(trace)) return -1;
2169
2170        trace->config.tick_interval = millisec;
2171        return 0;
2172}
2173
2174DLLEXPORT int trace_set_tick_count(libtrace_t *trace, size_t count) {
2175        if (!trace_is_configurable(trace)) return -1;
2176
2177        trace->config.tick_count = count;
2178        return 0;
2179}
2180
2181DLLEXPORT int trace_set_tracetime(libtrace_t *trace, bool tracetime) {
2182        if (!trace_is_configurable(trace)) return -1;
2183
2184        trace->tracetime = tracetime;
2185        return 0;
2186}
2187
2188DLLEXPORT int trace_set_cache_size(libtrace_t *trace, size_t size) {
2189        if (!trace_is_configurable(trace)) return -1;
2190
2191        trace->config.cache_size = size;
2192        return 0;
2193}
2194
2195DLLEXPORT int trace_set_thread_cache_size(libtrace_t *trace, size_t size) {
2196        if (!trace_is_configurable(trace)) return -1;
2197
2198        trace->config.thread_cache_size = size;
2199        return 0;
2200}
2201
2202DLLEXPORT int trace_set_fixed_count(libtrace_t *trace, bool fixed) {
2203        if (!trace_is_configurable(trace)) return -1;
2204
2205        trace->config.fixed_count = fixed;
2206        return 0;
2207}
2208
2209DLLEXPORT int trace_set_burst_size(libtrace_t *trace, size_t size) {
2210        if (!trace_is_configurable(trace)) return -1;
2211
2212        trace->config.burst_size = size;
2213        return 0;
2214}
2215
2216DLLEXPORT int trace_set_hasher_queue_size(libtrace_t *trace, size_t size) {
2217        if (!trace_is_configurable(trace)) return -1;
2218
2219        trace->config.hasher_queue_size = size;
2220        return 0;
2221}
2222
2223DLLEXPORT int trace_set_hasher_polling(libtrace_t *trace, bool polling) {
2224        if (!trace_is_configurable(trace)) return -1;
2225
2226        trace->config.hasher_polling = polling;
2227        return 0;
2228}
2229
2230DLLEXPORT int trace_set_reporter_polling(libtrace_t *trace, bool polling) {
2231        if (!trace_is_configurable(trace)) return -1;
2232
2233        trace->config.reporter_polling = polling;
2234        return 0;
2235}
2236
2237DLLEXPORT int trace_set_reporter_thold(libtrace_t *trace, size_t thold) {
2238        if (!trace_is_configurable(trace)) return -1;
2239
2240        trace->config.reporter_thold = thold;
2241        return 0;
2242}
2243
2244DLLEXPORT int trace_set_debug_state(libtrace_t *trace, bool debug_state) {
2245        if (!trace_is_configurable(trace)) return -1;
2246
2247        trace->config.debug_state = debug_state;
2248        return 0;
2249}
2250
2251
2252
2253static bool config_bool_parse(char *value, size_t nvalue) {
2254        if (strncmp(value, "true", nvalue) == 0)
2255                return true;
2256        else if (strncmp(value, "false", nvalue) == 0)
2257                return false;
2258        else
2259                return strtoll(value, NULL, 10) != 0;
2260}
2261
2262/* Note update documentation on trace_set_configuration */
2263static void config_string(struct user_configuration *uc, char *key, size_t nkey, char *value, size_t nvalue) {
2264        assert(key);
2265        assert(value);
2266        assert(uc);
2267        if (strncmp(key, "cache_size", nkey) == 0
2268            || strncmp(key, "cs", nkey) == 0) {
2269                uc->cache_size = strtoll(value, NULL, 10);
2270        } else if (strncmp(key, "thread_cache_size", nkey) == 0
2271                   || strncmp(key, "tcs", nkey) == 0) {
2272                uc->thread_cache_size = strtoll(value, NULL, 10);
2273        } else if (strncmp(key, "fixed_count", nkey) == 0
2274                   || strncmp(key, "fc", nkey) == 0) {
2275                uc->fixed_count = config_bool_parse(value, nvalue);
2276        } else if (strncmp(key, "burst_size", nkey) == 0
2277                   || strncmp(key, "bs", nkey) == 0) {
2278                uc->burst_size = strtoll(value, NULL, 10);
2279        } else if (strncmp(key, "tick_interval", nkey) == 0
2280                   || strncmp(key, "ti", nkey) == 0) {
2281                uc->tick_interval = strtoll(value, NULL, 10);
2282        } else if (strncmp(key, "tick_count", nkey) == 0
2283                   || strncmp(key, "tc", nkey) == 0) {
2284                uc->tick_count = strtoll(value, NULL, 10);
2285        } else if (strncmp(key, "perpkt_threads", nkey) == 0
2286                   || strncmp(key, "pt", nkey) == 0) {
2287                uc->perpkt_threads = strtoll(value, NULL, 10);
2288        } else if (strncmp(key, "hasher_queue_size", nkey) == 0
2289                   || strncmp(key, "hqs", nkey) == 0) {
2290                uc->hasher_queue_size = strtoll(value, NULL, 10);
2291        } else if (strncmp(key, "hasher_polling", nkey) == 0
2292                   || strncmp(key, "hp", nkey) == 0) {
2293                uc->hasher_polling = config_bool_parse(value, nvalue);
2294        } else if (strncmp(key, "reporter_polling", nkey) == 0
2295                   || strncmp(key, "rp", nkey) == 0) {
2296                uc->reporter_polling = config_bool_parse(value, nvalue);
2297        } else if (strncmp(key, "reporter_thold", nkey) == 0
2298                   || strncmp(key, "rt", nkey) == 0) {
2299                uc->reporter_thold = strtoll(value, NULL, 10);
2300        } else if (strncmp(key, "debug_state", nkey) == 0
2301                   || strncmp(key, "ds", nkey) == 0) {
2302                uc->debug_state = config_bool_parse(value, nvalue);
2303        } else {
2304                fprintf(stderr, "No matching option %s(=%s), ignoring\n", key, value);
2305        }
2306}
2307
2308DLLEXPORT int trace_set_configuration(libtrace_t *trace, const char *str) {
2309        char *pch;
2310        char key[100];
2311        char value[100];
2312        char *dup;
2313        assert(str);
2314        assert(trace);
2315
2316        if (!trace_is_configurable(trace)) return -1;
2317
2318        dup = strdup(str);
2319        pch = strtok (dup," ,.-");
2320        while (pch != NULL)
2321        {
2322                if (sscanf(pch, "%99[^=]=%99s", key, value) == 2) {
2323                        config_string(&trace->config, key, sizeof(key), value, sizeof(value));
2324                } else {
2325                        fprintf(stderr, "Error parsing option %s\n", pch);
2326                }
2327                pch = strtok (NULL," ,.-");
2328        }
2329        free(dup);
2330
2331        return 0;
2332}
2333
2334DLLEXPORT int trace_set_configuration_file(libtrace_t *trace, FILE *file) {
2335        char line[1024];
2336        if (!trace_is_configurable(trace)) return -1;
2337
2338        while (fgets(line, sizeof(line), file) != NULL)
2339        {
2340                trace_set_configuration(trace, line);
2341        }
2342
2343        if(ferror(file))
2344                return -1;
2345        else
2346                return 0;
2347}
2348
2349DLLEXPORT void trace_free_packet(libtrace_t *libtrace, libtrace_packet_t *packet) {
2350        assert(packet);
2351        /* Always release any resources this might be holding */
2352        trace_fin_packet(packet);
2353        libtrace_ocache_free(&libtrace->packet_freelist, (void **) &packet, 1, 1);
2354}
2355
2356DLLEXPORT libtrace_info_t *trace_get_information(libtrace_t * libtrace) {
2357        if (libtrace->format)
2358                return &libtrace->format->info;
2359        else
2360                return NULL;
2361}
Note: See TracBrowser for help on using the repository browser.