cleaning up of the manual
[charm.git] / doc / bigsim / interpolation.tex
1 % Various updates/fixes - CLM, June-2008)
2 %
3 \section{Interpolation / Extrapolation Tool\label{interpolation}}
4
5 It is often desirable to predict performance of non-existent machines, or across architectures.
6 This section describes a  tool that rewrites the  log files produced by BigSim (also known as {\em bgTrace trace
7 logs}) to provide new durations for portions of the application consisting of sequential execution blocks.
8 These new durations can be based upon multiple types of models.
9 The tool can be easily modified to add new types of models if the user requires.
10 The models can be generated from full or partial executions of an application on an existing processor or on a
11 cycle-accurate simulator. 
12
13
14 When predicting the runtime of a parallel application on a not-yet-existent
15 parallel platform, there are two important concerns. The first is correctly modeling the
16 interconnection network, which is handled by BigSimulator (also called BigNetSim). 
17 The second is determining the durations of the relevant sequential portions of code,
18 which we call \textbf{Sequential Execution Blocks (SEB)}, on a new type of processor.
19 The interpolation tool of this section handles only the prediction of SEB durations,
20 using currently three types of implemented models:
21
22 \begin{enumerate}
23 \item \textbf{Scaling of SEB durations} observed on an available (existing) processor, via multiplcation of
24 the original durations by a constant factor.
25 \item \textbf{Parameterizations of SEBs}: each SEB is augmented with user-defined parameters that
26 influence the duration of the SEB. An extrapolation model based on those parameters can
27 predict the durations of SEBs not instrumented in the initial emulation run.
28 \item \textbf{Parameterizations with cycle-accurate simulations} for non-existent architectures: 
29 processor designers use cycle-accurate simulators to simulate the performance of a piece of code on
30 a future processor that is currently unavailable.  Timings for each SEB can be estimated in such a cycle-accurate
31 simulator. The cycle-accurate timings can be extrapolated to predict the durations of SEBs not instrumented in the
32 cycle-accurate simulator.
33 \end{enumerate}
34
35 This tool will soon include a new model with support for performance counters.
36 The currently available tool rewrites the log files produced by a run in the BigSim Emulator. 
37 The rewritten log files can then be consumed by BigSimulator. This usage flow can be seen in
38 Figure~\ref{fig:interpolationflow}, showing that multiple types of models are supported in the tool. 
39
40 \begin{figure}[!t]
41 \centering  
42   \includegraphics[width=4in]{figures/InterpolationFlow}
43 {\sffamily\bfseries\small \caption{Flow diagram for use of the interpolation tool\label{fig:interpolationflow}}}
44 \end{figure}
45
46 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
47 \subsection{Tool Usage\label{usage}}
48
49 The interpolation tool is part of the regular \charmpp{} distribution and 
50 can be found under the directory \texttt{charm/examples/bigsim/tools/rewritelog} with a \texttt{README} file describing its use in more detail than this manual.
51
52 \subsubsection{Producing the Parameterized Timings Log}
53 The interpolation tool uses as input a log of actual durations of user-bracketed sequential execution blocks.
54 These timings come from a full or partial execution of the parallel application on a real machine or
55 within a cycle-accurate simulator. 
56
57 The user must insert \texttt{startTraceBigSim()} and  \texttt{endTraceBigSim()} calls around the main
58 computational regions in the parallel application. These two calls bracket the region of interest
59 and print out a record for that computational region. The functions should be called at most once during
60 any SEB. The output produced by  \texttt{endTraceBigSim()} is a line similar to
61
62  ``\texttt{TRACEBIGSIM: event:\{ PairCalculator::bwMultiplyHelper \}  time:\{ 0.002586 \}  params:\{ 16384.00 1.00 220.00 128.00 128.00 0.00 0.00 0.00 \}}.'' 
63
64 \noindent
65 The event name and the values (in double-precision floating-point) for up to 20 parameters are
66 specified in the call to  \texttt{endTraceBigSim()}; the \texttt{time} field records  the duration of the bracketed region of sequential code. 
67
68 To run in a cycle-accurate simulator such as IBM's MAMBO, the  \texttt{startTraceBigSim()} and  \texttt{endTraceBigSim()} functions would be modified to switch between the ``fast forward'' mode used during the rest of the
69 program and the cycle-accurate mode during the bracketed region of code. The functions are provided in C++ source files under the directory \texttt{charm/examples/bigsim/tools/rewritelog/traceBigSim} and their calls
70 must be added to an application's source file manually.
71
72 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
73 \subsubsection{The BigSim log file format}
74
75 To understand how the interpolation tool works, it is instructive to consider the format
76 of logs produced by the BigSim Emulator.
77 A BigSim log file (i.e. bgTrace log) contains data from emulation of the full parallel application.
78 There is an entry for each SEB, with the following fields:  \textit{ID}, \textit{Name}, $T_{start}$,
79 $T_{end}$, \textit{Back}, \textit{Forward}, \textit{Message ID}, \textit{Source Node},
80 \textit{Message ID}, \textit{Sent Messages}. The final field is actually a list of records for each
81 message sent by the execution block; each record contains the following fields:
82  \textit{Message ID}, $T_{sent}$, $T_{recv}$, \textit{Destination PE}, \textit{Size}, \textit{Group}.
83
84 The interpolation tool will rewrite the durations of the SEBs by correcting the $T_{end}$ field for the
85 SEB and the $T_{sent}$ fields for each message sent. The new durations of all SEBs will be based upon
86 some model $M:SEB\rightarrow Duration$. 
87
88 Each SEB can be decomposed into three temporal regions as shown in Figure~\ref{event_diagram}. 
89 The entire SEB is associated with execution of a Charm++ entry method, while the middle region
90 is the computational kernel of interest, bracketed by the user's \texttt{startTraceBigSim()} and  \texttt{endTraceBigSim()} calls. The model is used only to approximate the new duration of the middle temporal region;
91 the durations of the beginning and ending regions are simply scaled by a constant factor.
92 Internally, the interpolation tool takes the ID for each SEB and looks up its associated parameters.
93 %If
94 When those parameters are found, they are used as input for evaluation of the new duration $d_{new}$
95 for the SEB. The end time is then modified to be $T_{end}\leftarrow  T_{start}+d_{new}$.
96
97 \begin{figure}
98 \centering
99 \includegraphics[width=5in]{figures/event_diagram}
100 \caption{SEBs in the bgTrace file have a start and end time. Only a portion of the SEB, e.g. the important compuational kernel, is timed when performing cycle accurate simulation. The duration of the middle portion of the SEB can be estimated in a different manner than the rest of the SEB. For example, the begin and end pieces can be scaled by some constant factor, while the bracketed middle region's duration can be estimated based on a more
101 sophisticated model.
102 \label{event_diagram}}
103 \end{figure}
104
105 \begin{figure}
106 \centering
107 \includegraphics[width=6in]{figures/event_diagram2}
108 \caption{Message send times for messages sent from an SEB are remapped linearly onto the new time ranges for the 
109 SEB, region by region.
110 \label{event_diagram2}}
111 \end{figure}
112
113 The messages in the message list for each SEB must also have their $T_{sent}$ times rewritten. This is accomplished by linearly mapping the old $T_{sent}$ value from to the new range for the enclosing SEB region, as shown in Figure \ref{event_diagram2}. Any message sent during the first portion will be mapped linearly onto the new first portion of the SEB. The new message $T_{recv}$ times are ignored by BigSimulator, so they do not need to be modified.
114
115
116 \subsubsection{Supported performance models}
117 The interpolation tool supports three types of models, as described in this subsection.
118 % \ref{sec:model:scale}, \ref{sec:model:parameterization}, and \ref{sec:model:partial}. 
119 The more sophisticated models use the least-square curve fitting technique. 
120 The current implementation uses the Gnu Scientific Library(gsl) to perform the
121 least-square fit to the given data. The library provides both the coefficients and a $\chi^2$ measure of the closeness of the fit to the input data. 
122
123
124 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
125 \paragraph{Model 1: Scaling SEB durations by a constant factor}
126 %\label{sec:model:scale}}
127
128 In simple cases, a sufficient approximation of the performance of a parallel application can be obtained
129 by simply scaling the SEB durations by a constant factor.
130 As an example, a user may know that a desired target machine has processors that will execute
131 each SEB twice as fast as on an existing machine.
132 The application is emulated on the existing machine and the observed SEB durations are scaled
133 by a factor of $2.0$. Although simple, this method may be sufficient in many cases. It becomes
134 unnecessary to use the \texttt{startTraceBigSim()} and  \texttt{endTraceBigSim()} calls.
135 The scaling factor is hard coded in the interpolation tool as \texttt{time\_dilation\_factor}.
136 It is used to scale all blocks unless a suitable advanced model has a better method for approximating the 
137 block's duration. It will always be used to scale any portions of blocks that are not bracketed with
138 the calls \texttt{startTraceBigSim()} and  \texttt{endTraceBigSim()}.
139
140 \paragraph{Model 2: Extrapolation based on user's parameterizations}
141 %\label{sec:model:parameterization}}
142
143 The user can simply insert the bracketing calls  \texttt{startTraceBigSim()} and
144   \texttt{endTraceBigSim()} around the computational kernels to log the times taken for each kernel.
145 In practice, the duration of the SEB will likely depend upon the data distribution and access patterns
146 for the parallel application. Thus, the user must specify parameters likely to influence the SEB duration.
147 The parameters can include variables indicating number of loop iterations, number of calls to
148 computational kernels, or sizes of accessed portions of data arrays. A model is built to
149 approximate the duration of any SEB based upon its specified parameters.
150
151 As an example, NAMD uses a number of different types of objects. The \texttt{compute} objects will spend varying amounts of time depending upon the lengths of their associated atom lists. If an atom list is large, more interactions are computed and thus more computation is performed. 
152 % Now the method is described in the context of a simple hypothetical molecular dynamics application. 
153 Meanwhile, assume that a Charm++ entry method called \texttt{doWork(atomList)} is where the majority
154 of the work from an application occurs. The function computes forces on atoms of various types.
155 Different calls to the function will contain different numbers and types of atoms.
156 The source code for  \texttt{doWork(atomList)} will be modified by the user to  contain calls to
157 \texttt{startTraceBigSim()} at the entry and  \texttt{endTraceBigSim()} at the exit of the function.
158 The program will be run, and the resulting timed samples will be used to build a model. Assume the expected runtime of \texttt{doWork(atomList)} is quadratic in the \texttt{atomList} length and linear in the number of carbon atoms in the \texttt{atomList}. The \texttt{endTraceBigSim()}  call would be provided with a descriptive name and a set of parameters, such as \texttt{endTraceBigSim(``doWork()'', $p_1$,$p_2$)},  where parameter $p_1$ is the length of \texttt{atomList} and parameter $p_2$ is the number of carbon atoms in \texttt{atomList}.
159
160 The goal of using a model is to be able to predict the execution time of any arbitrary call to
161 \texttt{doWork()}, given its parameters. The application can be run on an existing processor
162 or parallel cluster for only a few timesteps with the modified \texttt{doWork()} method. 
163 This run will produce a list of \{$\left(p_1,p_2\right)\rightarrow duration$\} records. 
164 A least squares method is applied to fit a curve $f(p_1,p_2)=c_1+c_2 p_1+c_3 p_1^2 + c_4 p_2$  
165 approximating the durations of the records. The least square method minimizes the sum of the
166 squares of the difference between the function $f$ evaluated at each parameter set and the actual
167 timing observed at those parameters. The least square method is provided
168  $\left(1.0,p_1,p_1^2,p_2,time\right)$ for each sample point and produces the coefficients $c_n$ in $f$. 
169 An arbitrary set of parameters (in the current implementation, up to twenty) can be input
170 to $f$ to produce an approximation of the runtime of \texttt{doWork()} even though the particular instance was never timed before. 
171
172 \paragraph{Model 3: Extrapolation of partial executions with cycle accurate simulations 
173 and user's parameterizations}
174 %\label{sec:model:partial}}
175
176 In this case, a cycle accurate simulator can be used to simulate a small fraction of all SEBs for a run
177  of the application. The partial execution is used to build a model which applies to the whole execution.
178 Parameterizations can be used as 
179 % in section \ref{sec:model:parameterization}
180 previously described,
181 so that only some fraction of the SEBs will be run in the expensive cycle-accurate simulator. 
182 In NAMD, for example, a sufficient model can be built from  a random sample of 2\% of the cycle-accurate SEB durations from four timeloop iterations.