介绍

当一个tensorflow模型进行serving时，将单个模型inference请求进行batching对于请求来说相当重要。特别的，batching对于解锁由硬件加速器(例如：GPU)的高吞吐量来说很重要。tensorflow serving存在一个库（library）来对请求（requests）进行batching，以及对这些batches进行调度。该library自身不与GPUs相绑定，可以被用于以下情况：多个小任务处理分组(group)一起协同运行（该文档假设GPUs是为了简化表述）。它提供了一个特别的tensorflow Session API，同时也提供了用于以其它粒度进行batch的底层APIs。

该library当前分隔在两个位置：

1) tensorflow/contrib/batching (core API and implementation)
2) tensorflow_serving/batching (higher-level and experimental code)

该library提供了多个可选的类（classes）以供选择。这些选择的原因是，有许多合理的方式来执行batching。不存在“最佳”的方法，因为不同的用例具有不同的需求：

API偏好选择：Tensor API vs. general API; 异步 vs 同步 (synchronous vs. asynchronous)
除了GPU外，模型是否有很大的CPU组件
server是否需要将请求（requests）交错到（interleave）多个模型（或者版本version）中
这是用于在线服务（online serving）还是批处理（bulk processing，比哪：map-reduce jobs）？

更进一步，其中一些部署需要高级能力来挤榨出最大性能，其它一些可能只想简单合理的执行。

2.Simple Batching

如果你刚接触batching library或者只有基本需求，你可以只关注BatchingSession或者BasicBatchScheduler。

2.1 BatchingSession

BatchingSession会添加batching到一个标准的tensorflow::Session中，接着由你使用单个tensor（非batching）的方式调用Session::Run() ，你可以获得你看不见的batching收益。如果你的应用使用tensorflow，可以搭配Session:Run()的synchronous API，该抽象（abstraction）效果不错——请求线程调用Session::Run() 时会阻塞，等待其它调用将它们分组（group）成同一个batch。为了在synchronous API上达到好的吞吐量（throughput），我们推荐你将客户端线程数设置成batch_size的两倍。

BatchingSession可以与其它batch调度器（包括BasicBatchScheduler）一起使用。它提供了一种方式来将限定每个Session:Run()的调用能阻塞多久。使用BatchingSession的最简单方式是使用CreateRetryingBasicBatchingSession()来创建: 它可以给你返回一个使用一个BasicBatchScheduler底层的tensorflow::Session()对象，也可以处理来自从调度队列溢出的重试请求。你可以提供一些关键参数来管理传给底层BasicBatchScheduler的批请求（batched requests）的调度和执行；下面会有详细介绍。BasicBatchScheduler具有一个限定size的队列；你可以设置参数来管理当队列满时Session::Run()是否会失败；或者以一定的时延进行重试多少次，等等。

最终的配置参数是allowed_batch_sizes。该参数是可选的。如果未设置，那么batch size会是任意在[1, 最大允许size(比如:1024)]间的任何数。取决于你的环境，batch_size很大可能会带来问题。allowed_batch_sizes参数可以让你将batch size限定在一个固定集，比如：128, 256, 512, 1024. BatchingSession会保持这种限制：通过使用空数据（dummy data）补足不合理size的batches来达到下一个合法的size。

2.2 BasicBatchScheduler

BasicBatchScheduler是比BatchingSession更底层的一个抽象。它不与tensors/Tensorflow相绑定，这使得它很灵活。对于那些处理均匀请求的servers来说很适合（详见basic_batch_scheduler.h）。

BasicBatchScheduler提供了一个异步API，它会与BatchScheduler共享。该API通过一个BatchTask类进行模板化，封装了关于batch工作的一个unit。使用一个非阻塞Schedule()方法来enqueue一个任务进行处理。一旦一个batch的任务准备好要被处理，会在处理该batch的单个线程上调用一个callback。如何使用该API的一个好示例可以详见batching_session.cc的BatchingSession实现。

3.Batching Scheduling参数及Tuning

这些参数管理着batch scheduling：

max_batch_size：batch允许的最大size。该参数管理着吞吐量/时延间的tradeoff，也可以避免。
batch_timeout_micros：在执行一个batch之前，要等待的最大时间量（即使它没有达到max_batch_size），用于控制尾部时延（tail latency），详见basic_batch_scheduler.h。
num_batch_threads：并行度，例如，并发处理batches的最大数目
max_enqueued_batches：可以进入scheduler队列的最大batches的数目。它被用于限定队列时延，通过不让那些长时间的请求入内，而非构建一个大的缓充（backlog）。

3.1 性能调优

batch scheduling参数的最佳值取决于你的模型、系统和环境、以及你的吞吐量和时延要求。可以通过实验来选择合理值。这里有相应的指南。

总体指南

首先，试验时你应将max_enqueued_batches设置成无限大（infinity）。接着，设置你的生产环境，可以按如下去做：

如果你正执行online serving，取决于将请求路由到server实例中策略，可以设置max_enqueued_batches等于num_batch_threads，以便能在当特定的server正忙时能最小化排队时延（queueing delay）。
如果是批处理任务，可将max_enqueued_batches设置成一个大值，但不能太高，以避免out-of-memory crashes。

第二，出于系统架构的原因，你需要将限制batch size可能集合（比如：100, 200 或者 400,而非在1到400间的任意值）：如果你正使用BatchingSession，你可以设置allowed_batch_sizes参数。否则，你可以通过使用空数据来补齐batches来安排你的callback。

CPU-only:One 方法

如果你的系统是CPU-only（无GPU），可以考虑使用以下值：

num_batch_threads：等于CPU core的数目；
max_batch_size：设置成无穷大(infinity)
batch_timeout_micros：0
batch_timeout_micros：试验值在1-10ms （1000-10000 us）范围，记住，0也可以是最优值

GPU:One 方法

如果你的模型使用一个GPU设备来完成inference工作的一部分，考虑以下的方法：

1.将num_batch_threads设置成CPU core的数目
2.将batch_timeout_micros临时设置成无穷大，然后调节max_batch_size来在吞吐量和平均时延的平衡上达到你想要的值。
3.对于online serving，调节batch_timeout_micros来控制尾部时延（tail latency）。batches通常会填满max_batch_size，但对于进来的请求偶尔也会填不满，为了避免引了时延毛刺，对于在队列中未填满的batch来说需要去做处理。batch_timeout_micros通常只有几毫秒（ms），具体取决于上下文和目标。0也是一个可考虑的值，对于某些workloads可能效果很好。（对于批处理任务，选择一个较大值，可能是几秒，来确保好的吞吐量，又不至于对最后未满的batch等太久）

4.多个模型，多个版本或者多个子任务的Servers

一些server实例会同时服务多种请求类型（比如：多种模型、一个模型的多种版本）。另一情况下，单个请求可以分解成子请求，涉及到多个不同的servables（比如：一个推荐系统可能具有一个triggering model，它会决定是否准备一个推荐，根据选择实际推荐的一个模型）。第三种情况是，分桶序列模型请求会对相同的长度的请求进行batch，最小化padding。

总的来说，对于每种请求或子任务，如果它们在底层计算资源上共享的话，各自使用一个独立的batch scheduler效果并不会好——每个scheduler会运行在它们自己的线程上，该线程会与其它线程竞争访问资源。较好的方法是，使用单个scheduler时与单个线程池一起搭配使用，可以认出多个不同类型的任务，避免同种任务的batches与其它任务的batches相交错。

SharedBatchScheduler会处理这种情况。它表示一个队列的抽象，接受请求来调度某一种特定的任务。每个batch都包含了一种类型的任务（来自某一队列）。该scheduler会通过不同类型的batches相交错来确保公平性。

该队列实现了BatchScheduler API，因此他们可以在任何使用简单scheduler（非共享）的地方被使用，包含与BatchingSession的情况。队列可以一直进行添加和移除，这对于新模型版本的迁移（客户端会指定一个特定版本）的情况很有用：clients可以学到最新的版本，server必须处理两种版本的请求，SharedBatchScheduler会处理两种类型请求batches的交叉。

5.混合CPU/GPU/IO Workloads

除了主要的GPU工作量外，一些模型会执行重要的CPU工作。而核心矩阵操作则在GPU上运行，次要操作则发生在CPU上，例如：embedding lookup，vocabulary lookup，quantization/dequantization. 具体取决于GPU如何被管理，将CPU和GPU steps的整个序列进行batching成一个unit可能会减少GPU的利用率。

非GPU（Non-GPU）的预处理和后处理可以在请求线程(request threads)中被执行，而batch scheduler只用于GPU部分的工作。

另外，非GPU工作可以在batch线程（batch threads）上完成，在batch scheduler调用的callback中完成。在一个batch完全形成之前，为了允许该callback来执行non- batched工作，你可以使用StreamingBatchScheduler。这样的设计是为了让servers非常精准的控制时延，并能很好地控制pipeline的每个stage。

StreamingBatchScheduler将拒绝一个任务，如果该scheduler当前没有能力（capacity）处理它。如果你想自动重试被拒绝的任务，你可以在batch scheduler之上叠一个BatchSchedulerRetrier。另外存在一个很便利的函数用来创建一个streaming scheduler与retrier的搭配是：“CreateRetryingStreamingBatchScheduler()”

当将模型inference logic分割成多个不同的阶段（phases）来优化时延或利用率时，记住对于一个给定的请求，每个阶段都应使用相同版本的该模型。确保该特征的一个好方式是，协调在每个阶段(phases)上跨线程使用哪个ServableHandle对象。

最后，对于inference中I/O敏感的阶段，比如：查询磁盘或远程servers，可能会受益于batching来掩盖他们的时延。你可以使用两个batch scheduler实例：一个用于batch这些lookups，另一个用于batch那些GPU工作量。

参考

batching