nvme-multipath: find NUMA path only for online numa-node
authorNilay Shroff <nilay@linux.ibm.com>
Thu, 16 May 2024 12:13:51 +0000 (17:43 +0530)
committerKeith Busch <kbusch@kernel.org>
Tue, 21 May 2024 13:43:08 +0000 (06:43 -0700)
commitd3a043733f25d743f3aa617c7f82dbcb5ee2211a
tree3e2a9f7ce271e8baa07d57e03ec690e7d3ebcee4
parentf0eab3e8d1530b87f3523cee060004dd513a6d2b
nvme-multipath: find NUMA path only for online numa-node

In current native multipath design when a shared namespace is created,
we loop through each possible numa-node, calculate the NUMA distance of
that node from each nvme controller and then cache the optimal IO path
for future reference while sending IO. The issue with this design is that
we may refer to the NUMA distance table for an offline node which may not
be populated at the time and so we may inadvertently end up finding and
caching a non-optimal path for IO. Then latter when the corresponding
numa-node becomes online and hence the NUMA distance table entry for that
node is created, ideally we should re-calculate the multipath node distance
for the newly added node however that doesn't happen unless we rescan/reset
the controller. So essentially, we may keep using non-optimal IO path for a
node which is made online after namespace is created.
This patch helps fix this issue ensuring that when a shared namespace is
created, we calculate the multipath node distance for each online numa-node
instead of each possible numa-node. Then latter when a node becomes online
and we receive any IO on that newly added node, we would calculate the
multipath node distance for newly added node but this time NUMA distance
table would have been already populated for newly added node. Hence we
would be able to correctly calculate the multipath node distance and choose
the optimal path for the IO.

Signed-off-by: Nilay Shroff <nilay@linux.ibm.com>
Reviewed-by: Christoph Hellwig <hch@lst.de>
Signed-off-by: Keith Busch <kbusch@kernel.org>
drivers/nvme/host/multipath.c