sched/fair: Optimize test_idle_cores() for !SMT
authorBarry Song <song.bao.hua@hisilicon.com>
Sat, 20 Mar 2021 22:14:32 +0000 (11:14 +1300)
committerPeter Zijlstra <peterz@infradead.org>
Tue, 23 Mar 2021 15:01:59 +0000 (16:01 +0100)
update_idle_core() is only done for the case of sched_smt_present.
but test_idle_cores() is done for all machines even those without
SMT.

This can contribute to up 8%+ hackbench performance loss on a
machine like kunpeng 920 which has no SMT. This patch removes the
redundant test_idle_cores() for !SMT machines.

Hackbench is ran with -g {2..14}, for each g it is ran 10 times to get
an average.

  $ numactl -N 0 hackbench -p -T -l 20000 -g $1

The below is the result of hackbench w/ and w/o this patch:

  g=    2      4     6       8      10     12      14
  w/o: 1.8151 3.8499 5.5142 7.2491 9.0340 10.7345 12.0929
  w/ : 1.8428 3.7436 5.4501 6.9522 8.2882  9.9535 11.3367
    +4.1%  +8.3%  +7.3%   +6.3%

Signed-off-by: Barry Song <song.bao.hua@hisilicon.com>
Signed-off-by: Peter Zijlstra (Intel) <peterz@infradead.org>
Reviewed-by: Vincent Guittot <vincent.guittot@linaro.org>
Acked-by: Mel Gorman <mgorman@suse.de>
Link: https://lkml.kernel.org/r/20210320221432.924-1-song.bao.hua@hisilicon.com
kernel/sched/fair.c

index 6aad028..aaa0dfa 100644 (file)
@@ -6038,9 +6038,11 @@ static inline bool test_idle_cores(int cpu, bool def)
 {
        struct sched_domain_shared *sds;
 
-       sds = rcu_dereference(per_cpu(sd_llc_shared, cpu));
-       if (sds)
-               return READ_ONCE(sds->has_idle_cores);
+       if (static_branch_likely(&sched_smt_present)) {
+               sds = rcu_dereference(per_cpu(sd_llc_shared, cpu));
+               if (sds)
+                       return READ_ONCE(sds->has_idle_cores);
+       }
 
        return def;
 }