Merge tag 'cgroup-for-5.20' of git://git.kernel.org/pub/scm/linux/kernel/git/tj/cgroup

author Linus Torvalds <torvalds@linux-foundation.org>

Wed, 3 Aug 2022 16:45:08 +0000 (09:45 -0700)

committer Linus Torvalds <torvalds@linux-foundation.org>

Wed, 3 Aug 2022 16:45:08 +0000 (09:45 -0700)
author Linus Torvalds <torvalds@linux-foundation.org>
Wed, 3 Aug 2022 16:45:08 +0000 (09:45 -0700)
committer Linus Torvalds <torvalds@linux-foundation.org>
Wed, 3 Aug 2022 16:45:08 +0000 (09:45 -0700)
diff --git a/Documentation/admin-guide/cgroup-v2.rst b/Documentation/admin-guide/cgroup-v2.rst

index 176298f..bf842b8 100644 (file)
--- a/Documentation/admin-guide/cgroup-v2.rst
+++ b/Documentation/admin-guide/cgroup-v2.rst
@@ -184,6 +184,14 @@ cgroup v2 currently supports the following mount options.
         ignored on non-init namespace mounts.  Please refer to the
         Delegation section for details.
  
+  favordynmods
+        Reduce the latencies of dynamic cgroup modifications such as
+        task migrations and controller on/offs at the cost of making
+        hot path operations such as forks and exits more expensive.
+        The static usage pattern of creating a cgroup, enabling
+        controllers, and then seeding it with CLONE_INTO_CGROUP is
+        not affected by this option.
+
    memory_localevents
          Only populate memory.events with data for the current cgroup,
          and not any subtrees. This is legacy behaviour, the default
diff --git a/include/linux/cgroup-defs.h b/include/linux/cgroup-defs.h

index 187b54a..4bcf56b 100644 (file)
--- a/include/linux/cgroup-defs.h
+++ b/include/linux/cgroup-defs.h
@@ -88,20 +88,33 @@ enum {
          */
         CGRP_ROOT_NS_DELEGATE   = (1 << 3),
  
+       /*
+        * Reduce latencies on dynamic cgroup modifications such as task
+        * migrations and controller on/offs by disabling percpu operation on
+        * cgroup_threadgroup_rwsem. This makes hot path operations such as
+        * forks and exits into the slow path and more expensive.
+        *
+        * The static usage pattern of creating a cgroup, enabling controllers,
+        * and then seeding it with CLONE_INTO_CGROUP doesn't require write
+        * locking cgroup_threadgroup_rwsem and thus doesn't benefit from
+        * favordynmod.
+        */
+       CGRP_ROOT_FAVOR_DYNMODS = (1 << 4),
+
         /*
          * Enable cpuset controller in v1 cgroup to use v2 behavior.
          */
-       CGRP_ROOT_CPUSET_V2_MODE = (1 << 4),
+       CGRP_ROOT_CPUSET_V2_MODE = (1 << 16),
  
         /*
          * Enable legacy local memory.events.
          */
-       CGRP_ROOT_MEMORY_LOCAL_EVENTS = (1 << 5),
+       CGRP_ROOT_MEMORY_LOCAL_EVENTS = (1 << 17),
  
         /*
          * Enable recursive subtree protection
          */
-       CGRP_ROOT_MEMORY_RECURSIVE_PROT = (1 << 6),
+       CGRP_ROOT_MEMORY_RECURSIVE_PROT = (1 << 18),
  };
  
  /* cftype->flags */
@@ -480,7 +493,7 @@ struct cgroup {
         struct work_struct release_agent_work;
  
         /* used to track pressure stalls */
-       struct psi_group psi;
+       struct psi_group *psi;
  
         /* used to store eBPF programs */
         struct cgroup_bpf bpf;
diff --git a/include/linux/cgroup.h b/include/linux/cgroup.h

index 0d1ada8..ed53bfe 100644 (file)
--- a/include/linux/cgroup.h
+++ b/include/linux/cgroup.h
@@ -674,7 +674,7 @@ static inline void pr_cont_cgroup_path(struct cgroup *cgrp)
  
  static inline struct psi_group *cgroup_psi(struct cgroup *cgrp)
  {
-       return &cgrp->psi;
+       return cgrp->psi;
  }
  
  bool cgroup_psi_enabled(void);
diff --git a/init/Kconfig b/init/Kconfig

index 26a5441..8c9ad53 100644 (file)
--- a/init/Kconfig
+++ b/init/Kconfig
@@ -945,6 +945,16 @@ if CGROUPS
  config PAGE_COUNTER
         bool
  
+config CGROUP_FAVOR_DYNMODS
+        bool "Favor dynamic modification latency reduction by default"
+        help
+          This option enables the "favordynmods" mount option by default
+          which reduces the latencies of dynamic cgroup modifications such
+          as task migrations and controller on/offs at the cost of making
+          hot path operations such as forks and exits more expensive.
+
+          Say N if unsure.
+
  config MEMCG
         bool "Memory controller"
         select PAGE_COUNTER
diff --git a/kernel/cgroup/cgroup-internal.h b/kernel/cgroup/cgroup-internal.h

index 5da09c7..36b740c 100644 (file)
--- a/kernel/cgroup/cgroup-internal.h
+++ b/kernel/cgroup/cgroup-internal.h
@@ -233,6 +233,7 @@ void cgroup_kn_unlock(struct kernfs_node *kn);
  int cgroup_path_ns_locked(struct cgroup *cgrp, char *buf, size_t buflen,
                           struct cgroup_namespace *ns);
  
+void cgroup_favor_dynmods(struct cgroup_root *root, bool favor);
  void cgroup_free_root(struct cgroup_root *root);
  void init_cgroup_root(struct cgroup_fs_context *ctx);
  int cgroup_setup_root(struct cgroup_root *root, u16 ss_mask);
diff --git a/kernel/cgroup/cgroup-v1.c b/kernel/cgroup/cgroup-v1.c

index afc6c0e..2ade21b 100644 (file)
--- a/kernel/cgroup/cgroup-v1.c
+++ b/kernel/cgroup/cgroup-v1.c
@@ -875,6 +875,8 @@ static int cgroup1_show_options(struct seq_file *seq, struct kernfs_root *kf_roo
                 seq_puts(seq, ",xattr");
         if (root->flags & CGRP_ROOT_CPUSET_V2_MODE)
                 seq_puts(seq, ",cpuset_v2_mode");
+       if (root->flags & CGRP_ROOT_FAVOR_DYNMODS)
+               seq_puts(seq, ",favordynmods");
  
         spin_lock(&release_agent_path_lock);
         if (strlen(root->release_agent_path))
@@ -898,6 +900,8 @@ enum cgroup1_param {
         Opt_noprefix,
         Opt_release_agent,
         Opt_xattr,
+       Opt_favordynmods,
+       Opt_nofavordynmods,
  };
  
  const struct fs_parameter_spec cgroup1_fs_parameters[] = {
@@ -909,6 +913,8 @@ const struct fs_parameter_spec cgroup1_fs_parameters[] = {
         fsparam_flag  ("noprefix",      Opt_noprefix),
         fsparam_string("release_agent", Opt_release_agent),
         fsparam_flag  ("xattr",         Opt_xattr),
+       fsparam_flag  ("favordynmods",  Opt_favordynmods),
+       fsparam_flag  ("nofavordynmods", Opt_nofavordynmods),
         {}
  };
  
@@ -960,6 +966,12 @@ int cgroup1_parse_param(struct fs_context *fc, struct fs_parameter *param)
         case Opt_xattr:
                 ctx->flags |= CGRP_ROOT_XATTR;
                 break;
+       case Opt_favordynmods:
+               ctx->flags |= CGRP_ROOT_FAVOR_DYNMODS;
+               break;
+       case Opt_nofavordynmods:
+               ctx->flags &= ~CGRP_ROOT_FAVOR_DYNMODS;
+               break;
         case Opt_release_agent:
                 /* Specifying two release agents is forbidden */
                 if (ctx->release_agent)
@@ -1211,8 +1223,11 @@ static int cgroup1_root_to_use(struct fs_context *fc)
         init_cgroup_root(ctx);
  
         ret = cgroup_setup_root(root, ctx->subsys_mask);
-       if (ret)
+       if (!ret)
+               cgroup_favor_dynmods(root, ctx->flags & CGRP_ROOT_FAVOR_DYNMODS);
+       else
                 cgroup_free_root(root);
+
         return ret;
  }
  
diff --git a/kernel/cgroup/cgroup.c b/kernel/cgroup/cgroup.c

index 13c8e91..ffaccd6 100644 (file)
--- a/kernel/cgroup/cgroup.c
+++ b/kernel/cgroup/cgroup.c
@@ -279,8 +279,6 @@ bool cgroup_ssid_enabled(int ssid)
   *
   * - When mounting an existing superblock, mount options should match.
   *
- * - Remount is disallowed.
- *
   * - rename(2) is disallowed.
   *
   * - "tasks" is removed.  Everything should be at process granularity.  Use
@@ -1309,6 +1307,20 @@ struct cgroup_root *cgroup_root_from_kf(struct kernfs_root *kf_root)
         return root_cgrp->root;
  }
  
+void cgroup_favor_dynmods(struct cgroup_root *root, bool favor)
+{
+       bool favoring = root->flags & CGRP_ROOT_FAVOR_DYNMODS;
+
+       /* see the comment above CGRP_ROOT_FAVOR_DYNMODS definition */
+       if (favor && !favoring) {
+               rcu_sync_enter(&cgroup_threadgroup_rwsem.rss);
+               root->flags |= CGRP_ROOT_FAVOR_DYNMODS;
+       } else if (!favor && favoring) {
+               rcu_sync_exit(&cgroup_threadgroup_rwsem.rss);
+               root->flags &= ~CGRP_ROOT_FAVOR_DYNMODS;
+       }
+}
+
  static int cgroup_init_root_id(struct cgroup_root *root)
  {
         int id;
@@ -1369,6 +1381,7 @@ static void cgroup_destroy_root(struct cgroup_root *root)
                 cgroup_root_count--;
         }
  
+       cgroup_favor_dynmods(root, false);
         cgroup_exit_root_id(root);
  
         mutex_unlock(&cgroup_mutex);
@@ -1378,6 +1391,31 @@ static void cgroup_destroy_root(struct cgroup_root *root)
         cgroup_free_root(root);
  }
  
+static inline struct cgroup *__cset_cgroup_from_root(struct css_set *cset,
+                                           struct cgroup_root *root)
+{
+       struct cgroup *res_cgroup = NULL;
+
+       if (cset == &init_css_set) {
+               res_cgroup = &root->cgrp;
+       } else if (root == &cgrp_dfl_root) {
+               res_cgroup = cset->dfl_cgrp;
+       } else {
+               struct cgrp_cset_link *link;
+
+               list_for_each_entry(link, &cset->cgrp_links, cgrp_link) {
+                       struct cgroup *c = link->cgrp;
+
+                       if (c->root == root) {
+                               res_cgroup = c;
+                               break;
+                       }
+               }
+       }
+
+       return res_cgroup;
+}
+
  /*
   * look up cgroup associated with current task's cgroup namespace on the
   * specified hierarchy
@@ -1393,22 +1431,8 @@ current_cgns_cgroup_from_root(struct cgroup_root *root)
         rcu_read_lock();
  
         cset = current->nsproxy->cgroup_ns->root_cset;
-       if (cset == &init_css_set) {
-               res = &root->cgrp;
-       } else if (root == &cgrp_dfl_root) {
-               res = cset->dfl_cgrp;
-       } else {
-               struct cgrp_cset_link *link;
-
-               list_for_each_entry(link, &cset->cgrp_links, cgrp_link) {
-                       struct cgroup *c = link->cgrp;
+       res = __cset_cgroup_from_root(cset, root);
  
-                       if (c->root == root) {
-                               res = c;
-                               break;
-                       }
-               }
-       }
         rcu_read_unlock();
  
         BUG_ON(!res);
@@ -1424,22 +1448,7 @@ static struct cgroup *cset_cgroup_from_root(struct css_set *cset,
         lockdep_assert_held(&cgroup_mutex);
         lockdep_assert_held(&css_set_lock);
  
-       if (cset == &init_css_set) {
-               res = &root->cgrp;
-       } else if (root == &cgrp_dfl_root) {
-               res = cset->dfl_cgrp;
-       } else {
-               struct cgrp_cset_link *link;
-
-               list_for_each_entry(link, &cset->cgrp_links, cgrp_link) {
-                       struct cgroup *c = link->cgrp;
-
-                       if (c->root == root) {
-                               res = c;
-                               break;
-                       }
-               }
-       }
+       res = __cset_cgroup_from_root(cset, root);
  
         BUG_ON(!res);
         return res;
@@ -1866,6 +1875,7 @@ int cgroup_show_path(struct seq_file *sf, struct kernfs_node *kf_node,
  
  enum cgroup2_param {
         Opt_nsdelegate,
+       Opt_favordynmods,
         Opt_memory_localevents,
         Opt_memory_recursiveprot,
         nr__cgroup2_params
@@ -1873,6 +1883,7 @@ enum cgroup2_param {
  
  static const struct fs_parameter_spec cgroup2_fs_parameters[] = {
         fsparam_flag("nsdelegate",              Opt_nsdelegate),
+       fsparam_flag("favordynmods",            Opt_favordynmods),
         fsparam_flag("memory_localevents",      Opt_memory_localevents),
         fsparam_flag("memory_recursiveprot",    Opt_memory_recursiveprot),
         {}
@@ -1892,6 +1903,9 @@ static int cgroup2_parse_param(struct fs_context *fc, struct fs_parameter *param
         case Opt_nsdelegate:
                 ctx->flags |= CGRP_ROOT_NS_DELEGATE;
                 return 0;
+       case Opt_favordynmods:
+               ctx->flags |= CGRP_ROOT_FAVOR_DYNMODS;
+               return 0;
         case Opt_memory_localevents:
                 ctx->flags |= CGRP_ROOT_MEMORY_LOCAL_EVENTS;
                 return 0;
@@ -1910,6 +1924,9 @@ static void apply_cgroup_root_flags(unsigned int root_flags)
                 else
                         cgrp_dfl_root.flags &= ~CGRP_ROOT_NS_DELEGATE;
  
+               cgroup_favor_dynmods(&cgrp_dfl_root,
+                                    root_flags & CGRP_ROOT_FAVOR_DYNMODS);
+
                 if (root_flags & CGRP_ROOT_MEMORY_LOCAL_EVENTS)
                         cgrp_dfl_root.flags |= CGRP_ROOT_MEMORY_LOCAL_EVENTS;
                 else
@@ -1926,6 +1943,8 @@ static int cgroup_show_options(struct seq_file *seq, struct kernfs_root *kf_root
  {
         if (cgrp_dfl_root.flags & CGRP_ROOT_NS_DELEGATE)
                 seq_puts(seq, ",nsdelegate");
+       if (cgrp_dfl_root.flags & CGRP_ROOT_FAVOR_DYNMODS)
+               seq_puts(seq, ",favordynmods");
         if (cgrp_dfl_root.flags & CGRP_ROOT_MEMORY_LOCAL_EVENTS)
                 seq_puts(seq, ",memory_localevents");
         if (cgrp_dfl_root.flags & CGRP_ROOT_MEMORY_RECURSIVE_PROT)
@@ -1976,7 +1995,8 @@ void init_cgroup_root(struct cgroup_fs_context *ctx)
         cgrp->root = root;
         init_cgroup_housekeeping(cgrp);
  
-       root->flags = ctx->flags;
+       /* DYNMODS must be modified through cgroup_favor_dynmods() */
+       root->flags = ctx->flags & ~CGRP_ROOT_FAVOR_DYNMODS;
         if (ctx->release_agent)
                 strscpy(root->release_agent_path, ctx->release_agent, PATH_MAX);
         if (ctx->name)
@@ -2198,6 +2218,10 @@ static int cgroup_init_fs_context(struct fs_context *fc)
         put_user_ns(fc->user_ns);
         fc->user_ns = get_user_ns(ctx->ns->user_ns);
         fc->global = true;
+
+#ifdef CONFIG_CGROUP_FAVOR_DYNMODS
+       ctx->flags |= CGRP_ROOT_FAVOR_DYNMODS;
+#endif
         return 0;
  }
  
@@ -2572,10 +2596,6 @@ int cgroup_migrate_vet_dst(struct cgroup *dst_cgrp)
         if (!cgroup_is_valid_domain(dst_cgrp->dom_cgrp))
                 return -EOPNOTSUPP;
  
-       /* mixables don't care */
-       if (cgroup_is_mixable(dst_cgrp))
-               return 0;
-
         /*
          * If @dst_cgrp is already or can become a thread root or is
          * threaded, it doesn't matter.
@@ -2949,22 +2969,40 @@ static int cgroup_update_dfl_csses(struct cgroup *cgrp)
         struct cgroup_subsys_state *d_css;
         struct cgroup *dsct;
         struct css_set *src_cset;
+       bool has_tasks;
         int ret;
  
         lockdep_assert_held(&cgroup_mutex);
  
-       percpu_down_write(&cgroup_threadgroup_rwsem);
-
         /* look up all csses currently attached to @cgrp's subtree */
         spin_lock_irq(&css_set_lock);
         cgroup_for_each_live_descendant_pre(dsct, d_css, cgrp) {
                 struct cgrp_cset_link *link;
  
+               /*
+                * As cgroup_update_dfl_csses() is only called by
+                * cgroup_apply_control(). The csses associated with the
+                * given cgrp will not be affected by changes made to
+                * its subtree_control file. We can skip them.
+                */
+               if (dsct == cgrp)
+                       continue;
+
                 list_for_each_entry(link, &dsct->cset_links, cset_link)
                         cgroup_migrate_add_src(link->cset, dsct, &mgctx);
         }
         spin_unlock_irq(&css_set_lock);
  
+       /*
+        * We need to write-lock threadgroup_rwsem while migrating tasks.
+        * However, if there are no source csets for @cgrp, changing its
+        * controllers isn't gonna produce any task migrations and the
+        * write-locking can be skipped safely.
+        */
+       has_tasks = !list_empty(&mgctx.preloaded_src_csets);
+       if (has_tasks)
+               percpu_down_write(&cgroup_threadgroup_rwsem);
+
         /* NULL dst indicates self on default hierarchy */
         ret = cgroup_migrate_prepare_dst(&mgctx);
         if (ret)
@@ -2984,7 +3022,8 @@ static int cgroup_update_dfl_csses(struct cgroup *cgrp)
         ret = cgroup_migrate_execute(&mgctx);
  out_finish:
         cgroup_migrate_finish(&mgctx);
-       percpu_up_write(&cgroup_threadgroup_rwsem);
+       if (has_tasks)
+               percpu_up_write(&cgroup_threadgroup_rwsem);
         return ret;
  }
  
@@ -3618,21 +3657,21 @@ static int cpu_stat_show(struct seq_file *seq, void *v)
  static int cgroup_io_pressure_show(struct seq_file *seq, void *v)
  {
         struct cgroup *cgrp = seq_css(seq)->cgroup;
-       struct psi_group *psi = cgroup_ino(cgrp) == 1 ? &psi_system : &cgrp->psi;
+       struct psi_group *psi = cgroup_ino(cgrp) == 1 ? &psi_system : cgrp->psi;
  
         return psi_show(seq, psi, PSI_IO);
  }
  static int cgroup_memory_pressure_show(struct seq_file *seq, void *v)
  {
         struct cgroup *cgrp = seq_css(seq)->cgroup;
-       struct psi_group *psi = cgroup_ino(cgrp) == 1 ? &psi_system : &cgrp->psi;
+       struct psi_group *psi = cgroup_ino(cgrp) == 1 ? &psi_system : cgrp->psi;
  
         return psi_show(seq, psi, PSI_MEM);
  }
  static int cgroup_cpu_pressure_show(struct seq_file *seq, void *v)
  {
         struct cgroup *cgrp = seq_css(seq)->cgroup;
-       struct psi_group *psi = cgroup_ino(cgrp) == 1 ? &psi_system : &cgrp->psi;
+       struct psi_group *psi = cgroup_ino(cgrp) == 1 ? &psi_system : cgrp->psi;
  
         return psi_show(seq, psi, PSI_CPU);
  }
@@ -3658,7 +3697,7 @@ static ssize_t cgroup_pressure_write(struct kernfs_open_file *of, char *buf,
                 return -EBUSY;
         }
  
-       psi = cgroup_ino(cgrp) == 1 ? &psi_system : &cgrp->psi;
+       psi = cgroup_ino(cgrp) == 1 ? &psi_system : cgrp->psi;
         new = psi_trigger_create(psi, buf, nbytes, res);
         if (IS_ERR(new)) {
                 cgroup_put(cgrp);
@@ -5851,12 +5890,6 @@ int __init cgroup_init(void)
  
         cgroup_rstat_boot();
  
-       /*
-        * The latency of the synchronize_rcu() is too high for cgroups,
-        * avoid it at the cost of forcing all readers into the slow path.
-        */
-       rcu_sync_enter_start(&cgroup_threadgroup_rwsem.rss);
-
         get_user_ns(init_cgroup_ns.user_ns);
  
         mutex_lock(&cgroup_mutex);
@@ -6768,6 +6801,7 @@ static ssize_t features_show(struct kobject *kobj, struct kobj_attribute *attr,
  {
         return snprintf(buf, PAGE_SIZE,
                         "nsdelegate\n"
+                       "favordynmods\n"
                         "memory_localevents\n"
                         "memory_recursiveprot\n");
  }
diff --git a/kernel/sched/psi.c b/kernel/sched/psi.c

index a337f3e..ec66b40 100644 (file)
--- a/kernel/sched/psi.c
+++ b/kernel/sched/psi.c
@@ -957,10 +957,16 @@ int psi_cgroup_alloc(struct cgroup *cgroup)
         if (static_branch_likely(&psi_disabled))
                 return 0;
  
-       cgroup->psi.pcpu = alloc_percpu(struct psi_group_cpu);
-       if (!cgroup->psi.pcpu)
+       cgroup->psi = kmalloc(sizeof(struct psi_group), GFP_KERNEL);
+       if (!cgroup->psi)
                 return -ENOMEM;
-       group_init(&cgroup->psi);
+
+       cgroup->psi->pcpu = alloc_percpu(struct psi_group_cpu);
+       if (!cgroup->psi->pcpu) {
+               kfree(cgroup->psi);
+               return -ENOMEM;
+       }
+       group_init(cgroup->psi);
         return 0;
  }
  
@@ -969,10 +975,11 @@ void psi_cgroup_free(struct cgroup *cgroup)
         if (static_branch_likely(&psi_disabled))
                 return;
  
-       cancel_delayed_work_sync(&cgroup->psi.avgs_work);
-       free_percpu(cgroup->psi.pcpu);
+       cancel_delayed_work_sync(&cgroup->psi->avgs_work);
+       free_percpu(cgroup->psi->pcpu);
         /* All triggers must be removed by now */
-       WARN_ONCE(cgroup->psi.poll_states, "psi: trigger leak\n");
+       WARN_ONCE(cgroup->psi->poll_states, "psi: trigger leak\n");
+       kfree(cgroup->psi);
  }
  
  /**
author	Linus Torvalds <torvalds@linux-foundation.org>
	Wed, 3 Aug 2022 16:45:08 +0000 (09:45 -0700)
committer	Linus Torvalds <torvalds@linux-foundation.org>
	Wed, 3 Aug 2022 16:45:08 +0000 (09:45 -0700)
Documentation/admin-guide/cgroup-v2.rst		patch \| blob \| history
include/linux/cgroup-defs.h		patch \| blob \| history
include/linux/cgroup.h		patch \| blob \| history
init/Kconfig		patch \| blob \| history
kernel/cgroup/cgroup-internal.h		patch \| blob \| history
kernel/cgroup/cgroup-v1.c		patch \| blob \| history
kernel/cgroup/cgroup.c		patch \| blob \| history
kernel/sched/psi.c		patch \| blob \| history