mm: vmscan: check if mem cgroup is disabled or not before calling memcg slab shrinker

[linux-2.6-microblaze.git] / mm / vmscan.c
diff --git a/mm/vmscan.c b/mm/vmscan.c

index f8e3dcd..dbdc46a 100644 (file)
--- a/mm/vmscan.c
+++ b/mm/vmscan.c
@@ -131,6 +131,9 @@ struct scan_control {
                 unsigned int file_taken;
                 unsigned int taken;
         } nr;
+
+       /* for recording the reclaimed slab by now */
+       struct reclaim_state reclaim_state;
  };
  
  #ifdef ARCH_HAS_PREFETCH
@@ -238,6 +241,18 @@ static void unregister_memcg_shrinker(struct shrinker *shrinker)
  }
  #endif /* CONFIG_MEMCG_KMEM */
  
+static void set_task_reclaim_state(struct task_struct *task,
+                                  struct reclaim_state *rs)
+{
+       /* Check for an overwrite */
+       WARN_ON_ONCE(rs && task->reclaim_state);
+
+       /* Check for the nulling of an already-nulled member */
+       WARN_ON_ONCE(!rs && !task->reclaim_state);
+
+       task->reclaim_state = rs;
+}
+
  #ifdef CONFIG_MEMCG
  static bool global_reclaim(struct scan_control *sc)
  {
@@ -684,7 +699,14 @@ static unsigned long shrink_slab(gfp_t gfp_mask, int nid,
         unsigned long ret, freed = 0;
         struct shrinker *shrinker;
  
-       if (!mem_cgroup_is_root(memcg))
+       /*
+        * The root memcg might be allocated even though memcg is disabled
+        * via "cgroup_disable=memory" boot parameter.  This could make
+        * mem_cgroup_is_root() return false, then just run memcg slab
+        * shrink, but skip global shrink.  This may result in premature
+        * oom.
+        */
+       if (!mem_cgroup_disabled() && !mem_cgroup_is_root(memcg))
                 return shrink_slab_memcg(gfp_mask, nid, memcg, priority);
  
         if (!down_read_trylock(&shrinker_rwsem))
@@ -3191,11 +3213,13 @@ unsigned long try_to_free_pages(struct zonelist *zonelist, int order,
         if (throttle_direct_reclaim(sc.gfp_mask, zonelist, nodemask))
                 return 1;
  
+       set_task_reclaim_state(current, &sc.reclaim_state);
         trace_mm_vmscan_direct_reclaim_begin(order, sc.gfp_mask);
  
         nr_reclaimed = do_try_to_free_pages(zonelist, &sc);
  
         trace_mm_vmscan_direct_reclaim_end(nr_reclaimed);
+       set_task_reclaim_state(current, NULL);
  
         return nr_reclaimed;
  }
@@ -3218,6 +3242,7 @@ unsigned long mem_cgroup_shrink_node(struct mem_cgroup *memcg,
         };
         unsigned long lru_pages;
  
+       set_task_reclaim_state(current, &sc.reclaim_state);
         sc.gfp_mask = (gfp_mask & GFP_RECLAIM_MASK) |
                         (GFP_HIGHUSER_MOVABLE & ~GFP_RECLAIM_MASK);
  
@@ -3235,7 +3260,9 @@ unsigned long mem_cgroup_shrink_node(struct mem_cgroup *memcg,
  
         trace_mm_vmscan_memcg_softlimit_reclaim_end(sc.nr_reclaimed);
  
+       set_task_reclaim_state(current, NULL);
         *nr_scanned = sc.nr_scanned;
+
         return sc.nr_reclaimed;
  }
  
@@ -3262,6 +3289,7 @@ unsigned long try_to_free_mem_cgroup_pages(struct mem_cgroup *memcg,
                 .may_shrinkslab = 1,
         };
  
+       set_task_reclaim_state(current, &sc.reclaim_state);
         /*
          * Unlike direct reclaim via alloc_pages(), memcg's reclaim doesn't
          * take care of from where we get pages. So the node where we start the
@@ -3282,6 +3310,7 @@ unsigned long try_to_free_mem_cgroup_pages(struct mem_cgroup *memcg,
         psi_memstall_leave(&pflags);
  
         trace_mm_vmscan_memcg_reclaim_end(nr_reclaimed);
+       set_task_reclaim_state(current, NULL);
  
         return nr_reclaimed;
  }
@@ -3483,6 +3512,7 @@ static int balance_pgdat(pg_data_t *pgdat, int order, int classzone_idx)
                 .may_unmap = 1,
         };
  
+       set_task_reclaim_state(current, &sc.reclaim_state);
         psi_memstall_enter(&pflags);
         __fs_reclaim_acquire();
  
@@ -3664,6 +3694,8 @@ out:
         snapshot_refaults(NULL, pgdat);
         __fs_reclaim_release();
         psi_memstall_leave(&pflags);
+       set_task_reclaim_state(current, NULL);
+
         /*
          * Return the order kswapd stopped reclaiming at as
          * prepare_kswapd_sleep() takes it into account. If another caller
@@ -3787,15 +3819,10 @@ static int kswapd(void *p)
         unsigned int classzone_idx = MAX_NR_ZONES - 1;
         pg_data_t *pgdat = (pg_data_t*)p;
         struct task_struct *tsk = current;
-
-       struct reclaim_state reclaim_state = {
-               .reclaimed_slab = 0,
-       };
         const struct cpumask *cpumask = cpumask_of_node(pgdat->node_id);
  
         if (!cpumask_empty(cpumask))
                 set_cpus_allowed_ptr(tsk, cpumask);
-       current->reclaim_state = &reclaim_state;
  
         /*
          * Tell the memory management that we're a "memory allocator",
@@ -3857,7 +3884,6 @@ kswapd_try_sleep:
         }
  
         tsk->flags &= ~(PF_MEMALLOC | PF_SWAPWRITE | PF_KSWAPD);
-       current->reclaim_state = NULL;
  
         return 0;
  }
@@ -3922,7 +3948,6 @@ void wakeup_kswapd(struct zone *zone, gfp_t gfp_flags, int order,
   */
  unsigned long shrink_all_memory(unsigned long nr_to_reclaim)
  {
-       struct reclaim_state reclaim_state;
         struct scan_control sc = {
                 .nr_to_reclaim = nr_to_reclaim,
                 .gfp_mask = GFP_HIGHUSER_MOVABLE,
@@ -3934,18 +3959,16 @@ unsigned long shrink_all_memory(unsigned long nr_to_reclaim)
                 .hibernation_mode = 1,
         };
         struct zonelist *zonelist = node_zonelist(numa_node_id(), sc.gfp_mask);
-       struct task_struct *p = current;
         unsigned long nr_reclaimed;
         unsigned int noreclaim_flag;
  
         fs_reclaim_acquire(sc.gfp_mask);
         noreclaim_flag = memalloc_noreclaim_save();
-       reclaim_state.reclaimed_slab = 0;
-       p->reclaim_state = &reclaim_state;
+       set_task_reclaim_state(current, &sc.reclaim_state);
  
         nr_reclaimed = do_try_to_free_pages(zonelist, &sc);
  
-       p->reclaim_state = NULL;
+       set_task_reclaim_state(current, NULL);
         memalloc_noreclaim_restore(noreclaim_flag);
         fs_reclaim_release(sc.gfp_mask);
  
@@ -4110,7 +4133,6 @@ static int __node_reclaim(struct pglist_data *pgdat, gfp_t gfp_mask, unsigned in
         /* Minimum pages needed in order to stay on node */
         const unsigned long nr_pages = 1 << order;
         struct task_struct *p = current;
-       struct reclaim_state reclaim_state;
         unsigned int noreclaim_flag;
         struct scan_control sc = {
                 .nr_to_reclaim = max(nr_pages, SWAP_CLUSTER_MAX),
@@ -4135,8 +4157,7 @@ static int __node_reclaim(struct pglist_data *pgdat, gfp_t gfp_mask, unsigned in
          */
         noreclaim_flag = memalloc_noreclaim_save();
         p->flags |= PF_SWAPWRITE;
-       reclaim_state.reclaimed_slab = 0;
-       p->reclaim_state = &reclaim_state;
+       set_task_reclaim_state(p, &sc.reclaim_state);
  
         if (node_pagecache_reclaimable(pgdat) > pgdat->min_unmapped_pages) {
                 /*
@@ -4148,7 +4169,7 @@ static int __node_reclaim(struct pglist_data *pgdat, gfp_t gfp_mask, unsigned in
                 } while (sc.nr_reclaimed < nr_pages && --sc.priority >= 0);
         }
  
-       p->reclaim_state = NULL;
+       set_task_reclaim_state(p, NULL);
         current->flags &= ~PF_SWAPWRITE;
         memalloc_noreclaim_restore(noreclaim_flag);
         fs_reclaim_release(sc.gfp_mask);