devlink: Introduce rate nodes
authorDmytro Linkin <dlinkin@nvidia.com>
Wed, 2 Jun 2021 12:17:25 +0000 (15:17 +0300)
committerDavid S. Miller <davem@davemloft.net>
Wed, 2 Jun 2021 21:08:37 +0000 (14:08 -0700)
Implement support for DEVLINK_CMD_RATE_{NEW|DEL} commands that are used
to create and delete devlink rate nodes. Add new attribute
DEVLINK_ATTR_RATE_NODE_NAME that specify node name string. The node name
is an alphanumeric identifier. No valid node name can be a devlink port
index, eg. decimal number. Extend devlink ops with new callbacks
rate_node_{new|del}() and rate_node_tx_{share|max}_set() to allow
supporting drivers to implement ports rate grouping and setting tx rate
of rate nodes through devlink.
Expose devlink_rate_nodes_destroy() function to allow vendor driver do
proper cleanup of internally allocated resources for the nodes if the
driver goes down or due to any other reasons which requires nodes to be
destroyed.
Disallow moving device from switchdev to legacy mode if any node exists
on that device. User must explicitly delete nodes before switching mode.

Example:

$ devlink port function rate add netdevsim/netdevsim10/group1

$ devlink port function rate set netdevsim/netdevsim10/group1 \
        tx_share 10mbit tx_max 100mbit

Add + set command can be combined:

$ devlink port function rate add netdevsim/netdevsim10/group1 \
        tx_share 10mbit tx_max 100mbit

$ devlink port function rate show netdevsim/netdevsim10/group1
netdevsim/netdevsim10/group1: type node tx_share 10mbit tx_max 100mbit

$ devlink port function rate del netdevsim/netdevsim10/group1

Co-developed-by: Vlad Buslov <vladbu@nvidia.com>
Signed-off-by: Vlad Buslov <vladbu@nvidia.com>
Signed-off-by: Dmytro Linkin <dlinkin@nvidia.com>
Reviewed-by: Jiri Pirko <jiri@nvidia.com>
Signed-off-by: David S. Miller <davem@davemloft.net>
include/net/devlink.h
include/uapi/linux/devlink.h
net/core/devlink.c

index 46d5535..13162b5 100644 (file)
@@ -142,7 +142,10 @@ struct devlink_rate {
        u64 tx_share;
        u64 tx_max;
 
-       struct devlink_port *devlink_port;
+       union {
+               struct devlink_port *devlink_port;
+               char *name;
+       };
 };
 
 struct devlink_port {
@@ -1475,6 +1478,14 @@ struct devlink_ops {
                                      u64 tx_share, struct netlink_ext_ack *extack);
        int (*rate_leaf_tx_max_set)(struct devlink_rate *devlink_rate, void *priv,
                                    u64 tx_max, struct netlink_ext_ack *extack);
+       int (*rate_node_tx_share_set)(struct devlink_rate *devlink_rate, void *priv,
+                                     u64 tx_share, struct netlink_ext_ack *extack);
+       int (*rate_node_tx_max_set)(struct devlink_rate *devlink_rate, void *priv,
+                                   u64 tx_max, struct netlink_ext_ack *extack);
+       int (*rate_node_new)(struct devlink_rate *rate_node, void **priv,
+                            struct netlink_ext_ack *extack);
+       int (*rate_node_del)(struct devlink_rate *rate_node, void *priv,
+                            struct netlink_ext_ack *extack);
 };
 
 static inline void *devlink_priv(struct devlink *devlink)
@@ -1536,6 +1547,7 @@ void devlink_port_attrs_pci_sf_set(struct devlink_port *devlink_port,
                                   bool external);
 int devlink_rate_leaf_create(struct devlink_port *port, void *priv);
 void devlink_rate_leaf_destroy(struct devlink_port *devlink_port);
+void devlink_rate_nodes_destroy(struct devlink *devlink);
 int devlink_sb_register(struct devlink *devlink, unsigned int sb_index,
                        u32 size, u16 ingress_pools_count,
                        u16 egress_pools_count, u16 ingress_tc_count,
index ae94cd2..7e15853 100644 (file)
@@ -213,6 +213,7 @@ enum devlink_port_flavour {
 
 enum devlink_rate_type {
        DEVLINK_RATE_TYPE_LEAF,
+       DEVLINK_RATE_TYPE_NODE,
 };
 
 enum devlink_param_cmode {
@@ -547,6 +548,8 @@ enum devlink_attr {
        DEVLINK_ATTR_RATE_TYPE,                 /* u16 */
        DEVLINK_ATTR_RATE_TX_SHARE,             /* u64 */
        DEVLINK_ATTR_RATE_TX_MAX,               /* u64 */
+       DEVLINK_ATTR_RATE_NODE_NAME,            /* string */
+
        /* add new attributes above here, update the policy in devlink.c */
 
        __DEVLINK_ATTR_MAX,
index 37839fd..589d750 100644 (file)
@@ -196,6 +196,12 @@ devlink_rate_is_leaf(struct devlink_rate *devlink_rate)
        return devlink_rate->type == DEVLINK_RATE_TYPE_LEAF;
 }
 
+static inline bool
+devlink_rate_is_node(struct devlink_rate *devlink_rate)
+{
+       return devlink_rate->type == DEVLINK_RATE_TYPE_NODE;
+}
+
 static struct devlink_rate *
 devlink_rate_leaf_get_from_info(struct devlink *devlink, struct genl_info *info)
 {
@@ -209,6 +215,55 @@ devlink_rate_leaf_get_from_info(struct devlink *devlink, struct genl_info *info)
        return devlink_rate ?: ERR_PTR(-ENODEV);
 }
 
+static struct devlink_rate *
+devlink_rate_node_get_by_name(struct devlink *devlink, const char *node_name)
+{
+       static struct devlink_rate *devlink_rate;
+
+       list_for_each_entry(devlink_rate, &devlink->rate_list, list) {
+               if (devlink_rate_is_node(devlink_rate) &&
+                   !strcmp(node_name, devlink_rate->name))
+                       return devlink_rate;
+       }
+       return ERR_PTR(-ENODEV);
+}
+
+static struct devlink_rate *
+devlink_rate_node_get_from_attrs(struct devlink *devlink, struct nlattr **attrs)
+{
+       const char *rate_node_name;
+       size_t len;
+
+       if (!attrs[DEVLINK_ATTR_RATE_NODE_NAME])
+               return ERR_PTR(-EINVAL);
+       rate_node_name = nla_data(attrs[DEVLINK_ATTR_RATE_NODE_NAME]);
+       len = strlen(rate_node_name);
+       /* Name cannot be empty or decimal number */
+       if (!len || strspn(rate_node_name, "0123456789") == len)
+               return ERR_PTR(-EINVAL);
+
+       return devlink_rate_node_get_by_name(devlink, rate_node_name);
+}
+
+static struct devlink_rate *
+devlink_rate_node_get_from_info(struct devlink *devlink, struct genl_info *info)
+{
+       return devlink_rate_node_get_from_attrs(devlink, info->attrs);
+}
+
+static struct devlink_rate *
+devlink_rate_get_from_info(struct devlink *devlink, struct genl_info *info)
+{
+       struct nlattr **attrs = info->attrs;
+
+       if (attrs[DEVLINK_ATTR_PORT_INDEX])
+               return devlink_rate_leaf_get_from_info(devlink, info);
+       else if (attrs[DEVLINK_ATTR_RATE_NODE_NAME])
+               return devlink_rate_node_get_from_info(devlink, info);
+       else
+               return ERR_PTR(-EINVAL);
+}
+
 struct devlink_sb {
        struct list_head list;
        unsigned int index;
@@ -428,12 +483,13 @@ devlink_region_snapshot_get_by_id(struct devlink_region *region, u32 id)
 #define DEVLINK_NL_FLAG_NEED_PORT              BIT(0)
 #define DEVLINK_NL_FLAG_NEED_DEVLINK_OR_PORT   BIT(1)
 #define DEVLINK_NL_FLAG_NEED_RATE              BIT(2)
+#define DEVLINK_NL_FLAG_NEED_RATE_NODE         BIT(3)
 
 /* The per devlink instance lock is taken by default in the pre-doit
  * operation, yet several commands do not require this. The global
  * devlink lock is taken and protects from disruption by user-calls.
  */
-#define DEVLINK_NL_FLAG_NO_LOCK                        BIT(3)
+#define DEVLINK_NL_FLAG_NO_LOCK                        BIT(4)
 
 static int devlink_nl_pre_doit(const struct genl_ops *ops,
                               struct sk_buff *skb, struct genl_info *info)
@@ -465,12 +521,21 @@ static int devlink_nl_pre_doit(const struct genl_ops *ops,
        } else if (ops->internal_flags & DEVLINK_NL_FLAG_NEED_RATE) {
                struct devlink_rate *devlink_rate;
 
-               devlink_rate = devlink_rate_leaf_get_from_info(devlink, info);
+               devlink_rate = devlink_rate_get_from_info(devlink, info);
                if (IS_ERR(devlink_rate)) {
                        err = PTR_ERR(devlink_rate);
                        goto unlock;
                }
                info->user_ptr[1] = devlink_rate;
+       } else if (ops->internal_flags & DEVLINK_NL_FLAG_NEED_RATE_NODE) {
+               struct devlink_rate *rate_node;
+
+               rate_node = devlink_rate_node_get_from_info(devlink, info);
+               if (IS_ERR(rate_node)) {
+                       err = PTR_ERR(rate_node);
+                       goto unlock;
+               }
+               info->user_ptr[1] = rate_node;
        }
        return 0;
 
@@ -801,6 +866,10 @@ static int devlink_nl_rate_fill(struct sk_buff *msg,
                if (nla_put_u32(msg, DEVLINK_ATTR_PORT_INDEX,
                                devlink_rate->devlink_port->index))
                        goto nla_put_failure;
+       } else if (devlink_rate_is_node(devlink_rate)) {
+               if (nla_put_string(msg, DEVLINK_ATTR_RATE_NODE_NAME,
+                                  devlink_rate->name))
+                       goto nla_put_failure;
        }
 
        if (nla_put_u64_64bit(msg, DEVLINK_ATTR_RATE_TX_SHARE,
@@ -1508,13 +1577,17 @@ static int devlink_nl_rate_set(struct devlink_rate *devlink_rate,
                               struct genl_info *info)
 {
        struct nlattr **attrs = info->attrs;
+       int err = -EOPNOTSUPP;
        u64 rate;
-       int err;
 
        if (attrs[DEVLINK_ATTR_RATE_TX_SHARE]) {
                rate = nla_get_u64(attrs[DEVLINK_ATTR_RATE_TX_SHARE]);
-               err = ops->rate_leaf_tx_share_set(devlink_rate, devlink_rate->priv,
-                                                 rate, info->extack);
+               if (devlink_rate_is_leaf(devlink_rate))
+                       err = ops->rate_leaf_tx_share_set(devlink_rate, devlink_rate->priv,
+                                                         rate, info->extack);
+               else if (devlink_rate_is_node(devlink_rate))
+                       err = ops->rate_node_tx_share_set(devlink_rate, devlink_rate->priv,
+                                                         rate, info->extack);
                if (err)
                        return err;
                devlink_rate->tx_share = rate;
@@ -1522,8 +1595,12 @@ static int devlink_nl_rate_set(struct devlink_rate *devlink_rate,
 
        if (attrs[DEVLINK_ATTR_RATE_TX_MAX]) {
                rate = nla_get_u64(attrs[DEVLINK_ATTR_RATE_TX_MAX]);
-               err = ops->rate_leaf_tx_max_set(devlink_rate, devlink_rate->priv,
-                                               rate, info->extack);
+               if (devlink_rate_is_leaf(devlink_rate))
+                       err = ops->rate_leaf_tx_max_set(devlink_rate, devlink_rate->priv,
+                                                       rate, info->extack);
+               else if (devlink_rate_is_node(devlink_rate))
+                       err = ops->rate_node_tx_max_set(devlink_rate, devlink_rate->priv,
+                                                       rate, info->extack);
                if (err)
                        return err;
                devlink_rate->tx_max = rate;
@@ -1547,6 +1624,15 @@ static bool devlink_rate_set_ops_supported(const struct devlink_ops *ops,
                        NL_SET_ERR_MSG_MOD(info->extack, "TX max set isn't supported for the leafs");
                        return false;
                }
+       } else if (type == DEVLINK_RATE_TYPE_NODE) {
+               if (attrs[DEVLINK_ATTR_RATE_TX_SHARE] && !ops->rate_node_tx_share_set) {
+                       NL_SET_ERR_MSG_MOD(info->extack, "TX share set isn't supported for the nodes");
+                       return false;
+               }
+               if (attrs[DEVLINK_ATTR_RATE_TX_MAX] && !ops->rate_node_tx_max_set) {
+                       NL_SET_ERR_MSG_MOD(info->extack, "TX max set isn't supported for the nodes");
+                       return false;
+               }
        } else {
                WARN_ON("Unknown type of rate object");
                return false;
@@ -1573,6 +1659,78 @@ static int devlink_nl_cmd_rate_set_doit(struct sk_buff *skb,
        return err;
 }
 
+static int devlink_nl_cmd_rate_new_doit(struct sk_buff *skb,
+                                       struct genl_info *info)
+{
+       struct devlink *devlink = info->user_ptr[0];
+       struct devlink_rate *rate_node;
+       const struct devlink_ops *ops;
+       int err;
+
+       ops = devlink->ops;
+       if (!ops || !ops->rate_node_new || !ops->rate_node_del) {
+               NL_SET_ERR_MSG_MOD(info->extack, "Rate nodes aren't supported");
+               return -EOPNOTSUPP;
+       }
+
+       if (!devlink_rate_set_ops_supported(ops, info, DEVLINK_RATE_TYPE_NODE))
+               return -EOPNOTSUPP;
+
+       rate_node = devlink_rate_node_get_from_attrs(devlink, info->attrs);
+       if (!IS_ERR(rate_node))
+               return -EEXIST;
+       else if (rate_node == ERR_PTR(-EINVAL))
+               return -EINVAL;
+
+       rate_node = kzalloc(sizeof(*rate_node), GFP_KERNEL);
+       if (!rate_node)
+               return -ENOMEM;
+
+       rate_node->devlink = devlink;
+       rate_node->type = DEVLINK_RATE_TYPE_NODE;
+       rate_node->name = nla_strdup(info->attrs[DEVLINK_ATTR_RATE_NODE_NAME], GFP_KERNEL);
+       if (!rate_node->name) {
+               err = -ENOMEM;
+               goto err_strdup;
+       }
+
+       err = ops->rate_node_new(rate_node, &rate_node->priv, info->extack);
+       if (err)
+               goto err_node_new;
+
+       err = devlink_nl_rate_set(rate_node, ops, info);
+       if (err)
+               goto err_rate_set;
+
+       list_add(&rate_node->list, &devlink->rate_list);
+       devlink_rate_notify(rate_node, DEVLINK_CMD_RATE_NEW);
+       return 0;
+
+err_rate_set:
+       ops->rate_node_del(rate_node, rate_node->priv, info->extack);
+err_node_new:
+       kfree(rate_node->name);
+err_strdup:
+       kfree(rate_node);
+       return err;
+}
+
+static int devlink_nl_cmd_rate_del_doit(struct sk_buff *skb,
+                                       struct genl_info *info)
+{
+       struct devlink_rate *rate_node = info->user_ptr[1];
+       struct devlink *devlink = rate_node->devlink;
+       const struct devlink_ops *ops = devlink->ops;
+       int err;
+
+       devlink_rate_notify(rate_node, DEVLINK_CMD_RATE_DEL);
+       err = ops->rate_node_del(rate_node, rate_node->priv, info->extack);
+       list_del(&rate_node->list);
+       kfree(rate_node->name);
+       kfree(rate_node);
+       return err;
+}
+
 static int devlink_nl_sb_fill(struct sk_buff *msg, struct devlink *devlink,
                              struct devlink_sb *devlink_sb,
                              enum devlink_command cmd, u32 portid,
@@ -2441,6 +2599,30 @@ static int devlink_nl_cmd_eswitch_get_doit(struct sk_buff *skb,
        return genlmsg_reply(msg, info);
 }
 
+static int devlink_rate_nodes_check(struct devlink *devlink, u16 mode,
+                                   struct netlink_ext_ack *extack)
+{
+       struct devlink_rate *devlink_rate;
+       u16 old_mode;
+       int err;
+
+       if (!devlink->ops->eswitch_mode_get)
+               return -EOPNOTSUPP;
+       err = devlink->ops->eswitch_mode_get(devlink, &old_mode);
+       if (err)
+               return err;
+
+       if (old_mode == mode)
+               return 0;
+
+       list_for_each_entry(devlink_rate, &devlink->rate_list, list)
+               if (devlink_rate_is_node(devlink_rate)) {
+                       NL_SET_ERR_MSG_MOD(extack, "Rate node(s) exists.");
+                       return -EBUSY;
+               }
+       return 0;
+}
+
 static int devlink_nl_cmd_eswitch_set_doit(struct sk_buff *skb,
                                           struct genl_info *info)
 {
@@ -2455,6 +2637,9 @@ static int devlink_nl_cmd_eswitch_set_doit(struct sk_buff *skb,
                if (!ops->eswitch_mode_set)
                        return -EOPNOTSUPP;
                mode = nla_get_u16(info->attrs[DEVLINK_ATTR_ESWITCH_MODE]);
+               err = devlink_rate_nodes_check(devlink, mode, info->extack);
+               if (err)
+                       return err;
                err = ops->eswitch_mode_set(devlink, mode, info->extack);
                if (err)
                        return err;
@@ -8038,6 +8223,7 @@ static const struct nla_policy devlink_nl_policy[DEVLINK_ATTR_MAX + 1] = {
        [DEVLINK_ATTR_RATE_TYPE] = { .type = NLA_U16 },
        [DEVLINK_ATTR_RATE_TX_SHARE] = { .type = NLA_U64 },
        [DEVLINK_ATTR_RATE_TX_MAX] = { .type = NLA_U64 },
+       [DEVLINK_ATTR_RATE_NODE_NAME] = { .type = NLA_NUL_STRING },
 };
 
 static const struct genl_small_ops devlink_nl_ops[] = {
@@ -8076,6 +8262,17 @@ static const struct genl_small_ops devlink_nl_ops[] = {
                .flags = GENL_ADMIN_PERM,
                .internal_flags = DEVLINK_NL_FLAG_NEED_RATE,
        },
+       {
+               .cmd = DEVLINK_CMD_RATE_NEW,
+               .doit = devlink_nl_cmd_rate_new_doit,
+               .flags = GENL_ADMIN_PERM,
+       },
+       {
+               .cmd = DEVLINK_CMD_RATE_DEL,
+               .doit = devlink_nl_cmd_rate_del_doit,
+               .flags = GENL_ADMIN_PERM,
+               .internal_flags = DEVLINK_NL_FLAG_NEED_RATE_NODE,
+       },
        {
                .cmd = DEVLINK_CMD_PORT_SPLIT,
                .validate = GENL_DONT_VALIDATE_STRICT | GENL_DONT_VALIDATE_DUMP,
@@ -8933,6 +9130,33 @@ void devlink_rate_leaf_destroy(struct devlink_port *devlink_port)
 }
 EXPORT_SYMBOL_GPL(devlink_rate_leaf_destroy);
 
+/**
+ * devlink_rate_nodes_destroy - destroy all devlink rate nodes on device
+ *
+ * @devlink: devlink instance
+ *
+ * Destroy all rate nodes on specified device
+ *
+ * Context: Takes and release devlink->lock <mutex>.
+ */
+void devlink_rate_nodes_destroy(struct devlink *devlink)
+{
+       static struct devlink_rate *devlink_rate, *tmp;
+       const struct devlink_ops *ops = devlink->ops;
+
+       mutex_lock(&devlink->lock);
+       list_for_each_entry_safe(devlink_rate, tmp, &devlink->rate_list, list) {
+               if (devlink_rate_is_node(devlink_rate)) {
+                       ops->rate_node_del(devlink_rate, devlink_rate->priv, NULL);
+                       list_del(&devlink_rate->list);
+                       kfree(devlink_rate->name);
+                       kfree(devlink_rate);
+               }
+       }
+       mutex_unlock(&devlink->lock);
+}
+EXPORT_SYMBOL_GPL(devlink_rate_nodes_destroy);
+
 static int __devlink_port_phys_port_name_get(struct devlink_port *devlink_port,
                                             char *name, size_t len)
 {