IB/core: Add receive flow steering support
authorHadar Hen Zion <hadarh@mellanox.com>
Wed, 7 Aug 2013 11:01:59 +0000 (14:01 +0300)
committerRoland Dreier <roland@purestorage.com>
Wed, 28 Aug 2013 16:51:52 +0000 (09:51 -0700)
The RDMA stack allows for applications to create IB_QPT_RAW_PACKET
QPs, which receive plain Ethernet packets, specifically packets that
don't carry any QPN to be matched by the receiving side.  Applications
using these QPs must be provided with a method to program some
steering rule with the HW so packets arriving at the local port can be
routed to them.

This patch adds ib_create_flow(), which allow providing a flow
specification for a QP.  When there's a match between the
specification and a received packet, the packet is forwarded to that
QP, in a the same way one uses ib_attach_multicast() for IB UD
multicast handling.

Flow specifications are provided as instances of struct ib_flow_spec_yyy,
which describe L2, L3 and L4 headers.  Currently specs for Ethernet, IPv4,
TCP and UDP are defined.  Flow specs are made of values and masks.

The input to ib_create_flow() is a struct ib_flow_attr, which contains
a few mandatory control elements and optional flow specs.

    struct ib_flow_attr {
            enum ib_flow_attr_type type;
            u16      size;
            u16      priority;
            u32      flags;
            u8       num_of_specs;
            u8       port;
            /* Following are the optional layers according to user request
             * struct ib_flow_spec_yyy
             * struct ib_flow_spec_zzz
             */
    };

As these specs are eventually coming from user space, they are defined and
used in a way which allows adding new spec types without kernel/user ABI
change, just with a little API enhancement which defines the newly added spec.

The flow spec structures are defined with TLV (Type-Length-Value)
entries, which allows calling ib_create_flow() with a list of variable
length of optional specs.

For the actual processing of ib_flow_attr the driver uses the number
of specs and the size mandatory fields along with the TLV nature of
the specs.

Steering rules processing order is according to the domain over which
the rule is set and the rule priority.  All rules set by user space
applicatations fall into the IB_FLOW_DOMAIN_USER domain, other domains
could be used by future IPoIB RFS and Ethetool flow-steering interface
implementation.  Lower numerical value for the priority field means
higher priority.

The returned value from ib_create_flow() is a struct ib_flow, which
contains a database pointer (handle) provided by the HW driver to be
used when calling ib_destroy_flow().

Applications that offload TCP/IP traffic can also be written over IB
UD QPs.  The ib_create_flow() / ib_destroy_flow() API is designed to
support UD QPs too.  A HW driver can set IB_DEVICE_MANAGED_FLOW_STEERING
to denote support for flow steering.

The ib_flow_attr enum type supports usage of flow steering for promiscuous
and sniffer purposes:

    IB_FLOW_ATTR_NORMAL - "regular" rule, steering according to rule specification

    IB_FLOW_ATTR_ALL_DEFAULT - default unicast and multicast rule, receive
        all Ethernet traffic which isn't steered to any QP

    IB_FLOW_ATTR_MC_DEFAULT - same as IB_FLOW_ATTR_ALL_DEFAULT but only for multicast

    IB_FLOW_ATTR_SNIFFER - sniffer rule, receive all port traffic

ALL_DEFAULT and MC_DEFAULT rules options are valid only for Ethernet link type.

Signed-off-by: Hadar Hen Zion <hadarh@mellanox.com>
Signed-off-by: Or Gerlitz <ogerlitz@mellanox.com>
Signed-off-by: Roland Dreier <roland@purestorage.com>
drivers/infiniband/core/verbs.c
include/rdma/ib_verbs.h

index 22192de..87a8102 100644 (file)
@@ -1254,3 +1254,30 @@ int ib_dealloc_xrcd(struct ib_xrcd *xrcd)
        return xrcd->device->dealloc_xrcd(xrcd);
 }
 EXPORT_SYMBOL(ib_dealloc_xrcd);
+
+struct ib_flow *ib_create_flow(struct ib_qp *qp,
+                              struct ib_flow_attr *flow_attr,
+                              int domain)
+{
+       struct ib_flow *flow_id;
+       if (!qp->device->create_flow)
+               return ERR_PTR(-ENOSYS);
+
+       flow_id = qp->device->create_flow(qp, flow_attr, domain);
+       if (!IS_ERR(flow_id))
+               atomic_inc(&qp->usecnt);
+       return flow_id;
+}
+EXPORT_SYMBOL(ib_create_flow);
+
+int ib_destroy_flow(struct ib_flow *flow_id)
+{
+       int err;
+       struct ib_qp *qp = flow_id->qp;
+
+       err = qp->device->destroy_flow(flow_id);
+       if (!err)
+               atomic_dec(&qp->usecnt);
+       return err;
+}
+EXPORT_SYMBOL(ib_destroy_flow);
index 645c3ce..6f874b0 100644 (file)
@@ -116,7 +116,8 @@ enum ib_device_cap_flags {
        IB_DEVICE_MEM_MGT_EXTENSIONS    = (1<<21),
        IB_DEVICE_BLOCK_MULTICAST_LOOPBACK = (1<<22),
        IB_DEVICE_MEM_WINDOW_TYPE_2A    = (1<<23),
-       IB_DEVICE_MEM_WINDOW_TYPE_2B    = (1<<24)
+       IB_DEVICE_MEM_WINDOW_TYPE_2B    = (1<<24),
+       IB_DEVICE_MANAGED_FLOW_STEERING = (1<<29)
 };
 
 enum ib_atomic_cap {
@@ -1033,7 +1034,8 @@ struct ib_qp {
        struct ib_srq          *srq;
        struct ib_xrcd         *xrcd; /* XRC TGT QPs only */
        struct list_head        xrcd_list;
-       atomic_t                usecnt; /* count times opened, mcast attaches */
+       /* count times opened, mcast attaches, flow attaches */
+       atomic_t                usecnt;
        struct list_head        open_list;
        struct ib_qp           *real_qp;
        struct ib_uobject      *uobject;
@@ -1068,6 +1070,110 @@ struct ib_fmr {
        u32                     rkey;
 };
 
+/* Supported steering options */
+enum ib_flow_attr_type {
+       /* steering according to rule specifications */
+       IB_FLOW_ATTR_NORMAL             = 0x0,
+       /* default unicast and multicast rule -
+        * receive all Eth traffic which isn't steered to any QP
+        */
+       IB_FLOW_ATTR_ALL_DEFAULT        = 0x1,
+       /* default multicast rule -
+        * receive all Eth multicast traffic which isn't steered to any QP
+        */
+       IB_FLOW_ATTR_MC_DEFAULT         = 0x2,
+       /* sniffer rule - receive all port traffic */
+       IB_FLOW_ATTR_SNIFFER            = 0x3
+};
+
+/* Supported steering header types */
+enum ib_flow_spec_type {
+       /* L2 headers*/
+       IB_FLOW_SPEC_ETH        = 0x20,
+       /* L3 header*/
+       IB_FLOW_SPEC_IPV4       = 0x30,
+       /* L4 headers*/
+       IB_FLOW_SPEC_TCP        = 0x40,
+       IB_FLOW_SPEC_UDP        = 0x41
+};
+
+/* Flow steering rule priority is set according to it's domain.
+ * Lower domain value means higher priority.
+ */
+enum ib_flow_domain {
+       IB_FLOW_DOMAIN_USER,
+       IB_FLOW_DOMAIN_ETHTOOL,
+       IB_FLOW_DOMAIN_RFS,
+       IB_FLOW_DOMAIN_NIC,
+       IB_FLOW_DOMAIN_NUM /* Must be last */
+};
+
+struct ib_flow_eth_filter {
+       u8      dst_mac[6];
+       u8      src_mac[6];
+       __be16  ether_type;
+       __be16  vlan_tag;
+};
+
+struct ib_flow_spec_eth {
+       enum ib_flow_spec_type    type;
+       u16                       size;
+       struct ib_flow_eth_filter val;
+       struct ib_flow_eth_filter mask;
+};
+
+struct ib_flow_ipv4_filter {
+       __be32  src_ip;
+       __be32  dst_ip;
+};
+
+struct ib_flow_spec_ipv4 {
+       enum ib_flow_spec_type     type;
+       u16                        size;
+       struct ib_flow_ipv4_filter val;
+       struct ib_flow_ipv4_filter mask;
+};
+
+struct ib_flow_tcp_udp_filter {
+       __be16  dst_port;
+       __be16  src_port;
+};
+
+struct ib_flow_spec_tcp_udp {
+       enum ib_flow_spec_type        type;
+       u16                           size;
+       struct ib_flow_tcp_udp_filter val;
+       struct ib_flow_tcp_udp_filter mask;
+};
+
+union ib_flow_spec {
+       struct {
+               enum ib_flow_spec_type  type;
+               u16                     size;
+       };
+       struct ib_flow_spec_eth         eth;
+       struct ib_flow_spec_ipv4        ipv4;
+       struct ib_flow_spec_tcp_udp     tcp_udp;
+};
+
+struct ib_flow_attr {
+       enum ib_flow_attr_type type;
+       u16          size;
+       u16          priority;
+       u32          flags;
+       u8           num_of_specs;
+       u8           port;
+       /* Following are the optional layers according to user request
+        * struct ib_flow_spec_xxx
+        * struct ib_flow_spec_yyy
+        */
+};
+
+struct ib_flow {
+       struct ib_qp            *qp;
+       struct ib_uobject       *uobject;
+};
+
 struct ib_mad;
 struct ib_grh;
 
@@ -1300,6 +1406,11 @@ struct ib_device {
                                                 struct ib_ucontext *ucontext,
                                                 struct ib_udata *udata);
        int                        (*dealloc_xrcd)(struct ib_xrcd *xrcd);
+       struct ib_flow *           (*create_flow)(struct ib_qp *qp,
+                                                 struct ib_flow_attr
+                                                 *flow_attr,
+                                                 int domain);
+       int                        (*destroy_flow)(struct ib_flow *flow_id);
 
        struct ib_dma_mapping_ops   *dma_ops;
 
@@ -2260,4 +2371,8 @@ struct ib_xrcd *ib_alloc_xrcd(struct ib_device *device);
  */
 int ib_dealloc_xrcd(struct ib_xrcd *xrcd);
 
+struct ib_flow *ib_create_flow(struct ib_qp *qp,
+                              struct ib_flow_attr *flow_attr, int domain);
+int ib_destroy_flow(struct ib_flow *flow_id);
+
 #endif /* IB_VERBS_H */