Merge tag 'char-misc-5.4-rc3' of git://git.kernel.org/pub/scm/linux/kernel/git/gregkh...
[linux-2.6-microblaze.git] / fs / io_uring.c
1 // SPDX-License-Identifier: GPL-2.0
2 /*
3  * Shared application/kernel submission and completion ring pairs, for
4  * supporting fast/efficient IO.
5  *
6  * A note on the read/write ordering memory barriers that are matched between
7  * the application and kernel side.
8  *
9  * After the application reads the CQ ring tail, it must use an
10  * appropriate smp_rmb() to pair with the smp_wmb() the kernel uses
11  * before writing the tail (using smp_load_acquire to read the tail will
12  * do). It also needs a smp_mb() before updating CQ head (ordering the
13  * entry load(s) with the head store), pairing with an implicit barrier
14  * through a control-dependency in io_get_cqring (smp_store_release to
15  * store head will do). Failure to do so could lead to reading invalid
16  * CQ entries.
17  *
18  * Likewise, the application must use an appropriate smp_wmb() before
19  * writing the SQ tail (ordering SQ entry stores with the tail store),
20  * which pairs with smp_load_acquire in io_get_sqring (smp_store_release
21  * to store the tail will do). And it needs a barrier ordering the SQ
22  * head load before writing new SQ entries (smp_load_acquire to read
23  * head will do).
24  *
25  * When using the SQ poll thread (IORING_SETUP_SQPOLL), the application
26  * needs to check the SQ flags for IORING_SQ_NEED_WAKEUP *after*
27  * updating the SQ tail; a full memory barrier smp_mb() is needed
28  * between.
29  *
30  * Also see the examples in the liburing library:
31  *
32  *      git://git.kernel.dk/liburing
33  *
34  * io_uring also uses READ/WRITE_ONCE() for _any_ store or load that happens
35  * from data shared between the kernel and application. This is done both
36  * for ordering purposes, but also to ensure that once a value is loaded from
37  * data that the application could potentially modify, it remains stable.
38  *
39  * Copyright (C) 2018-2019 Jens Axboe
40  * Copyright (c) 2018-2019 Christoph Hellwig
41  */
42 #include <linux/kernel.h>
43 #include <linux/init.h>
44 #include <linux/errno.h>
45 #include <linux/syscalls.h>
46 #include <linux/compat.h>
47 #include <linux/refcount.h>
48 #include <linux/uio.h>
49
50 #include <linux/sched/signal.h>
51 #include <linux/fs.h>
52 #include <linux/file.h>
53 #include <linux/fdtable.h>
54 #include <linux/mm.h>
55 #include <linux/mman.h>
56 #include <linux/mmu_context.h>
57 #include <linux/percpu.h>
58 #include <linux/slab.h>
59 #include <linux/workqueue.h>
60 #include <linux/kthread.h>
61 #include <linux/blkdev.h>
62 #include <linux/bvec.h>
63 #include <linux/net.h>
64 #include <net/sock.h>
65 #include <net/af_unix.h>
66 #include <net/scm.h>
67 #include <linux/anon_inodes.h>
68 #include <linux/sched/mm.h>
69 #include <linux/uaccess.h>
70 #include <linux/nospec.h>
71 #include <linux/sizes.h>
72 #include <linux/hugetlb.h>
73
74 #include <uapi/linux/io_uring.h>
75
76 #include "internal.h"
77
78 #define IORING_MAX_ENTRIES      32768
79 #define IORING_MAX_FIXED_FILES  1024
80
81 struct io_uring {
82         u32 head ____cacheline_aligned_in_smp;
83         u32 tail ____cacheline_aligned_in_smp;
84 };
85
86 /*
87  * This data is shared with the application through the mmap at offsets
88  * IORING_OFF_SQ_RING and IORING_OFF_CQ_RING.
89  *
90  * The offsets to the member fields are published through struct
91  * io_sqring_offsets when calling io_uring_setup.
92  */
93 struct io_rings {
94         /*
95          * Head and tail offsets into the ring; the offsets need to be
96          * masked to get valid indices.
97          *
98          * The kernel controls head of the sq ring and the tail of the cq ring,
99          * and the application controls tail of the sq ring and the head of the
100          * cq ring.
101          */
102         struct io_uring         sq, cq;
103         /*
104          * Bitmasks to apply to head and tail offsets (constant, equals
105          * ring_entries - 1)
106          */
107         u32                     sq_ring_mask, cq_ring_mask;
108         /* Ring sizes (constant, power of 2) */
109         u32                     sq_ring_entries, cq_ring_entries;
110         /*
111          * Number of invalid entries dropped by the kernel due to
112          * invalid index stored in array
113          *
114          * Written by the kernel, shouldn't be modified by the
115          * application (i.e. get number of "new events" by comparing to
116          * cached value).
117          *
118          * After a new SQ head value was read by the application this
119          * counter includes all submissions that were dropped reaching
120          * the new SQ head (and possibly more).
121          */
122         u32                     sq_dropped;
123         /*
124          * Runtime flags
125          *
126          * Written by the kernel, shouldn't be modified by the
127          * application.
128          *
129          * The application needs a full memory barrier before checking
130          * for IORING_SQ_NEED_WAKEUP after updating the sq tail.
131          */
132         u32                     sq_flags;
133         /*
134          * Number of completion events lost because the queue was full;
135          * this should be avoided by the application by making sure
136          * there are not more requests pending thatn there is space in
137          * the completion queue.
138          *
139          * Written by the kernel, shouldn't be modified by the
140          * application (i.e. get number of "new events" by comparing to
141          * cached value).
142          *
143          * As completion events come in out of order this counter is not
144          * ordered with any other data.
145          */
146         u32                     cq_overflow;
147         /*
148          * Ring buffer of completion events.
149          *
150          * The kernel writes completion events fresh every time they are
151          * produced, so the application is allowed to modify pending
152          * entries.
153          */
154         struct io_uring_cqe     cqes[] ____cacheline_aligned_in_smp;
155 };
156
157 struct io_mapped_ubuf {
158         u64             ubuf;
159         size_t          len;
160         struct          bio_vec *bvec;
161         unsigned int    nr_bvecs;
162 };
163
164 struct async_list {
165         spinlock_t              lock;
166         atomic_t                cnt;
167         struct list_head        list;
168
169         struct file             *file;
170         off_t                   io_start;
171         size_t                  io_len;
172 };
173
174 struct io_ring_ctx {
175         struct {
176                 struct percpu_ref       refs;
177         } ____cacheline_aligned_in_smp;
178
179         struct {
180                 unsigned int            flags;
181                 bool                    compat;
182                 bool                    account_mem;
183
184                 /*
185                  * Ring buffer of indices into array of io_uring_sqe, which is
186                  * mmapped by the application using the IORING_OFF_SQES offset.
187                  *
188                  * This indirection could e.g. be used to assign fixed
189                  * io_uring_sqe entries to operations and only submit them to
190                  * the queue when needed.
191                  *
192                  * The kernel modifies neither the indices array nor the entries
193                  * array.
194                  */
195                 u32                     *sq_array;
196                 unsigned                cached_sq_head;
197                 unsigned                sq_entries;
198                 unsigned                sq_mask;
199                 unsigned                sq_thread_idle;
200                 struct io_uring_sqe     *sq_sqes;
201
202                 struct list_head        defer_list;
203                 struct list_head        timeout_list;
204         } ____cacheline_aligned_in_smp;
205
206         /* IO offload */
207         struct workqueue_struct *sqo_wq[2];
208         struct task_struct      *sqo_thread;    /* if using sq thread polling */
209         struct mm_struct        *sqo_mm;
210         wait_queue_head_t       sqo_wait;
211         struct completion       sqo_thread_started;
212
213         struct {
214                 unsigned                cached_cq_tail;
215                 unsigned                cq_entries;
216                 unsigned                cq_mask;
217                 struct wait_queue_head  cq_wait;
218                 struct fasync_struct    *cq_fasync;
219                 struct eventfd_ctx      *cq_ev_fd;
220                 atomic_t                cq_timeouts;
221         } ____cacheline_aligned_in_smp;
222
223         struct io_rings *rings;
224
225         /*
226          * If used, fixed file set. Writers must ensure that ->refs is dead,
227          * readers must ensure that ->refs is alive as long as the file* is
228          * used. Only updated through io_uring_register(2).
229          */
230         struct file             **user_files;
231         unsigned                nr_user_files;
232
233         /* if used, fixed mapped user buffers */
234         unsigned                nr_user_bufs;
235         struct io_mapped_ubuf   *user_bufs;
236
237         struct user_struct      *user;
238
239         struct completion       ctx_done;
240
241         struct {
242                 struct mutex            uring_lock;
243                 wait_queue_head_t       wait;
244         } ____cacheline_aligned_in_smp;
245
246         struct {
247                 spinlock_t              completion_lock;
248                 bool                    poll_multi_file;
249                 /*
250                  * ->poll_list is protected by the ctx->uring_lock for
251                  * io_uring instances that don't use IORING_SETUP_SQPOLL.
252                  * For SQPOLL, only the single threaded io_sq_thread() will
253                  * manipulate the list, hence no extra locking is needed there.
254                  */
255                 struct list_head        poll_list;
256                 struct list_head        cancel_list;
257         } ____cacheline_aligned_in_smp;
258
259         struct async_list       pending_async[2];
260
261 #if defined(CONFIG_UNIX)
262         struct socket           *ring_sock;
263 #endif
264 };
265
266 struct sqe_submit {
267         const struct io_uring_sqe       *sqe;
268         unsigned short                  index;
269         u32                             sequence;
270         bool                            has_user;
271         bool                            needs_lock;
272         bool                            needs_fixed_file;
273 };
274
275 /*
276  * First field must be the file pointer in all the
277  * iocb unions! See also 'struct kiocb' in <linux/fs.h>
278  */
279 struct io_poll_iocb {
280         struct file                     *file;
281         struct wait_queue_head          *head;
282         __poll_t                        events;
283         bool                            done;
284         bool                            canceled;
285         struct wait_queue_entry         wait;
286 };
287
288 struct io_timeout {
289         struct file                     *file;
290         struct hrtimer                  timer;
291 };
292
293 /*
294  * NOTE! Each of the iocb union members has the file pointer
295  * as the first entry in their struct definition. So you can
296  * access the file pointer through any of the sub-structs,
297  * or directly as just 'ki_filp' in this struct.
298  */
299 struct io_kiocb {
300         union {
301                 struct file             *file;
302                 struct kiocb            rw;
303                 struct io_poll_iocb     poll;
304                 struct io_timeout       timeout;
305         };
306
307         struct sqe_submit       submit;
308
309         struct io_ring_ctx      *ctx;
310         struct list_head        list;
311         struct list_head        link_list;
312         unsigned int            flags;
313         refcount_t              refs;
314 #define REQ_F_NOWAIT            1       /* must not punt to workers */
315 #define REQ_F_IOPOLL_COMPLETED  2       /* polled IO has completed */
316 #define REQ_F_FIXED_FILE        4       /* ctx owns file */
317 #define REQ_F_SEQ_PREV          8       /* sequential with previous */
318 #define REQ_F_IO_DRAIN          16      /* drain existing IO first */
319 #define REQ_F_IO_DRAINED        32      /* drain done */
320 #define REQ_F_LINK              64      /* linked sqes */
321 #define REQ_F_LINK_DONE         128     /* linked sqes done */
322 #define REQ_F_FAIL_LINK         256     /* fail rest of links */
323 #define REQ_F_SHADOW_DRAIN      512     /* link-drain shadow req */
324 #define REQ_F_TIMEOUT           1024    /* timeout request */
325         u64                     user_data;
326         u32                     result;
327         u32                     sequence;
328
329         struct work_struct      work;
330 };
331
332 #define IO_PLUG_THRESHOLD               2
333 #define IO_IOPOLL_BATCH                 8
334
335 struct io_submit_state {
336         struct blk_plug         plug;
337
338         /*
339          * io_kiocb alloc cache
340          */
341         void                    *reqs[IO_IOPOLL_BATCH];
342         unsigned                int free_reqs;
343         unsigned                int cur_req;
344
345         /*
346          * File reference cache
347          */
348         struct file             *file;
349         unsigned int            fd;
350         unsigned int            has_refs;
351         unsigned int            used_refs;
352         unsigned int            ios_left;
353 };
354
355 static void io_sq_wq_submit_work(struct work_struct *work);
356 static void io_cqring_fill_event(struct io_ring_ctx *ctx, u64 ki_user_data,
357                                  long res);
358 static void __io_free_req(struct io_kiocb *req);
359
360 static struct kmem_cache *req_cachep;
361
362 static const struct file_operations io_uring_fops;
363
364 struct sock *io_uring_get_socket(struct file *file)
365 {
366 #if defined(CONFIG_UNIX)
367         if (file->f_op == &io_uring_fops) {
368                 struct io_ring_ctx *ctx = file->private_data;
369
370                 return ctx->ring_sock->sk;
371         }
372 #endif
373         return NULL;
374 }
375 EXPORT_SYMBOL(io_uring_get_socket);
376
377 static void io_ring_ctx_ref_free(struct percpu_ref *ref)
378 {
379         struct io_ring_ctx *ctx = container_of(ref, struct io_ring_ctx, refs);
380
381         complete(&ctx->ctx_done);
382 }
383
384 static struct io_ring_ctx *io_ring_ctx_alloc(struct io_uring_params *p)
385 {
386         struct io_ring_ctx *ctx;
387         int i;
388
389         ctx = kzalloc(sizeof(*ctx), GFP_KERNEL);
390         if (!ctx)
391                 return NULL;
392
393         if (percpu_ref_init(&ctx->refs, io_ring_ctx_ref_free,
394                             PERCPU_REF_ALLOW_REINIT, GFP_KERNEL)) {
395                 kfree(ctx);
396                 return NULL;
397         }
398
399         ctx->flags = p->flags;
400         init_waitqueue_head(&ctx->cq_wait);
401         init_completion(&ctx->ctx_done);
402         init_completion(&ctx->sqo_thread_started);
403         mutex_init(&ctx->uring_lock);
404         init_waitqueue_head(&ctx->wait);
405         for (i = 0; i < ARRAY_SIZE(ctx->pending_async); i++) {
406                 spin_lock_init(&ctx->pending_async[i].lock);
407                 INIT_LIST_HEAD(&ctx->pending_async[i].list);
408                 atomic_set(&ctx->pending_async[i].cnt, 0);
409         }
410         spin_lock_init(&ctx->completion_lock);
411         INIT_LIST_HEAD(&ctx->poll_list);
412         INIT_LIST_HEAD(&ctx->cancel_list);
413         INIT_LIST_HEAD(&ctx->defer_list);
414         INIT_LIST_HEAD(&ctx->timeout_list);
415         return ctx;
416 }
417
418 static inline bool io_sequence_defer(struct io_ring_ctx *ctx,
419                                      struct io_kiocb *req)
420 {
421         /* timeout requests always honor sequence */
422         if (!(req->flags & REQ_F_TIMEOUT) &&
423             (req->flags & (REQ_F_IO_DRAIN|REQ_F_IO_DRAINED)) != REQ_F_IO_DRAIN)
424                 return false;
425
426         return req->sequence != ctx->cached_cq_tail + ctx->rings->sq_dropped;
427 }
428
429 static struct io_kiocb *__io_get_deferred_req(struct io_ring_ctx *ctx,
430                                               struct list_head *list)
431 {
432         struct io_kiocb *req;
433
434         if (list_empty(list))
435                 return NULL;
436
437         req = list_first_entry(list, struct io_kiocb, list);
438         if (!io_sequence_defer(ctx, req)) {
439                 list_del_init(&req->list);
440                 return req;
441         }
442
443         return NULL;
444 }
445
446 static struct io_kiocb *io_get_deferred_req(struct io_ring_ctx *ctx)
447 {
448         return __io_get_deferred_req(ctx, &ctx->defer_list);
449 }
450
451 static struct io_kiocb *io_get_timeout_req(struct io_ring_ctx *ctx)
452 {
453         return __io_get_deferred_req(ctx, &ctx->timeout_list);
454 }
455
456 static void __io_commit_cqring(struct io_ring_ctx *ctx)
457 {
458         struct io_rings *rings = ctx->rings;
459
460         if (ctx->cached_cq_tail != READ_ONCE(rings->cq.tail)) {
461                 /* order cqe stores with ring update */
462                 smp_store_release(&rings->cq.tail, ctx->cached_cq_tail);
463
464                 if (wq_has_sleeper(&ctx->cq_wait)) {
465                         wake_up_interruptible(&ctx->cq_wait);
466                         kill_fasync(&ctx->cq_fasync, SIGIO, POLL_IN);
467                 }
468         }
469 }
470
471 static inline void io_queue_async_work(struct io_ring_ctx *ctx,
472                                        struct io_kiocb *req)
473 {
474         int rw = 0;
475
476         if (req->submit.sqe) {
477                 switch (req->submit.sqe->opcode) {
478                 case IORING_OP_WRITEV:
479                 case IORING_OP_WRITE_FIXED:
480                         rw = !(req->rw.ki_flags & IOCB_DIRECT);
481                         break;
482                 }
483         }
484
485         queue_work(ctx->sqo_wq[rw], &req->work);
486 }
487
488 static void io_kill_timeout(struct io_kiocb *req)
489 {
490         int ret;
491
492         ret = hrtimer_try_to_cancel(&req->timeout.timer);
493         if (ret != -1) {
494                 atomic_inc(&req->ctx->cq_timeouts);
495                 list_del(&req->list);
496                 io_cqring_fill_event(req->ctx, req->user_data, 0);
497                 __io_free_req(req);
498         }
499 }
500
501 static void io_kill_timeouts(struct io_ring_ctx *ctx)
502 {
503         struct io_kiocb *req, *tmp;
504
505         spin_lock_irq(&ctx->completion_lock);
506         list_for_each_entry_safe(req, tmp, &ctx->timeout_list, list)
507                 io_kill_timeout(req);
508         spin_unlock_irq(&ctx->completion_lock);
509 }
510
511 static void io_commit_cqring(struct io_ring_ctx *ctx)
512 {
513         struct io_kiocb *req;
514
515         while ((req = io_get_timeout_req(ctx)) != NULL)
516                 io_kill_timeout(req);
517
518         __io_commit_cqring(ctx);
519
520         while ((req = io_get_deferred_req(ctx)) != NULL) {
521                 if (req->flags & REQ_F_SHADOW_DRAIN) {
522                         /* Just for drain, free it. */
523                         __io_free_req(req);
524                         continue;
525                 }
526                 req->flags |= REQ_F_IO_DRAINED;
527                 io_queue_async_work(ctx, req);
528         }
529 }
530
531 static struct io_uring_cqe *io_get_cqring(struct io_ring_ctx *ctx)
532 {
533         struct io_rings *rings = ctx->rings;
534         unsigned tail;
535
536         tail = ctx->cached_cq_tail;
537         /*
538          * writes to the cq entry need to come after reading head; the
539          * control dependency is enough as we're using WRITE_ONCE to
540          * fill the cq entry
541          */
542         if (tail - READ_ONCE(rings->cq.head) == rings->cq_ring_entries)
543                 return NULL;
544
545         ctx->cached_cq_tail++;
546         return &rings->cqes[tail & ctx->cq_mask];
547 }
548
549 static void io_cqring_fill_event(struct io_ring_ctx *ctx, u64 ki_user_data,
550                                  long res)
551 {
552         struct io_uring_cqe *cqe;
553
554         /*
555          * If we can't get a cq entry, userspace overflowed the
556          * submission (by quite a lot). Increment the overflow count in
557          * the ring.
558          */
559         cqe = io_get_cqring(ctx);
560         if (cqe) {
561                 WRITE_ONCE(cqe->user_data, ki_user_data);
562                 WRITE_ONCE(cqe->res, res);
563                 WRITE_ONCE(cqe->flags, 0);
564         } else {
565                 unsigned overflow = READ_ONCE(ctx->rings->cq_overflow);
566
567                 WRITE_ONCE(ctx->rings->cq_overflow, overflow + 1);
568         }
569 }
570
571 static void io_cqring_ev_posted(struct io_ring_ctx *ctx)
572 {
573         if (waitqueue_active(&ctx->wait))
574                 wake_up(&ctx->wait);
575         if (waitqueue_active(&ctx->sqo_wait))
576                 wake_up(&ctx->sqo_wait);
577         if (ctx->cq_ev_fd)
578                 eventfd_signal(ctx->cq_ev_fd, 1);
579 }
580
581 static void io_cqring_add_event(struct io_ring_ctx *ctx, u64 user_data,
582                                 long res)
583 {
584         unsigned long flags;
585
586         spin_lock_irqsave(&ctx->completion_lock, flags);
587         io_cqring_fill_event(ctx, user_data, res);
588         io_commit_cqring(ctx);
589         spin_unlock_irqrestore(&ctx->completion_lock, flags);
590
591         io_cqring_ev_posted(ctx);
592 }
593
594 static struct io_kiocb *io_get_req(struct io_ring_ctx *ctx,
595                                    struct io_submit_state *state)
596 {
597         gfp_t gfp = GFP_KERNEL | __GFP_NOWARN;
598         struct io_kiocb *req;
599
600         if (!percpu_ref_tryget(&ctx->refs))
601                 return NULL;
602
603         if (!state) {
604                 req = kmem_cache_alloc(req_cachep, gfp);
605                 if (unlikely(!req))
606                         goto out;
607         } else if (!state->free_reqs) {
608                 size_t sz;
609                 int ret;
610
611                 sz = min_t(size_t, state->ios_left, ARRAY_SIZE(state->reqs));
612                 ret = kmem_cache_alloc_bulk(req_cachep, gfp, sz, state->reqs);
613
614                 /*
615                  * Bulk alloc is all-or-nothing. If we fail to get a batch,
616                  * retry single alloc to be on the safe side.
617                  */
618                 if (unlikely(ret <= 0)) {
619                         state->reqs[0] = kmem_cache_alloc(req_cachep, gfp);
620                         if (!state->reqs[0])
621                                 goto out;
622                         ret = 1;
623                 }
624                 state->free_reqs = ret - 1;
625                 state->cur_req = 1;
626                 req = state->reqs[0];
627         } else {
628                 req = state->reqs[state->cur_req];
629                 state->free_reqs--;
630                 state->cur_req++;
631         }
632
633         req->file = NULL;
634         req->ctx = ctx;
635         req->flags = 0;
636         /* one is dropped after submission, the other at completion */
637         refcount_set(&req->refs, 2);
638         req->result = 0;
639         return req;
640 out:
641         percpu_ref_put(&ctx->refs);
642         return NULL;
643 }
644
645 static void io_free_req_many(struct io_ring_ctx *ctx, void **reqs, int *nr)
646 {
647         if (*nr) {
648                 kmem_cache_free_bulk(req_cachep, *nr, reqs);
649                 percpu_ref_put_many(&ctx->refs, *nr);
650                 *nr = 0;
651         }
652 }
653
654 static void __io_free_req(struct io_kiocb *req)
655 {
656         if (req->file && !(req->flags & REQ_F_FIXED_FILE))
657                 fput(req->file);
658         percpu_ref_put(&req->ctx->refs);
659         kmem_cache_free(req_cachep, req);
660 }
661
662 static void io_req_link_next(struct io_kiocb *req)
663 {
664         struct io_kiocb *nxt;
665
666         /*
667          * The list should never be empty when we are called here. But could
668          * potentially happen if the chain is messed up, check to be on the
669          * safe side.
670          */
671         nxt = list_first_entry_or_null(&req->link_list, struct io_kiocb, list);
672         if (nxt) {
673                 list_del(&nxt->list);
674                 if (!list_empty(&req->link_list)) {
675                         INIT_LIST_HEAD(&nxt->link_list);
676                         list_splice(&req->link_list, &nxt->link_list);
677                         nxt->flags |= REQ_F_LINK;
678                 }
679
680                 nxt->flags |= REQ_F_LINK_DONE;
681                 INIT_WORK(&nxt->work, io_sq_wq_submit_work);
682                 io_queue_async_work(req->ctx, nxt);
683         }
684 }
685
686 /*
687  * Called if REQ_F_LINK is set, and we fail the head request
688  */
689 static void io_fail_links(struct io_kiocb *req)
690 {
691         struct io_kiocb *link;
692
693         while (!list_empty(&req->link_list)) {
694                 link = list_first_entry(&req->link_list, struct io_kiocb, list);
695                 list_del(&link->list);
696
697                 io_cqring_add_event(req->ctx, link->user_data, -ECANCELED);
698                 __io_free_req(link);
699         }
700 }
701
702 static void io_free_req(struct io_kiocb *req)
703 {
704         /*
705          * If LINK is set, we have dependent requests in this chain. If we
706          * didn't fail this request, queue the first one up, moving any other
707          * dependencies to the next request. In case of failure, fail the rest
708          * of the chain.
709          */
710         if (req->flags & REQ_F_LINK) {
711                 if (req->flags & REQ_F_FAIL_LINK)
712                         io_fail_links(req);
713                 else
714                         io_req_link_next(req);
715         }
716
717         __io_free_req(req);
718 }
719
720 static void io_put_req(struct io_kiocb *req)
721 {
722         if (refcount_dec_and_test(&req->refs))
723                 io_free_req(req);
724 }
725
726 static unsigned io_cqring_events(struct io_rings *rings)
727 {
728         /* See comment at the top of this file */
729         smp_rmb();
730         return READ_ONCE(rings->cq.tail) - READ_ONCE(rings->cq.head);
731 }
732
733 /*
734  * Find and free completed poll iocbs
735  */
736 static void io_iopoll_complete(struct io_ring_ctx *ctx, unsigned int *nr_events,
737                                struct list_head *done)
738 {
739         void *reqs[IO_IOPOLL_BATCH];
740         struct io_kiocb *req;
741         int to_free;
742
743         to_free = 0;
744         while (!list_empty(done)) {
745                 req = list_first_entry(done, struct io_kiocb, list);
746                 list_del(&req->list);
747
748                 io_cqring_fill_event(ctx, req->user_data, req->result);
749                 (*nr_events)++;
750
751                 if (refcount_dec_and_test(&req->refs)) {
752                         /* If we're not using fixed files, we have to pair the
753                          * completion part with the file put. Use regular
754                          * completions for those, only batch free for fixed
755                          * file and non-linked commands.
756                          */
757                         if ((req->flags & (REQ_F_FIXED_FILE|REQ_F_LINK)) ==
758                             REQ_F_FIXED_FILE) {
759                                 reqs[to_free++] = req;
760                                 if (to_free == ARRAY_SIZE(reqs))
761                                         io_free_req_many(ctx, reqs, &to_free);
762                         } else {
763                                 io_free_req(req);
764                         }
765                 }
766         }
767
768         io_commit_cqring(ctx);
769         io_free_req_many(ctx, reqs, &to_free);
770 }
771
772 static int io_do_iopoll(struct io_ring_ctx *ctx, unsigned int *nr_events,
773                         long min)
774 {
775         struct io_kiocb *req, *tmp;
776         LIST_HEAD(done);
777         bool spin;
778         int ret;
779
780         /*
781          * Only spin for completions if we don't have multiple devices hanging
782          * off our complete list, and we're under the requested amount.
783          */
784         spin = !ctx->poll_multi_file && *nr_events < min;
785
786         ret = 0;
787         list_for_each_entry_safe(req, tmp, &ctx->poll_list, list) {
788                 struct kiocb *kiocb = &req->rw;
789
790                 /*
791                  * Move completed entries to our local list. If we find a
792                  * request that requires polling, break out and complete
793                  * the done list first, if we have entries there.
794                  */
795                 if (req->flags & REQ_F_IOPOLL_COMPLETED) {
796                         list_move_tail(&req->list, &done);
797                         continue;
798                 }
799                 if (!list_empty(&done))
800                         break;
801
802                 ret = kiocb->ki_filp->f_op->iopoll(kiocb, spin);
803                 if (ret < 0)
804                         break;
805
806                 if (ret && spin)
807                         spin = false;
808                 ret = 0;
809         }
810
811         if (!list_empty(&done))
812                 io_iopoll_complete(ctx, nr_events, &done);
813
814         return ret;
815 }
816
817 /*
818  * Poll for a mininum of 'min' events. Note that if min == 0 we consider that a
819  * non-spinning poll check - we'll still enter the driver poll loop, but only
820  * as a non-spinning completion check.
821  */
822 static int io_iopoll_getevents(struct io_ring_ctx *ctx, unsigned int *nr_events,
823                                 long min)
824 {
825         while (!list_empty(&ctx->poll_list) && !need_resched()) {
826                 int ret;
827
828                 ret = io_do_iopoll(ctx, nr_events, min);
829                 if (ret < 0)
830                         return ret;
831                 if (!min || *nr_events >= min)
832                         return 0;
833         }
834
835         return 1;
836 }
837
838 /*
839  * We can't just wait for polled events to come to us, we have to actively
840  * find and complete them.
841  */
842 static void io_iopoll_reap_events(struct io_ring_ctx *ctx)
843 {
844         if (!(ctx->flags & IORING_SETUP_IOPOLL))
845                 return;
846
847         mutex_lock(&ctx->uring_lock);
848         while (!list_empty(&ctx->poll_list)) {
849                 unsigned int nr_events = 0;
850
851                 io_iopoll_getevents(ctx, &nr_events, 1);
852
853                 /*
854                  * Ensure we allow local-to-the-cpu processing to take place,
855                  * in this case we need to ensure that we reap all events.
856                  */
857                 cond_resched();
858         }
859         mutex_unlock(&ctx->uring_lock);
860 }
861
862 static int io_iopoll_check(struct io_ring_ctx *ctx, unsigned *nr_events,
863                            long min)
864 {
865         int iters, ret = 0;
866
867         /*
868          * We disallow the app entering submit/complete with polling, but we
869          * still need to lock the ring to prevent racing with polled issue
870          * that got punted to a workqueue.
871          */
872         mutex_lock(&ctx->uring_lock);
873
874         iters = 0;
875         do {
876                 int tmin = 0;
877
878                 /*
879                  * Don't enter poll loop if we already have events pending.
880                  * If we do, we can potentially be spinning for commands that
881                  * already triggered a CQE (eg in error).
882                  */
883                 if (io_cqring_events(ctx->rings))
884                         break;
885
886                 /*
887                  * If a submit got punted to a workqueue, we can have the
888                  * application entering polling for a command before it gets
889                  * issued. That app will hold the uring_lock for the duration
890                  * of the poll right here, so we need to take a breather every
891                  * now and then to ensure that the issue has a chance to add
892                  * the poll to the issued list. Otherwise we can spin here
893                  * forever, while the workqueue is stuck trying to acquire the
894                  * very same mutex.
895                  */
896                 if (!(++iters & 7)) {
897                         mutex_unlock(&ctx->uring_lock);
898                         mutex_lock(&ctx->uring_lock);
899                 }
900
901                 if (*nr_events < min)
902                         tmin = min - *nr_events;
903
904                 ret = io_iopoll_getevents(ctx, nr_events, tmin);
905                 if (ret <= 0)
906                         break;
907                 ret = 0;
908         } while (min && !*nr_events && !need_resched());
909
910         mutex_unlock(&ctx->uring_lock);
911         return ret;
912 }
913
914 static void kiocb_end_write(struct kiocb *kiocb)
915 {
916         if (kiocb->ki_flags & IOCB_WRITE) {
917                 struct inode *inode = file_inode(kiocb->ki_filp);
918
919                 /*
920                  * Tell lockdep we inherited freeze protection from submission
921                  * thread.
922                  */
923                 if (S_ISREG(inode->i_mode))
924                         __sb_writers_acquired(inode->i_sb, SB_FREEZE_WRITE);
925                 file_end_write(kiocb->ki_filp);
926         }
927 }
928
929 static void io_complete_rw(struct kiocb *kiocb, long res, long res2)
930 {
931         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw);
932
933         kiocb_end_write(kiocb);
934
935         if ((req->flags & REQ_F_LINK) && res != req->result)
936                 req->flags |= REQ_F_FAIL_LINK;
937         io_cqring_add_event(req->ctx, req->user_data, res);
938         io_put_req(req);
939 }
940
941 static void io_complete_rw_iopoll(struct kiocb *kiocb, long res, long res2)
942 {
943         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw);
944
945         kiocb_end_write(kiocb);
946
947         if ((req->flags & REQ_F_LINK) && res != req->result)
948                 req->flags |= REQ_F_FAIL_LINK;
949         req->result = res;
950         if (res != -EAGAIN)
951                 req->flags |= REQ_F_IOPOLL_COMPLETED;
952 }
953
954 /*
955  * After the iocb has been issued, it's safe to be found on the poll list.
956  * Adding the kiocb to the list AFTER submission ensures that we don't
957  * find it from a io_iopoll_getevents() thread before the issuer is done
958  * accessing the kiocb cookie.
959  */
960 static void io_iopoll_req_issued(struct io_kiocb *req)
961 {
962         struct io_ring_ctx *ctx = req->ctx;
963
964         /*
965          * Track whether we have multiple files in our lists. This will impact
966          * how we do polling eventually, not spinning if we're on potentially
967          * different devices.
968          */
969         if (list_empty(&ctx->poll_list)) {
970                 ctx->poll_multi_file = false;
971         } else if (!ctx->poll_multi_file) {
972                 struct io_kiocb *list_req;
973
974                 list_req = list_first_entry(&ctx->poll_list, struct io_kiocb,
975                                                 list);
976                 if (list_req->rw.ki_filp != req->rw.ki_filp)
977                         ctx->poll_multi_file = true;
978         }
979
980         /*
981          * For fast devices, IO may have already completed. If it has, add
982          * it to the front so we find it first.
983          */
984         if (req->flags & REQ_F_IOPOLL_COMPLETED)
985                 list_add(&req->list, &ctx->poll_list);
986         else
987                 list_add_tail(&req->list, &ctx->poll_list);
988 }
989
990 static void io_file_put(struct io_submit_state *state)
991 {
992         if (state->file) {
993                 int diff = state->has_refs - state->used_refs;
994
995                 if (diff)
996                         fput_many(state->file, diff);
997                 state->file = NULL;
998         }
999 }
1000
1001 /*
1002  * Get as many references to a file as we have IOs left in this submission,
1003  * assuming most submissions are for one file, or at least that each file
1004  * has more than one submission.
1005  */
1006 static struct file *io_file_get(struct io_submit_state *state, int fd)
1007 {
1008         if (!state)
1009                 return fget(fd);
1010
1011         if (state->file) {
1012                 if (state->fd == fd) {
1013                         state->used_refs++;
1014                         state->ios_left--;
1015                         return state->file;
1016                 }
1017                 io_file_put(state);
1018         }
1019         state->file = fget_many(fd, state->ios_left);
1020         if (!state->file)
1021                 return NULL;
1022
1023         state->fd = fd;
1024         state->has_refs = state->ios_left;
1025         state->used_refs = 1;
1026         state->ios_left--;
1027         return state->file;
1028 }
1029
1030 /*
1031  * If we tracked the file through the SCM inflight mechanism, we could support
1032  * any file. For now, just ensure that anything potentially problematic is done
1033  * inline.
1034  */
1035 static bool io_file_supports_async(struct file *file)
1036 {
1037         umode_t mode = file_inode(file)->i_mode;
1038
1039         if (S_ISBLK(mode) || S_ISCHR(mode))
1040                 return true;
1041         if (S_ISREG(mode) && file->f_op != &io_uring_fops)
1042                 return true;
1043
1044         return false;
1045 }
1046
1047 static int io_prep_rw(struct io_kiocb *req, const struct sqe_submit *s,
1048                       bool force_nonblock)
1049 {
1050         const struct io_uring_sqe *sqe = s->sqe;
1051         struct io_ring_ctx *ctx = req->ctx;
1052         struct kiocb *kiocb = &req->rw;
1053         unsigned ioprio;
1054         int ret;
1055
1056         if (!req->file)
1057                 return -EBADF;
1058
1059         if (force_nonblock && !io_file_supports_async(req->file))
1060                 force_nonblock = false;
1061
1062         kiocb->ki_pos = READ_ONCE(sqe->off);
1063         kiocb->ki_flags = iocb_flags(kiocb->ki_filp);
1064         kiocb->ki_hint = ki_hint_validate(file_write_hint(kiocb->ki_filp));
1065
1066         ioprio = READ_ONCE(sqe->ioprio);
1067         if (ioprio) {
1068                 ret = ioprio_check_cap(ioprio);
1069                 if (ret)
1070                         return ret;
1071
1072                 kiocb->ki_ioprio = ioprio;
1073         } else
1074                 kiocb->ki_ioprio = get_current_ioprio();
1075
1076         ret = kiocb_set_rw_flags(kiocb, READ_ONCE(sqe->rw_flags));
1077         if (unlikely(ret))
1078                 return ret;
1079
1080         /* don't allow async punt if RWF_NOWAIT was requested */
1081         if (kiocb->ki_flags & IOCB_NOWAIT)
1082                 req->flags |= REQ_F_NOWAIT;
1083
1084         if (force_nonblock)
1085                 kiocb->ki_flags |= IOCB_NOWAIT;
1086
1087         if (ctx->flags & IORING_SETUP_IOPOLL) {
1088                 if (!(kiocb->ki_flags & IOCB_DIRECT) ||
1089                     !kiocb->ki_filp->f_op->iopoll)
1090                         return -EOPNOTSUPP;
1091
1092                 kiocb->ki_flags |= IOCB_HIPRI;
1093                 kiocb->ki_complete = io_complete_rw_iopoll;
1094         } else {
1095                 if (kiocb->ki_flags & IOCB_HIPRI)
1096                         return -EINVAL;
1097                 kiocb->ki_complete = io_complete_rw;
1098         }
1099         return 0;
1100 }
1101
1102 static inline void io_rw_done(struct kiocb *kiocb, ssize_t ret)
1103 {
1104         switch (ret) {
1105         case -EIOCBQUEUED:
1106                 break;
1107         case -ERESTARTSYS:
1108         case -ERESTARTNOINTR:
1109         case -ERESTARTNOHAND:
1110         case -ERESTART_RESTARTBLOCK:
1111                 /*
1112                  * We can't just restart the syscall, since previously
1113                  * submitted sqes may already be in progress. Just fail this
1114                  * IO with EINTR.
1115                  */
1116                 ret = -EINTR;
1117                 /* fall through */
1118         default:
1119                 kiocb->ki_complete(kiocb, ret, 0);
1120         }
1121 }
1122
1123 static int io_import_fixed(struct io_ring_ctx *ctx, int rw,
1124                            const struct io_uring_sqe *sqe,
1125                            struct iov_iter *iter)
1126 {
1127         size_t len = READ_ONCE(sqe->len);
1128         struct io_mapped_ubuf *imu;
1129         unsigned index, buf_index;
1130         size_t offset;
1131         u64 buf_addr;
1132
1133         /* attempt to use fixed buffers without having provided iovecs */
1134         if (unlikely(!ctx->user_bufs))
1135                 return -EFAULT;
1136
1137         buf_index = READ_ONCE(sqe->buf_index);
1138         if (unlikely(buf_index >= ctx->nr_user_bufs))
1139                 return -EFAULT;
1140
1141         index = array_index_nospec(buf_index, ctx->nr_user_bufs);
1142         imu = &ctx->user_bufs[index];
1143         buf_addr = READ_ONCE(sqe->addr);
1144
1145         /* overflow */
1146         if (buf_addr + len < buf_addr)
1147                 return -EFAULT;
1148         /* not inside the mapped region */
1149         if (buf_addr < imu->ubuf || buf_addr + len > imu->ubuf + imu->len)
1150                 return -EFAULT;
1151
1152         /*
1153          * May not be a start of buffer, set size appropriately
1154          * and advance us to the beginning.
1155          */
1156         offset = buf_addr - imu->ubuf;
1157         iov_iter_bvec(iter, rw, imu->bvec, imu->nr_bvecs, offset + len);
1158
1159         if (offset) {
1160                 /*
1161                  * Don't use iov_iter_advance() here, as it's really slow for
1162                  * using the latter parts of a big fixed buffer - it iterates
1163                  * over each segment manually. We can cheat a bit here, because
1164                  * we know that:
1165                  *
1166                  * 1) it's a BVEC iter, we set it up
1167                  * 2) all bvecs are PAGE_SIZE in size, except potentially the
1168                  *    first and last bvec
1169                  *
1170                  * So just find our index, and adjust the iterator afterwards.
1171                  * If the offset is within the first bvec (or the whole first
1172                  * bvec, just use iov_iter_advance(). This makes it easier
1173                  * since we can just skip the first segment, which may not
1174                  * be PAGE_SIZE aligned.
1175                  */
1176                 const struct bio_vec *bvec = imu->bvec;
1177
1178                 if (offset <= bvec->bv_len) {
1179                         iov_iter_advance(iter, offset);
1180                 } else {
1181                         unsigned long seg_skip;
1182
1183                         /* skip first vec */
1184                         offset -= bvec->bv_len;
1185                         seg_skip = 1 + (offset >> PAGE_SHIFT);
1186
1187                         iter->bvec = bvec + seg_skip;
1188                         iter->nr_segs -= seg_skip;
1189                         iter->count -= bvec->bv_len + offset;
1190                         iter->iov_offset = offset & ~PAGE_MASK;
1191                 }
1192         }
1193
1194         return 0;
1195 }
1196
1197 static ssize_t io_import_iovec(struct io_ring_ctx *ctx, int rw,
1198                                const struct sqe_submit *s, struct iovec **iovec,
1199                                struct iov_iter *iter)
1200 {
1201         const struct io_uring_sqe *sqe = s->sqe;
1202         void __user *buf = u64_to_user_ptr(READ_ONCE(sqe->addr));
1203         size_t sqe_len = READ_ONCE(sqe->len);
1204         u8 opcode;
1205
1206         /*
1207          * We're reading ->opcode for the second time, but the first read
1208          * doesn't care whether it's _FIXED or not, so it doesn't matter
1209          * whether ->opcode changes concurrently. The first read does care
1210          * about whether it is a READ or a WRITE, so we don't trust this read
1211          * for that purpose and instead let the caller pass in the read/write
1212          * flag.
1213          */
1214         opcode = READ_ONCE(sqe->opcode);
1215         if (opcode == IORING_OP_READ_FIXED ||
1216             opcode == IORING_OP_WRITE_FIXED) {
1217                 ssize_t ret = io_import_fixed(ctx, rw, sqe, iter);
1218                 *iovec = NULL;
1219                 return ret;
1220         }
1221
1222         if (!s->has_user)
1223                 return -EFAULT;
1224
1225 #ifdef CONFIG_COMPAT
1226         if (ctx->compat)
1227                 return compat_import_iovec(rw, buf, sqe_len, UIO_FASTIOV,
1228                                                 iovec, iter);
1229 #endif
1230
1231         return import_iovec(rw, buf, sqe_len, UIO_FASTIOV, iovec, iter);
1232 }
1233
1234 static inline bool io_should_merge(struct async_list *al, struct kiocb *kiocb)
1235 {
1236         if (al->file == kiocb->ki_filp) {
1237                 off_t start, end;
1238
1239                 /*
1240                  * Allow merging if we're anywhere in the range of the same
1241                  * page. Generally this happens for sub-page reads or writes,
1242                  * and it's beneficial to allow the first worker to bring the
1243                  * page in and the piggy backed work can then work on the
1244                  * cached page.
1245                  */
1246                 start = al->io_start & PAGE_MASK;
1247                 end = (al->io_start + al->io_len + PAGE_SIZE - 1) & PAGE_MASK;
1248                 if (kiocb->ki_pos >= start && kiocb->ki_pos <= end)
1249                         return true;
1250         }
1251
1252         al->file = NULL;
1253         return false;
1254 }
1255
1256 /*
1257  * Make a note of the last file/offset/direction we punted to async
1258  * context. We'll use this information to see if we can piggy back a
1259  * sequential request onto the previous one, if it's still hasn't been
1260  * completed by the async worker.
1261  */
1262 static void io_async_list_note(int rw, struct io_kiocb *req, size_t len)
1263 {
1264         struct async_list *async_list = &req->ctx->pending_async[rw];
1265         struct kiocb *kiocb = &req->rw;
1266         struct file *filp = kiocb->ki_filp;
1267
1268         if (io_should_merge(async_list, kiocb)) {
1269                 unsigned long max_bytes;
1270
1271                 /* Use 8x RA size as a decent limiter for both reads/writes */
1272                 max_bytes = filp->f_ra.ra_pages << (PAGE_SHIFT + 3);
1273                 if (!max_bytes)
1274                         max_bytes = VM_READAHEAD_PAGES << (PAGE_SHIFT + 3);
1275
1276                 /* If max len are exceeded, reset the state */
1277                 if (async_list->io_len + len <= max_bytes) {
1278                         req->flags |= REQ_F_SEQ_PREV;
1279                         async_list->io_len += len;
1280                 } else {
1281                         async_list->file = NULL;
1282                 }
1283         }
1284
1285         /* New file? Reset state. */
1286         if (async_list->file != filp) {
1287                 async_list->io_start = kiocb->ki_pos;
1288                 async_list->io_len = len;
1289                 async_list->file = filp;
1290         }
1291 }
1292
1293 /*
1294  * For files that don't have ->read_iter() and ->write_iter(), handle them
1295  * by looping over ->read() or ->write() manually.
1296  */
1297 static ssize_t loop_rw_iter(int rw, struct file *file, struct kiocb *kiocb,
1298                            struct iov_iter *iter)
1299 {
1300         ssize_t ret = 0;
1301
1302         /*
1303          * Don't support polled IO through this interface, and we can't
1304          * support non-blocking either. For the latter, this just causes
1305          * the kiocb to be handled from an async context.
1306          */
1307         if (kiocb->ki_flags & IOCB_HIPRI)
1308                 return -EOPNOTSUPP;
1309         if (kiocb->ki_flags & IOCB_NOWAIT)
1310                 return -EAGAIN;
1311
1312         while (iov_iter_count(iter)) {
1313                 struct iovec iovec = iov_iter_iovec(iter);
1314                 ssize_t nr;
1315
1316                 if (rw == READ) {
1317                         nr = file->f_op->read(file, iovec.iov_base,
1318                                               iovec.iov_len, &kiocb->ki_pos);
1319                 } else {
1320                         nr = file->f_op->write(file, iovec.iov_base,
1321                                                iovec.iov_len, &kiocb->ki_pos);
1322                 }
1323
1324                 if (nr < 0) {
1325                         if (!ret)
1326                                 ret = nr;
1327                         break;
1328                 }
1329                 ret += nr;
1330                 if (nr != iovec.iov_len)
1331                         break;
1332                 iov_iter_advance(iter, nr);
1333         }
1334
1335         return ret;
1336 }
1337
1338 static int io_read(struct io_kiocb *req, const struct sqe_submit *s,
1339                    bool force_nonblock)
1340 {
1341         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
1342         struct kiocb *kiocb = &req->rw;
1343         struct iov_iter iter;
1344         struct file *file;
1345         size_t iov_count;
1346         ssize_t read_size, ret;
1347
1348         ret = io_prep_rw(req, s, force_nonblock);
1349         if (ret)
1350                 return ret;
1351         file = kiocb->ki_filp;
1352
1353         if (unlikely(!(file->f_mode & FMODE_READ)))
1354                 return -EBADF;
1355
1356         ret = io_import_iovec(req->ctx, READ, s, &iovec, &iter);
1357         if (ret < 0)
1358                 return ret;
1359
1360         read_size = ret;
1361         if (req->flags & REQ_F_LINK)
1362                 req->result = read_size;
1363
1364         iov_count = iov_iter_count(&iter);
1365         ret = rw_verify_area(READ, file, &kiocb->ki_pos, iov_count);
1366         if (!ret) {
1367                 ssize_t ret2;
1368
1369                 if (file->f_op->read_iter)
1370                         ret2 = call_read_iter(file, kiocb, &iter);
1371                 else
1372                         ret2 = loop_rw_iter(READ, file, kiocb, &iter);
1373
1374                 /*
1375                  * In case of a short read, punt to async. This can happen
1376                  * if we have data partially cached. Alternatively we can
1377                  * return the short read, in which case the application will
1378                  * need to issue another SQE and wait for it. That SQE will
1379                  * need async punt anyway, so it's more efficient to do it
1380                  * here.
1381                  */
1382                 if (force_nonblock && ret2 > 0 && ret2 < read_size)
1383                         ret2 = -EAGAIN;
1384                 /* Catch -EAGAIN return for forced non-blocking submission */
1385                 if (!force_nonblock || ret2 != -EAGAIN) {
1386                         io_rw_done(kiocb, ret2);
1387                 } else {
1388                         /*
1389                          * If ->needs_lock is true, we're already in async
1390                          * context.
1391                          */
1392                         if (!s->needs_lock)
1393                                 io_async_list_note(READ, req, iov_count);
1394                         ret = -EAGAIN;
1395                 }
1396         }
1397         kfree(iovec);
1398         return ret;
1399 }
1400
1401 static int io_write(struct io_kiocb *req, const struct sqe_submit *s,
1402                     bool force_nonblock)
1403 {
1404         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
1405         struct kiocb *kiocb = &req->rw;
1406         struct iov_iter iter;
1407         struct file *file;
1408         size_t iov_count;
1409         ssize_t ret;
1410
1411         ret = io_prep_rw(req, s, force_nonblock);
1412         if (ret)
1413                 return ret;
1414
1415         file = kiocb->ki_filp;
1416         if (unlikely(!(file->f_mode & FMODE_WRITE)))
1417                 return -EBADF;
1418
1419         ret = io_import_iovec(req->ctx, WRITE, s, &iovec, &iter);
1420         if (ret < 0)
1421                 return ret;
1422
1423         if (req->flags & REQ_F_LINK)
1424                 req->result = ret;
1425
1426         iov_count = iov_iter_count(&iter);
1427
1428         ret = -EAGAIN;
1429         if (force_nonblock && !(kiocb->ki_flags & IOCB_DIRECT)) {
1430                 /* If ->needs_lock is true, we're already in async context. */
1431                 if (!s->needs_lock)
1432                         io_async_list_note(WRITE, req, iov_count);
1433                 goto out_free;
1434         }
1435
1436         ret = rw_verify_area(WRITE, file, &kiocb->ki_pos, iov_count);
1437         if (!ret) {
1438                 ssize_t ret2;
1439
1440                 /*
1441                  * Open-code file_start_write here to grab freeze protection,
1442                  * which will be released by another thread in
1443                  * io_complete_rw().  Fool lockdep by telling it the lock got
1444                  * released so that it doesn't complain about the held lock when
1445                  * we return to userspace.
1446                  */
1447                 if (S_ISREG(file_inode(file)->i_mode)) {
1448                         __sb_start_write(file_inode(file)->i_sb,
1449                                                 SB_FREEZE_WRITE, true);
1450                         __sb_writers_release(file_inode(file)->i_sb,
1451                                                 SB_FREEZE_WRITE);
1452                 }
1453                 kiocb->ki_flags |= IOCB_WRITE;
1454
1455                 if (file->f_op->write_iter)
1456                         ret2 = call_write_iter(file, kiocb, &iter);
1457                 else
1458                         ret2 = loop_rw_iter(WRITE, file, kiocb, &iter);
1459                 if (!force_nonblock || ret2 != -EAGAIN) {
1460                         io_rw_done(kiocb, ret2);
1461                 } else {
1462                         /*
1463                          * If ->needs_lock is true, we're already in async
1464                          * context.
1465                          */
1466                         if (!s->needs_lock)
1467                                 io_async_list_note(WRITE, req, iov_count);
1468                         ret = -EAGAIN;
1469                 }
1470         }
1471 out_free:
1472         kfree(iovec);
1473         return ret;
1474 }
1475
1476 /*
1477  * IORING_OP_NOP just posts a completion event, nothing else.
1478  */
1479 static int io_nop(struct io_kiocb *req, u64 user_data)
1480 {
1481         struct io_ring_ctx *ctx = req->ctx;
1482         long err = 0;
1483
1484         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1485                 return -EINVAL;
1486
1487         io_cqring_add_event(ctx, user_data, err);
1488         io_put_req(req);
1489         return 0;
1490 }
1491
1492 static int io_prep_fsync(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1493 {
1494         struct io_ring_ctx *ctx = req->ctx;
1495
1496         if (!req->file)
1497                 return -EBADF;
1498
1499         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1500                 return -EINVAL;
1501         if (unlikely(sqe->addr || sqe->ioprio || sqe->buf_index))
1502                 return -EINVAL;
1503
1504         return 0;
1505 }
1506
1507 static int io_fsync(struct io_kiocb *req, const struct io_uring_sqe *sqe,
1508                     bool force_nonblock)
1509 {
1510         loff_t sqe_off = READ_ONCE(sqe->off);
1511         loff_t sqe_len = READ_ONCE(sqe->len);
1512         loff_t end = sqe_off + sqe_len;
1513         unsigned fsync_flags;
1514         int ret;
1515
1516         fsync_flags = READ_ONCE(sqe->fsync_flags);
1517         if (unlikely(fsync_flags & ~IORING_FSYNC_DATASYNC))
1518                 return -EINVAL;
1519
1520         ret = io_prep_fsync(req, sqe);
1521         if (ret)
1522                 return ret;
1523
1524         /* fsync always requires a blocking context */
1525         if (force_nonblock)
1526                 return -EAGAIN;
1527
1528         ret = vfs_fsync_range(req->rw.ki_filp, sqe_off,
1529                                 end > 0 ? end : LLONG_MAX,
1530                                 fsync_flags & IORING_FSYNC_DATASYNC);
1531
1532         if (ret < 0 && (req->flags & REQ_F_LINK))
1533                 req->flags |= REQ_F_FAIL_LINK;
1534         io_cqring_add_event(req->ctx, sqe->user_data, ret);
1535         io_put_req(req);
1536         return 0;
1537 }
1538
1539 static int io_prep_sfr(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1540 {
1541         struct io_ring_ctx *ctx = req->ctx;
1542         int ret = 0;
1543
1544         if (!req->file)
1545                 return -EBADF;
1546
1547         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1548                 return -EINVAL;
1549         if (unlikely(sqe->addr || sqe->ioprio || sqe->buf_index))
1550                 return -EINVAL;
1551
1552         return ret;
1553 }
1554
1555 static int io_sync_file_range(struct io_kiocb *req,
1556                               const struct io_uring_sqe *sqe,
1557                               bool force_nonblock)
1558 {
1559         loff_t sqe_off;
1560         loff_t sqe_len;
1561         unsigned flags;
1562         int ret;
1563
1564         ret = io_prep_sfr(req, sqe);
1565         if (ret)
1566                 return ret;
1567
1568         /* sync_file_range always requires a blocking context */
1569         if (force_nonblock)
1570                 return -EAGAIN;
1571
1572         sqe_off = READ_ONCE(sqe->off);
1573         sqe_len = READ_ONCE(sqe->len);
1574         flags = READ_ONCE(sqe->sync_range_flags);
1575
1576         ret = sync_file_range(req->rw.ki_filp, sqe_off, sqe_len, flags);
1577
1578         if (ret < 0 && (req->flags & REQ_F_LINK))
1579                 req->flags |= REQ_F_FAIL_LINK;
1580         io_cqring_add_event(req->ctx, sqe->user_data, ret);
1581         io_put_req(req);
1582         return 0;
1583 }
1584
1585 #if defined(CONFIG_NET)
1586 static int io_send_recvmsg(struct io_kiocb *req, const struct io_uring_sqe *sqe,
1587                            bool force_nonblock,
1588                    long (*fn)(struct socket *, struct user_msghdr __user *,
1589                                 unsigned int))
1590 {
1591         struct socket *sock;
1592         int ret;
1593
1594         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
1595                 return -EINVAL;
1596
1597         sock = sock_from_file(req->file, &ret);
1598         if (sock) {
1599                 struct user_msghdr __user *msg;
1600                 unsigned flags;
1601
1602                 flags = READ_ONCE(sqe->msg_flags);
1603                 if (flags & MSG_DONTWAIT)
1604                         req->flags |= REQ_F_NOWAIT;
1605                 else if (force_nonblock)
1606                         flags |= MSG_DONTWAIT;
1607
1608                 msg = (struct user_msghdr __user *) (unsigned long)
1609                         READ_ONCE(sqe->addr);
1610
1611                 ret = fn(sock, msg, flags);
1612                 if (force_nonblock && ret == -EAGAIN)
1613                         return ret;
1614         }
1615
1616         io_cqring_add_event(req->ctx, sqe->user_data, ret);
1617         io_put_req(req);
1618         return 0;
1619 }
1620 #endif
1621
1622 static int io_sendmsg(struct io_kiocb *req, const struct io_uring_sqe *sqe,
1623                       bool force_nonblock)
1624 {
1625 #if defined(CONFIG_NET)
1626         return io_send_recvmsg(req, sqe, force_nonblock, __sys_sendmsg_sock);
1627 #else
1628         return -EOPNOTSUPP;
1629 #endif
1630 }
1631
1632 static int io_recvmsg(struct io_kiocb *req, const struct io_uring_sqe *sqe,
1633                       bool force_nonblock)
1634 {
1635 #if defined(CONFIG_NET)
1636         return io_send_recvmsg(req, sqe, force_nonblock, __sys_recvmsg_sock);
1637 #else
1638         return -EOPNOTSUPP;
1639 #endif
1640 }
1641
1642 static void io_poll_remove_one(struct io_kiocb *req)
1643 {
1644         struct io_poll_iocb *poll = &req->poll;
1645
1646         spin_lock(&poll->head->lock);
1647         WRITE_ONCE(poll->canceled, true);
1648         if (!list_empty(&poll->wait.entry)) {
1649                 list_del_init(&poll->wait.entry);
1650                 io_queue_async_work(req->ctx, req);
1651         }
1652         spin_unlock(&poll->head->lock);
1653
1654         list_del_init(&req->list);
1655 }
1656
1657 static void io_poll_remove_all(struct io_ring_ctx *ctx)
1658 {
1659         struct io_kiocb *req;
1660
1661         spin_lock_irq(&ctx->completion_lock);
1662         while (!list_empty(&ctx->cancel_list)) {
1663                 req = list_first_entry(&ctx->cancel_list, struct io_kiocb,list);
1664                 io_poll_remove_one(req);
1665         }
1666         spin_unlock_irq(&ctx->completion_lock);
1667 }
1668
1669 /*
1670  * Find a running poll command that matches one specified in sqe->addr,
1671  * and remove it if found.
1672  */
1673 static int io_poll_remove(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1674 {
1675         struct io_ring_ctx *ctx = req->ctx;
1676         struct io_kiocb *poll_req, *next;
1677         int ret = -ENOENT;
1678
1679         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
1680                 return -EINVAL;
1681         if (sqe->ioprio || sqe->off || sqe->len || sqe->buf_index ||
1682             sqe->poll_events)
1683                 return -EINVAL;
1684
1685         spin_lock_irq(&ctx->completion_lock);
1686         list_for_each_entry_safe(poll_req, next, &ctx->cancel_list, list) {
1687                 if (READ_ONCE(sqe->addr) == poll_req->user_data) {
1688                         io_poll_remove_one(poll_req);
1689                         ret = 0;
1690                         break;
1691                 }
1692         }
1693         spin_unlock_irq(&ctx->completion_lock);
1694
1695         io_cqring_add_event(req->ctx, sqe->user_data, ret);
1696         io_put_req(req);
1697         return 0;
1698 }
1699
1700 static void io_poll_complete(struct io_ring_ctx *ctx, struct io_kiocb *req,
1701                              __poll_t mask)
1702 {
1703         req->poll.done = true;
1704         io_cqring_fill_event(ctx, req->user_data, mangle_poll(mask));
1705         io_commit_cqring(ctx);
1706 }
1707
1708 static void io_poll_complete_work(struct work_struct *work)
1709 {
1710         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
1711         struct io_poll_iocb *poll = &req->poll;
1712         struct poll_table_struct pt = { ._key = poll->events };
1713         struct io_ring_ctx *ctx = req->ctx;
1714         __poll_t mask = 0;
1715
1716         if (!READ_ONCE(poll->canceled))
1717                 mask = vfs_poll(poll->file, &pt) & poll->events;
1718
1719         /*
1720          * Note that ->ki_cancel callers also delete iocb from active_reqs after
1721          * calling ->ki_cancel.  We need the ctx_lock roundtrip here to
1722          * synchronize with them.  In the cancellation case the list_del_init
1723          * itself is not actually needed, but harmless so we keep it in to
1724          * avoid further branches in the fast path.
1725          */
1726         spin_lock_irq(&ctx->completion_lock);
1727         if (!mask && !READ_ONCE(poll->canceled)) {
1728                 add_wait_queue(poll->head, &poll->wait);
1729                 spin_unlock_irq(&ctx->completion_lock);
1730                 return;
1731         }
1732         list_del_init(&req->list);
1733         io_poll_complete(ctx, req, mask);
1734         spin_unlock_irq(&ctx->completion_lock);
1735
1736         io_cqring_ev_posted(ctx);
1737         io_put_req(req);
1738 }
1739
1740 static int io_poll_wake(struct wait_queue_entry *wait, unsigned mode, int sync,
1741                         void *key)
1742 {
1743         struct io_poll_iocb *poll = container_of(wait, struct io_poll_iocb,
1744                                                         wait);
1745         struct io_kiocb *req = container_of(poll, struct io_kiocb, poll);
1746         struct io_ring_ctx *ctx = req->ctx;
1747         __poll_t mask = key_to_poll(key);
1748         unsigned long flags;
1749
1750         /* for instances that support it check for an event match first: */
1751         if (mask && !(mask & poll->events))
1752                 return 0;
1753
1754         list_del_init(&poll->wait.entry);
1755
1756         if (mask && spin_trylock_irqsave(&ctx->completion_lock, flags)) {
1757                 list_del(&req->list);
1758                 io_poll_complete(ctx, req, mask);
1759                 spin_unlock_irqrestore(&ctx->completion_lock, flags);
1760
1761                 io_cqring_ev_posted(ctx);
1762                 io_put_req(req);
1763         } else {
1764                 io_queue_async_work(ctx, req);
1765         }
1766
1767         return 1;
1768 }
1769
1770 struct io_poll_table {
1771         struct poll_table_struct pt;
1772         struct io_kiocb *req;
1773         int error;
1774 };
1775
1776 static void io_poll_queue_proc(struct file *file, struct wait_queue_head *head,
1777                                struct poll_table_struct *p)
1778 {
1779         struct io_poll_table *pt = container_of(p, struct io_poll_table, pt);
1780
1781         if (unlikely(pt->req->poll.head)) {
1782                 pt->error = -EINVAL;
1783                 return;
1784         }
1785
1786         pt->error = 0;
1787         pt->req->poll.head = head;
1788         add_wait_queue(head, &pt->req->poll.wait);
1789 }
1790
1791 static int io_poll_add(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1792 {
1793         struct io_poll_iocb *poll = &req->poll;
1794         struct io_ring_ctx *ctx = req->ctx;
1795         struct io_poll_table ipt;
1796         bool cancel = false;
1797         __poll_t mask;
1798         u16 events;
1799
1800         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
1801                 return -EINVAL;
1802         if (sqe->addr || sqe->ioprio || sqe->off || sqe->len || sqe->buf_index)
1803                 return -EINVAL;
1804         if (!poll->file)
1805                 return -EBADF;
1806
1807         req->submit.sqe = NULL;
1808         INIT_WORK(&req->work, io_poll_complete_work);
1809         events = READ_ONCE(sqe->poll_events);
1810         poll->events = demangle_poll(events) | EPOLLERR | EPOLLHUP;
1811
1812         poll->head = NULL;
1813         poll->done = false;
1814         poll->canceled = false;
1815
1816         ipt.pt._qproc = io_poll_queue_proc;
1817         ipt.pt._key = poll->events;
1818         ipt.req = req;
1819         ipt.error = -EINVAL; /* same as no support for IOCB_CMD_POLL */
1820
1821         /* initialized the list so that we can do list_empty checks */
1822         INIT_LIST_HEAD(&poll->wait.entry);
1823         init_waitqueue_func_entry(&poll->wait, io_poll_wake);
1824
1825         INIT_LIST_HEAD(&req->list);
1826
1827         mask = vfs_poll(poll->file, &ipt.pt) & poll->events;
1828
1829         spin_lock_irq(&ctx->completion_lock);
1830         if (likely(poll->head)) {
1831                 spin_lock(&poll->head->lock);
1832                 if (unlikely(list_empty(&poll->wait.entry))) {
1833                         if (ipt.error)
1834                                 cancel = true;
1835                         ipt.error = 0;
1836                         mask = 0;
1837                 }
1838                 if (mask || ipt.error)
1839                         list_del_init(&poll->wait.entry);
1840                 else if (cancel)
1841                         WRITE_ONCE(poll->canceled, true);
1842                 else if (!poll->done) /* actually waiting for an event */
1843                         list_add_tail(&req->list, &ctx->cancel_list);
1844                 spin_unlock(&poll->head->lock);
1845         }
1846         if (mask) { /* no async, we'd stolen it */
1847                 ipt.error = 0;
1848                 io_poll_complete(ctx, req, mask);
1849         }
1850         spin_unlock_irq(&ctx->completion_lock);
1851
1852         if (mask) {
1853                 io_cqring_ev_posted(ctx);
1854                 io_put_req(req);
1855         }
1856         return ipt.error;
1857 }
1858
1859 static enum hrtimer_restart io_timeout_fn(struct hrtimer *timer)
1860 {
1861         struct io_ring_ctx *ctx;
1862         struct io_kiocb *req;
1863         unsigned long flags;
1864
1865         req = container_of(timer, struct io_kiocb, timeout.timer);
1866         ctx = req->ctx;
1867         atomic_inc(&ctx->cq_timeouts);
1868
1869         spin_lock_irqsave(&ctx->completion_lock, flags);
1870         list_del(&req->list);
1871
1872         io_cqring_fill_event(ctx, req->user_data, -ETIME);
1873         io_commit_cqring(ctx);
1874         spin_unlock_irqrestore(&ctx->completion_lock, flags);
1875
1876         io_cqring_ev_posted(ctx);
1877
1878         io_put_req(req);
1879         return HRTIMER_NORESTART;
1880 }
1881
1882 static int io_timeout(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1883 {
1884         unsigned count, req_dist, tail_index;
1885         struct io_ring_ctx *ctx = req->ctx;
1886         struct list_head *entry;
1887         struct timespec64 ts;
1888
1889         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1890                 return -EINVAL;
1891         if (sqe->flags || sqe->ioprio || sqe->buf_index || sqe->timeout_flags ||
1892             sqe->len != 1)
1893                 return -EINVAL;
1894
1895         if (get_timespec64(&ts, u64_to_user_ptr(sqe->addr)))
1896                 return -EFAULT;
1897
1898         /*
1899          * sqe->off holds how many events that need to occur for this
1900          * timeout event to be satisfied.
1901          */
1902         count = READ_ONCE(sqe->off);
1903         if (!count)
1904                 count = 1;
1905
1906         req->sequence = ctx->cached_sq_head + count - 1;
1907         req->flags |= REQ_F_TIMEOUT;
1908
1909         /*
1910          * Insertion sort, ensuring the first entry in the list is always
1911          * the one we need first.
1912          */
1913         tail_index = ctx->cached_cq_tail - ctx->rings->sq_dropped;
1914         req_dist = req->sequence - tail_index;
1915         spin_lock_irq(&ctx->completion_lock);
1916         list_for_each_prev(entry, &ctx->timeout_list) {
1917                 struct io_kiocb *nxt = list_entry(entry, struct io_kiocb, list);
1918                 unsigned dist;
1919
1920                 dist = nxt->sequence - tail_index;
1921                 if (req_dist >= dist)
1922                         break;
1923         }
1924         list_add(&req->list, entry);
1925         spin_unlock_irq(&ctx->completion_lock);
1926
1927         hrtimer_init(&req->timeout.timer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
1928         req->timeout.timer.function = io_timeout_fn;
1929         hrtimer_start(&req->timeout.timer, timespec64_to_ktime(ts),
1930                         HRTIMER_MODE_REL);
1931         return 0;
1932 }
1933
1934 static int io_req_defer(struct io_ring_ctx *ctx, struct io_kiocb *req,
1935                         const struct io_uring_sqe *sqe)
1936 {
1937         struct io_uring_sqe *sqe_copy;
1938
1939         if (!io_sequence_defer(ctx, req) && list_empty(&ctx->defer_list))
1940                 return 0;
1941
1942         sqe_copy = kmalloc(sizeof(*sqe_copy), GFP_KERNEL);
1943         if (!sqe_copy)
1944                 return -EAGAIN;
1945
1946         spin_lock_irq(&ctx->completion_lock);
1947         if (!io_sequence_defer(ctx, req) && list_empty(&ctx->defer_list)) {
1948                 spin_unlock_irq(&ctx->completion_lock);
1949                 kfree(sqe_copy);
1950                 return 0;
1951         }
1952
1953         memcpy(sqe_copy, sqe, sizeof(*sqe_copy));
1954         req->submit.sqe = sqe_copy;
1955
1956         INIT_WORK(&req->work, io_sq_wq_submit_work);
1957         list_add_tail(&req->list, &ctx->defer_list);
1958         spin_unlock_irq(&ctx->completion_lock);
1959         return -EIOCBQUEUED;
1960 }
1961
1962 static int __io_submit_sqe(struct io_ring_ctx *ctx, struct io_kiocb *req,
1963                            const struct sqe_submit *s, bool force_nonblock)
1964 {
1965         int ret, opcode;
1966
1967         req->user_data = READ_ONCE(s->sqe->user_data);
1968
1969         if (unlikely(s->index >= ctx->sq_entries))
1970                 return -EINVAL;
1971
1972         opcode = READ_ONCE(s->sqe->opcode);
1973         switch (opcode) {
1974         case IORING_OP_NOP:
1975                 ret = io_nop(req, req->user_data);
1976                 break;
1977         case IORING_OP_READV:
1978                 if (unlikely(s->sqe->buf_index))
1979                         return -EINVAL;
1980                 ret = io_read(req, s, force_nonblock);
1981                 break;
1982         case IORING_OP_WRITEV:
1983                 if (unlikely(s->sqe->buf_index))
1984                         return -EINVAL;
1985                 ret = io_write(req, s, force_nonblock);
1986                 break;
1987         case IORING_OP_READ_FIXED:
1988                 ret = io_read(req, s, force_nonblock);
1989                 break;
1990         case IORING_OP_WRITE_FIXED:
1991                 ret = io_write(req, s, force_nonblock);
1992                 break;
1993         case IORING_OP_FSYNC:
1994                 ret = io_fsync(req, s->sqe, force_nonblock);
1995                 break;
1996         case IORING_OP_POLL_ADD:
1997                 ret = io_poll_add(req, s->sqe);
1998                 break;
1999         case IORING_OP_POLL_REMOVE:
2000                 ret = io_poll_remove(req, s->sqe);
2001                 break;
2002         case IORING_OP_SYNC_FILE_RANGE:
2003                 ret = io_sync_file_range(req, s->sqe, force_nonblock);
2004                 break;
2005         case IORING_OP_SENDMSG:
2006                 ret = io_sendmsg(req, s->sqe, force_nonblock);
2007                 break;
2008         case IORING_OP_RECVMSG:
2009                 ret = io_recvmsg(req, s->sqe, force_nonblock);
2010                 break;
2011         case IORING_OP_TIMEOUT:
2012                 ret = io_timeout(req, s->sqe);
2013                 break;
2014         default:
2015                 ret = -EINVAL;
2016                 break;
2017         }
2018
2019         if (ret)
2020                 return ret;
2021
2022         if (ctx->flags & IORING_SETUP_IOPOLL) {
2023                 if (req->result == -EAGAIN)
2024                         return -EAGAIN;
2025
2026                 /* workqueue context doesn't hold uring_lock, grab it now */
2027                 if (s->needs_lock)
2028                         mutex_lock(&ctx->uring_lock);
2029                 io_iopoll_req_issued(req);
2030                 if (s->needs_lock)
2031                         mutex_unlock(&ctx->uring_lock);
2032         }
2033
2034         return 0;
2035 }
2036
2037 static struct async_list *io_async_list_from_sqe(struct io_ring_ctx *ctx,
2038                                                  const struct io_uring_sqe *sqe)
2039 {
2040         switch (sqe->opcode) {
2041         case IORING_OP_READV:
2042         case IORING_OP_READ_FIXED:
2043                 return &ctx->pending_async[READ];
2044         case IORING_OP_WRITEV:
2045         case IORING_OP_WRITE_FIXED:
2046                 return &ctx->pending_async[WRITE];
2047         default:
2048                 return NULL;
2049         }
2050 }
2051
2052 static inline bool io_sqe_needs_user(const struct io_uring_sqe *sqe)
2053 {
2054         u8 opcode = READ_ONCE(sqe->opcode);
2055
2056         return !(opcode == IORING_OP_READ_FIXED ||
2057                  opcode == IORING_OP_WRITE_FIXED);
2058 }
2059
2060 static void io_sq_wq_submit_work(struct work_struct *work)
2061 {
2062         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
2063         struct io_ring_ctx *ctx = req->ctx;
2064         struct mm_struct *cur_mm = NULL;
2065         struct async_list *async_list;
2066         LIST_HEAD(req_list);
2067         mm_segment_t old_fs;
2068         int ret;
2069
2070         async_list = io_async_list_from_sqe(ctx, req->submit.sqe);
2071 restart:
2072         do {
2073                 struct sqe_submit *s = &req->submit;
2074                 const struct io_uring_sqe *sqe = s->sqe;
2075                 unsigned int flags = req->flags;
2076
2077                 /* Ensure we clear previously set non-block flag */
2078                 req->rw.ki_flags &= ~IOCB_NOWAIT;
2079
2080                 ret = 0;
2081                 if (io_sqe_needs_user(sqe) && !cur_mm) {
2082                         if (!mmget_not_zero(ctx->sqo_mm)) {
2083                                 ret = -EFAULT;
2084                         } else {
2085                                 cur_mm = ctx->sqo_mm;
2086                                 use_mm(cur_mm);
2087                                 old_fs = get_fs();
2088                                 set_fs(USER_DS);
2089                         }
2090                 }
2091
2092                 if (!ret) {
2093                         s->has_user = cur_mm != NULL;
2094                         s->needs_lock = true;
2095                         do {
2096                                 ret = __io_submit_sqe(ctx, req, s, false);
2097                                 /*
2098                                  * We can get EAGAIN for polled IO even though
2099                                  * we're forcing a sync submission from here,
2100                                  * since we can't wait for request slots on the
2101                                  * block side.
2102                                  */
2103                                 if (ret != -EAGAIN)
2104                                         break;
2105                                 cond_resched();
2106                         } while (1);
2107                 }
2108
2109                 /* drop submission reference */
2110                 io_put_req(req);
2111
2112                 if (ret) {
2113                         io_cqring_add_event(ctx, sqe->user_data, ret);
2114                         io_put_req(req);
2115                 }
2116
2117                 /* async context always use a copy of the sqe */
2118                 kfree(sqe);
2119
2120                 /* req from defer and link list needn't decrease async cnt */
2121                 if (flags & (REQ_F_IO_DRAINED | REQ_F_LINK_DONE))
2122                         goto out;
2123
2124                 if (!async_list)
2125                         break;
2126                 if (!list_empty(&req_list)) {
2127                         req = list_first_entry(&req_list, struct io_kiocb,
2128                                                 list);
2129                         list_del(&req->list);
2130                         continue;
2131                 }
2132                 if (list_empty(&async_list->list))
2133                         break;
2134
2135                 req = NULL;
2136                 spin_lock(&async_list->lock);
2137                 if (list_empty(&async_list->list)) {
2138                         spin_unlock(&async_list->lock);
2139                         break;
2140                 }
2141                 list_splice_init(&async_list->list, &req_list);
2142                 spin_unlock(&async_list->lock);
2143
2144                 req = list_first_entry(&req_list, struct io_kiocb, list);
2145                 list_del(&req->list);
2146         } while (req);
2147
2148         /*
2149          * Rare case of racing with a submitter. If we find the count has
2150          * dropped to zero AND we have pending work items, then restart
2151          * the processing. This is a tiny race window.
2152          */
2153         if (async_list) {
2154                 ret = atomic_dec_return(&async_list->cnt);
2155                 while (!ret && !list_empty(&async_list->list)) {
2156                         spin_lock(&async_list->lock);
2157                         atomic_inc(&async_list->cnt);
2158                         list_splice_init(&async_list->list, &req_list);
2159                         spin_unlock(&async_list->lock);
2160
2161                         if (!list_empty(&req_list)) {
2162                                 req = list_first_entry(&req_list,
2163                                                         struct io_kiocb, list);
2164                                 list_del(&req->list);
2165                                 goto restart;
2166                         }
2167                         ret = atomic_dec_return(&async_list->cnt);
2168                 }
2169         }
2170
2171 out:
2172         if (cur_mm) {
2173                 set_fs(old_fs);
2174                 unuse_mm(cur_mm);
2175                 mmput(cur_mm);
2176         }
2177 }
2178
2179 /*
2180  * See if we can piggy back onto previously submitted work, that is still
2181  * running. We currently only allow this if the new request is sequential
2182  * to the previous one we punted.
2183  */
2184 static bool io_add_to_prev_work(struct async_list *list, struct io_kiocb *req)
2185 {
2186         bool ret;
2187
2188         if (!list)
2189                 return false;
2190         if (!(req->flags & REQ_F_SEQ_PREV))
2191                 return false;
2192         if (!atomic_read(&list->cnt))
2193                 return false;
2194
2195         ret = true;
2196         spin_lock(&list->lock);
2197         list_add_tail(&req->list, &list->list);
2198         /*
2199          * Ensure we see a simultaneous modification from io_sq_wq_submit_work()
2200          */
2201         smp_mb();
2202         if (!atomic_read(&list->cnt)) {
2203                 list_del_init(&req->list);
2204                 ret = false;
2205         }
2206         spin_unlock(&list->lock);
2207         return ret;
2208 }
2209
2210 static bool io_op_needs_file(const struct io_uring_sqe *sqe)
2211 {
2212         int op = READ_ONCE(sqe->opcode);
2213
2214         switch (op) {
2215         case IORING_OP_NOP:
2216         case IORING_OP_POLL_REMOVE:
2217                 return false;
2218         default:
2219                 return true;
2220         }
2221 }
2222
2223 static int io_req_set_file(struct io_ring_ctx *ctx, const struct sqe_submit *s,
2224                            struct io_submit_state *state, struct io_kiocb *req)
2225 {
2226         unsigned flags;
2227         int fd;
2228
2229         flags = READ_ONCE(s->sqe->flags);
2230         fd = READ_ONCE(s->sqe->fd);
2231
2232         if (flags & IOSQE_IO_DRAIN)
2233                 req->flags |= REQ_F_IO_DRAIN;
2234         /*
2235          * All io need record the previous position, if LINK vs DARIN,
2236          * it can be used to mark the position of the first IO in the
2237          * link list.
2238          */
2239         req->sequence = s->sequence;
2240
2241         if (!io_op_needs_file(s->sqe))
2242                 return 0;
2243
2244         if (flags & IOSQE_FIXED_FILE) {
2245                 if (unlikely(!ctx->user_files ||
2246                     (unsigned) fd >= ctx->nr_user_files))
2247                         return -EBADF;
2248                 req->file = ctx->user_files[fd];
2249                 req->flags |= REQ_F_FIXED_FILE;
2250         } else {
2251                 if (s->needs_fixed_file)
2252                         return -EBADF;
2253                 req->file = io_file_get(state, fd);
2254                 if (unlikely(!req->file))
2255                         return -EBADF;
2256         }
2257
2258         return 0;
2259 }
2260
2261 static int __io_queue_sqe(struct io_ring_ctx *ctx, struct io_kiocb *req,
2262                         struct sqe_submit *s, bool force_nonblock)
2263 {
2264         int ret;
2265
2266         ret = __io_submit_sqe(ctx, req, s, force_nonblock);
2267         if (ret == -EAGAIN && !(req->flags & REQ_F_NOWAIT)) {
2268                 struct io_uring_sqe *sqe_copy;
2269
2270                 sqe_copy = kmemdup(s->sqe, sizeof(*sqe_copy), GFP_KERNEL);
2271                 if (sqe_copy) {
2272                         struct async_list *list;
2273
2274                         s->sqe = sqe_copy;
2275                         memcpy(&req->submit, s, sizeof(*s));
2276                         list = io_async_list_from_sqe(ctx, s->sqe);
2277                         if (!io_add_to_prev_work(list, req)) {
2278                                 if (list)
2279                                         atomic_inc(&list->cnt);
2280                                 INIT_WORK(&req->work, io_sq_wq_submit_work);
2281                                 io_queue_async_work(ctx, req);
2282                         }
2283
2284                         /*
2285                          * Queued up for async execution, worker will release
2286                          * submit reference when the iocb is actually submitted.
2287                          */
2288                         return 0;
2289                 }
2290         }
2291
2292         /* drop submission reference */
2293         io_put_req(req);
2294
2295         /* and drop final reference, if we failed */
2296         if (ret) {
2297                 io_cqring_add_event(ctx, req->user_data, ret);
2298                 if (req->flags & REQ_F_LINK)
2299                         req->flags |= REQ_F_FAIL_LINK;
2300                 io_put_req(req);
2301         }
2302
2303         return ret;
2304 }
2305
2306 static int io_queue_sqe(struct io_ring_ctx *ctx, struct io_kiocb *req,
2307                         struct sqe_submit *s, bool force_nonblock)
2308 {
2309         int ret;
2310
2311         ret = io_req_defer(ctx, req, s->sqe);
2312         if (ret) {
2313                 if (ret != -EIOCBQUEUED) {
2314                         io_free_req(req);
2315                         io_cqring_add_event(ctx, s->sqe->user_data, ret);
2316                 }
2317                 return 0;
2318         }
2319
2320         return __io_queue_sqe(ctx, req, s, force_nonblock);
2321 }
2322
2323 static int io_queue_link_head(struct io_ring_ctx *ctx, struct io_kiocb *req,
2324                               struct sqe_submit *s, struct io_kiocb *shadow,
2325                               bool force_nonblock)
2326 {
2327         int ret;
2328         int need_submit = false;
2329
2330         if (!shadow)
2331                 return io_queue_sqe(ctx, req, s, force_nonblock);
2332
2333         /*
2334          * Mark the first IO in link list as DRAIN, let all the following
2335          * IOs enter the defer list. all IO needs to be completed before link
2336          * list.
2337          */
2338         req->flags |= REQ_F_IO_DRAIN;
2339         ret = io_req_defer(ctx, req, s->sqe);
2340         if (ret) {
2341                 if (ret != -EIOCBQUEUED) {
2342                         io_free_req(req);
2343                         io_cqring_add_event(ctx, s->sqe->user_data, ret);
2344                         return 0;
2345                 }
2346         } else {
2347                 /*
2348                  * If ret == 0 means that all IOs in front of link io are
2349                  * running done. let's queue link head.
2350                  */
2351                 need_submit = true;
2352         }
2353
2354         /* Insert shadow req to defer_list, blocking next IOs */
2355         spin_lock_irq(&ctx->completion_lock);
2356         list_add_tail(&shadow->list, &ctx->defer_list);
2357         spin_unlock_irq(&ctx->completion_lock);
2358
2359         if (need_submit)
2360                 return __io_queue_sqe(ctx, req, s, force_nonblock);
2361
2362         return 0;
2363 }
2364
2365 #define SQE_VALID_FLAGS (IOSQE_FIXED_FILE|IOSQE_IO_DRAIN|IOSQE_IO_LINK)
2366
2367 static void io_submit_sqe(struct io_ring_ctx *ctx, struct sqe_submit *s,
2368                           struct io_submit_state *state, struct io_kiocb **link,
2369                           bool force_nonblock)
2370 {
2371         struct io_uring_sqe *sqe_copy;
2372         struct io_kiocb *req;
2373         int ret;
2374
2375         /* enforce forwards compatibility on users */
2376         if (unlikely(s->sqe->flags & ~SQE_VALID_FLAGS)) {
2377                 ret = -EINVAL;
2378                 goto err;
2379         }
2380
2381         req = io_get_req(ctx, state);
2382         if (unlikely(!req)) {
2383                 ret = -EAGAIN;
2384                 goto err;
2385         }
2386
2387         ret = io_req_set_file(ctx, s, state, req);
2388         if (unlikely(ret)) {
2389 err_req:
2390                 io_free_req(req);
2391 err:
2392                 io_cqring_add_event(ctx, s->sqe->user_data, ret);
2393                 return;
2394         }
2395
2396         /*
2397          * If we already have a head request, queue this one for async
2398          * submittal once the head completes. If we don't have a head but
2399          * IOSQE_IO_LINK is set in the sqe, start a new head. This one will be
2400          * submitted sync once the chain is complete. If none of those
2401          * conditions are true (normal request), then just queue it.
2402          */
2403         if (*link) {
2404                 struct io_kiocb *prev = *link;
2405
2406                 sqe_copy = kmemdup(s->sqe, sizeof(*sqe_copy), GFP_KERNEL);
2407                 if (!sqe_copy) {
2408                         ret = -EAGAIN;
2409                         goto err_req;
2410                 }
2411
2412                 s->sqe = sqe_copy;
2413                 memcpy(&req->submit, s, sizeof(*s));
2414                 list_add_tail(&req->list, &prev->link_list);
2415         } else if (s->sqe->flags & IOSQE_IO_LINK) {
2416                 req->flags |= REQ_F_LINK;
2417
2418                 memcpy(&req->submit, s, sizeof(*s));
2419                 INIT_LIST_HEAD(&req->link_list);
2420                 *link = req;
2421         } else {
2422                 io_queue_sqe(ctx, req, s, force_nonblock);
2423         }
2424 }
2425
2426 /*
2427  * Batched submission is done, ensure local IO is flushed out.
2428  */
2429 static void io_submit_state_end(struct io_submit_state *state)
2430 {
2431         blk_finish_plug(&state->plug);
2432         io_file_put(state);
2433         if (state->free_reqs)
2434                 kmem_cache_free_bulk(req_cachep, state->free_reqs,
2435                                         &state->reqs[state->cur_req]);
2436 }
2437
2438 /*
2439  * Start submission side cache.
2440  */
2441 static void io_submit_state_start(struct io_submit_state *state,
2442                                   struct io_ring_ctx *ctx, unsigned max_ios)
2443 {
2444         blk_start_plug(&state->plug);
2445         state->free_reqs = 0;
2446         state->file = NULL;
2447         state->ios_left = max_ios;
2448 }
2449
2450 static void io_commit_sqring(struct io_ring_ctx *ctx)
2451 {
2452         struct io_rings *rings = ctx->rings;
2453
2454         if (ctx->cached_sq_head != READ_ONCE(rings->sq.head)) {
2455                 /*
2456                  * Ensure any loads from the SQEs are done at this point,
2457                  * since once we write the new head, the application could
2458                  * write new data to them.
2459                  */
2460                 smp_store_release(&rings->sq.head, ctx->cached_sq_head);
2461         }
2462 }
2463
2464 /*
2465  * Fetch an sqe, if one is available. Note that s->sqe will point to memory
2466  * that is mapped by userspace. This means that care needs to be taken to
2467  * ensure that reads are stable, as we cannot rely on userspace always
2468  * being a good citizen. If members of the sqe are validated and then later
2469  * used, it's important that those reads are done through READ_ONCE() to
2470  * prevent a re-load down the line.
2471  */
2472 static bool io_get_sqring(struct io_ring_ctx *ctx, struct sqe_submit *s)
2473 {
2474         struct io_rings *rings = ctx->rings;
2475         u32 *sq_array = ctx->sq_array;
2476         unsigned head;
2477
2478         /*
2479          * The cached sq head (or cq tail) serves two purposes:
2480          *
2481          * 1) allows us to batch the cost of updating the user visible
2482          *    head updates.
2483          * 2) allows the kernel side to track the head on its own, even
2484          *    though the application is the one updating it.
2485          */
2486         head = ctx->cached_sq_head;
2487         /* make sure SQ entry isn't read before tail */
2488         if (head == smp_load_acquire(&rings->sq.tail))
2489                 return false;
2490
2491         head = READ_ONCE(sq_array[head & ctx->sq_mask]);
2492         if (head < ctx->sq_entries) {
2493                 s->index = head;
2494                 s->sqe = &ctx->sq_sqes[head];
2495                 s->sequence = ctx->cached_sq_head;
2496                 ctx->cached_sq_head++;
2497                 return true;
2498         }
2499
2500         /* drop invalid entries */
2501         ctx->cached_sq_head++;
2502         rings->sq_dropped++;
2503         return false;
2504 }
2505
2506 static int io_submit_sqes(struct io_ring_ctx *ctx, struct sqe_submit *sqes,
2507                           unsigned int nr, bool has_user, bool mm_fault)
2508 {
2509         struct io_submit_state state, *statep = NULL;
2510         struct io_kiocb *link = NULL;
2511         struct io_kiocb *shadow_req = NULL;
2512         bool prev_was_link = false;
2513         int i, submitted = 0;
2514
2515         if (nr > IO_PLUG_THRESHOLD) {
2516                 io_submit_state_start(&state, ctx, nr);
2517                 statep = &state;
2518         }
2519
2520         for (i = 0; i < nr; i++) {
2521                 /*
2522                  * If previous wasn't linked and we have a linked command,
2523                  * that's the end of the chain. Submit the previous link.
2524                  */
2525                 if (!prev_was_link && link) {
2526                         io_queue_link_head(ctx, link, &link->submit, shadow_req,
2527                                                 true);
2528                         link = NULL;
2529                         shadow_req = NULL;
2530                 }
2531                 prev_was_link = (sqes[i].sqe->flags & IOSQE_IO_LINK) != 0;
2532
2533                 if (link && (sqes[i].sqe->flags & IOSQE_IO_DRAIN)) {
2534                         if (!shadow_req) {
2535                                 shadow_req = io_get_req(ctx, NULL);
2536                                 if (unlikely(!shadow_req))
2537                                         goto out;
2538                                 shadow_req->flags |= (REQ_F_IO_DRAIN | REQ_F_SHADOW_DRAIN);
2539                                 refcount_dec(&shadow_req->refs);
2540                         }
2541                         shadow_req->sequence = sqes[i].sequence;
2542                 }
2543
2544 out:
2545                 if (unlikely(mm_fault)) {
2546                         io_cqring_add_event(ctx, sqes[i].sqe->user_data,
2547                                                 -EFAULT);
2548                 } else {
2549                         sqes[i].has_user = has_user;
2550                         sqes[i].needs_lock = true;
2551                         sqes[i].needs_fixed_file = true;
2552                         io_submit_sqe(ctx, &sqes[i], statep, &link, true);
2553                         submitted++;
2554                 }
2555         }
2556
2557         if (link)
2558                 io_queue_link_head(ctx, link, &link->submit, shadow_req, true);
2559         if (statep)
2560                 io_submit_state_end(&state);
2561
2562         return submitted;
2563 }
2564
2565 static int io_sq_thread(void *data)
2566 {
2567         struct sqe_submit sqes[IO_IOPOLL_BATCH];
2568         struct io_ring_ctx *ctx = data;
2569         struct mm_struct *cur_mm = NULL;
2570         mm_segment_t old_fs;
2571         DEFINE_WAIT(wait);
2572         unsigned inflight;
2573         unsigned long timeout;
2574
2575         complete(&ctx->sqo_thread_started);
2576
2577         old_fs = get_fs();
2578         set_fs(USER_DS);
2579
2580         timeout = inflight = 0;
2581         while (!kthread_should_park()) {
2582                 bool all_fixed, mm_fault = false;
2583                 int i;
2584
2585                 if (inflight) {
2586                         unsigned nr_events = 0;
2587
2588                         if (ctx->flags & IORING_SETUP_IOPOLL) {
2589                                 io_iopoll_check(ctx, &nr_events, 0);
2590                         } else {
2591                                 /*
2592                                  * Normal IO, just pretend everything completed.
2593                                  * We don't have to poll completions for that.
2594                                  */
2595                                 nr_events = inflight;
2596                         }
2597
2598                         inflight -= nr_events;
2599                         if (!inflight)
2600                                 timeout = jiffies + ctx->sq_thread_idle;
2601                 }
2602
2603                 if (!io_get_sqring(ctx, &sqes[0])) {
2604                         /*
2605                          * We're polling. If we're within the defined idle
2606                          * period, then let us spin without work before going
2607                          * to sleep.
2608                          */
2609                         if (inflight || !time_after(jiffies, timeout)) {
2610                                 cond_resched();
2611                                 continue;
2612                         }
2613
2614                         /*
2615                          * Drop cur_mm before scheduling, we can't hold it for
2616                          * long periods (or over schedule()). Do this before
2617                          * adding ourselves to the waitqueue, as the unuse/drop
2618                          * may sleep.
2619                          */
2620                         if (cur_mm) {
2621                                 unuse_mm(cur_mm);
2622                                 mmput(cur_mm);
2623                                 cur_mm = NULL;
2624                         }
2625
2626                         prepare_to_wait(&ctx->sqo_wait, &wait,
2627                                                 TASK_INTERRUPTIBLE);
2628
2629                         /* Tell userspace we may need a wakeup call */
2630                         ctx->rings->sq_flags |= IORING_SQ_NEED_WAKEUP;
2631                         /* make sure to read SQ tail after writing flags */
2632                         smp_mb();
2633
2634                         if (!io_get_sqring(ctx, &sqes[0])) {
2635                                 if (kthread_should_park()) {
2636                                         finish_wait(&ctx->sqo_wait, &wait);
2637                                         break;
2638                                 }
2639                                 if (signal_pending(current))
2640                                         flush_signals(current);
2641                                 schedule();
2642                                 finish_wait(&ctx->sqo_wait, &wait);
2643
2644                                 ctx->rings->sq_flags &= ~IORING_SQ_NEED_WAKEUP;
2645                                 continue;
2646                         }
2647                         finish_wait(&ctx->sqo_wait, &wait);
2648
2649                         ctx->rings->sq_flags &= ~IORING_SQ_NEED_WAKEUP;
2650                 }
2651
2652                 i = 0;
2653                 all_fixed = true;
2654                 do {
2655                         if (all_fixed && io_sqe_needs_user(sqes[i].sqe))
2656                                 all_fixed = false;
2657
2658                         i++;
2659                         if (i == ARRAY_SIZE(sqes))
2660                                 break;
2661                 } while (io_get_sqring(ctx, &sqes[i]));
2662
2663                 /* Unless all new commands are FIXED regions, grab mm */
2664                 if (!all_fixed && !cur_mm) {
2665                         mm_fault = !mmget_not_zero(ctx->sqo_mm);
2666                         if (!mm_fault) {
2667                                 use_mm(ctx->sqo_mm);
2668                                 cur_mm = ctx->sqo_mm;
2669                         }
2670                 }
2671
2672                 inflight += io_submit_sqes(ctx, sqes, i, cur_mm != NULL,
2673                                                 mm_fault);
2674
2675                 /* Commit SQ ring head once we've consumed all SQEs */
2676                 io_commit_sqring(ctx);
2677         }
2678
2679         set_fs(old_fs);
2680         if (cur_mm) {
2681                 unuse_mm(cur_mm);
2682                 mmput(cur_mm);
2683         }
2684
2685         kthread_parkme();
2686
2687         return 0;
2688 }
2689
2690 static int io_ring_submit(struct io_ring_ctx *ctx, unsigned int to_submit,
2691                           bool block_for_last)
2692 {
2693         struct io_submit_state state, *statep = NULL;
2694         struct io_kiocb *link = NULL;
2695         struct io_kiocb *shadow_req = NULL;
2696         bool prev_was_link = false;
2697         int i, submit = 0;
2698
2699         if (to_submit > IO_PLUG_THRESHOLD) {
2700                 io_submit_state_start(&state, ctx, to_submit);
2701                 statep = &state;
2702         }
2703
2704         for (i = 0; i < to_submit; i++) {
2705                 bool force_nonblock = true;
2706                 struct sqe_submit s;
2707
2708                 if (!io_get_sqring(ctx, &s))
2709                         break;
2710
2711                 /*
2712                  * If previous wasn't linked and we have a linked command,
2713                  * that's the end of the chain. Submit the previous link.
2714                  */
2715                 if (!prev_was_link && link) {
2716                         io_queue_link_head(ctx, link, &link->submit, shadow_req,
2717                                                 force_nonblock);
2718                         link = NULL;
2719                         shadow_req = NULL;
2720                 }
2721                 prev_was_link = (s.sqe->flags & IOSQE_IO_LINK) != 0;
2722
2723                 if (link && (s.sqe->flags & IOSQE_IO_DRAIN)) {
2724                         if (!shadow_req) {
2725                                 shadow_req = io_get_req(ctx, NULL);
2726                                 if (unlikely(!shadow_req))
2727                                         goto out;
2728                                 shadow_req->flags |= (REQ_F_IO_DRAIN | REQ_F_SHADOW_DRAIN);
2729                                 refcount_dec(&shadow_req->refs);
2730                         }
2731                         shadow_req->sequence = s.sequence;
2732                 }
2733
2734 out:
2735                 s.has_user = true;
2736                 s.needs_lock = false;
2737                 s.needs_fixed_file = false;
2738                 submit++;
2739
2740                 /*
2741                  * The caller will block for events after submit, submit the
2742                  * last IO non-blocking. This is either the only IO it's
2743                  * submitting, or it already submitted the previous ones. This
2744                  * improves performance by avoiding an async punt that we don't
2745                  * need to do.
2746                  */
2747                 if (block_for_last && submit == to_submit)
2748                         force_nonblock = false;
2749
2750                 io_submit_sqe(ctx, &s, statep, &link, force_nonblock);
2751         }
2752         io_commit_sqring(ctx);
2753
2754         if (link)
2755                 io_queue_link_head(ctx, link, &link->submit, shadow_req,
2756                                         !block_for_last);
2757         if (statep)
2758                 io_submit_state_end(statep);
2759
2760         return submit;
2761 }
2762
2763 struct io_wait_queue {
2764         struct wait_queue_entry wq;
2765         struct io_ring_ctx *ctx;
2766         unsigned to_wait;
2767         unsigned nr_timeouts;
2768 };
2769
2770 static inline bool io_should_wake(struct io_wait_queue *iowq)
2771 {
2772         struct io_ring_ctx *ctx = iowq->ctx;
2773
2774         /*
2775          * Wake up if we have enough events, or if a timeout occured since we
2776          * started waiting. For timeouts, we always want to return to userspace,
2777          * regardless of event count.
2778          */
2779         return io_cqring_events(ctx->rings) >= iowq->to_wait ||
2780                         atomic_read(&ctx->cq_timeouts) != iowq->nr_timeouts;
2781 }
2782
2783 static int io_wake_function(struct wait_queue_entry *curr, unsigned int mode,
2784                             int wake_flags, void *key)
2785 {
2786         struct io_wait_queue *iowq = container_of(curr, struct io_wait_queue,
2787                                                         wq);
2788
2789         if (!io_should_wake(iowq))
2790                 return -1;
2791
2792         return autoremove_wake_function(curr, mode, wake_flags, key);
2793 }
2794
2795 /*
2796  * Wait until events become available, if we don't already have some. The
2797  * application must reap them itself, as they reside on the shared cq ring.
2798  */
2799 static int io_cqring_wait(struct io_ring_ctx *ctx, int min_events,
2800                           const sigset_t __user *sig, size_t sigsz)
2801 {
2802         struct io_wait_queue iowq = {
2803                 .wq = {
2804                         .private        = current,
2805                         .func           = io_wake_function,
2806                         .entry          = LIST_HEAD_INIT(iowq.wq.entry),
2807                 },
2808                 .ctx            = ctx,
2809                 .to_wait        = min_events,
2810         };
2811         struct io_rings *rings = ctx->rings;
2812         int ret;
2813
2814         if (io_cqring_events(rings) >= min_events)
2815                 return 0;
2816
2817         if (sig) {
2818 #ifdef CONFIG_COMPAT
2819                 if (in_compat_syscall())
2820                         ret = set_compat_user_sigmask((const compat_sigset_t __user *)sig,
2821                                                       sigsz);
2822                 else
2823 #endif
2824                         ret = set_user_sigmask(sig, sigsz);
2825
2826                 if (ret)
2827                         return ret;
2828         }
2829
2830         ret = 0;
2831         iowq.nr_timeouts = atomic_read(&ctx->cq_timeouts);
2832         do {
2833                 prepare_to_wait_exclusive(&ctx->wait, &iowq.wq,
2834                                                 TASK_INTERRUPTIBLE);
2835                 if (io_should_wake(&iowq))
2836                         break;
2837                 schedule();
2838                 if (signal_pending(current)) {
2839                         ret = -ERESTARTSYS;
2840                         break;
2841                 }
2842         } while (1);
2843         finish_wait(&ctx->wait, &iowq.wq);
2844
2845         restore_saved_sigmask_unless(ret == -ERESTARTSYS);
2846         if (ret == -ERESTARTSYS)
2847                 ret = -EINTR;
2848
2849         return READ_ONCE(rings->cq.head) == READ_ONCE(rings->cq.tail) ? ret : 0;
2850 }
2851
2852 static void __io_sqe_files_unregister(struct io_ring_ctx *ctx)
2853 {
2854 #if defined(CONFIG_UNIX)
2855         if (ctx->ring_sock) {
2856                 struct sock *sock = ctx->ring_sock->sk;
2857                 struct sk_buff *skb;
2858
2859                 while ((skb = skb_dequeue(&sock->sk_receive_queue)) != NULL)
2860                         kfree_skb(skb);
2861         }
2862 #else
2863         int i;
2864
2865         for (i = 0; i < ctx->nr_user_files; i++)
2866                 fput(ctx->user_files[i]);
2867 #endif
2868 }
2869
2870 static int io_sqe_files_unregister(struct io_ring_ctx *ctx)
2871 {
2872         if (!ctx->user_files)
2873                 return -ENXIO;
2874
2875         __io_sqe_files_unregister(ctx);
2876         kfree(ctx->user_files);
2877         ctx->user_files = NULL;
2878         ctx->nr_user_files = 0;
2879         return 0;
2880 }
2881
2882 static void io_sq_thread_stop(struct io_ring_ctx *ctx)
2883 {
2884         if (ctx->sqo_thread) {
2885                 wait_for_completion(&ctx->sqo_thread_started);
2886                 /*
2887                  * The park is a bit of a work-around, without it we get
2888                  * warning spews on shutdown with SQPOLL set and affinity
2889                  * set to a single CPU.
2890                  */
2891                 kthread_park(ctx->sqo_thread);
2892                 kthread_stop(ctx->sqo_thread);
2893                 ctx->sqo_thread = NULL;
2894         }
2895 }
2896
2897 static void io_finish_async(struct io_ring_ctx *ctx)
2898 {
2899         int i;
2900
2901         io_sq_thread_stop(ctx);
2902
2903         for (i = 0; i < ARRAY_SIZE(ctx->sqo_wq); i++) {
2904                 if (ctx->sqo_wq[i]) {
2905                         destroy_workqueue(ctx->sqo_wq[i]);
2906                         ctx->sqo_wq[i] = NULL;
2907                 }
2908         }
2909 }
2910
2911 #if defined(CONFIG_UNIX)
2912 static void io_destruct_skb(struct sk_buff *skb)
2913 {
2914         struct io_ring_ctx *ctx = skb->sk->sk_user_data;
2915         int i;
2916
2917         for (i = 0; i < ARRAY_SIZE(ctx->sqo_wq); i++)
2918                 if (ctx->sqo_wq[i])
2919                         flush_workqueue(ctx->sqo_wq[i]);
2920
2921         unix_destruct_scm(skb);
2922 }
2923
2924 /*
2925  * Ensure the UNIX gc is aware of our file set, so we are certain that
2926  * the io_uring can be safely unregistered on process exit, even if we have
2927  * loops in the file referencing.
2928  */
2929 static int __io_sqe_files_scm(struct io_ring_ctx *ctx, int nr, int offset)
2930 {
2931         struct sock *sk = ctx->ring_sock->sk;
2932         struct scm_fp_list *fpl;
2933         struct sk_buff *skb;
2934         int i;
2935
2936         if (!capable(CAP_SYS_RESOURCE) && !capable(CAP_SYS_ADMIN)) {
2937                 unsigned long inflight = ctx->user->unix_inflight + nr;
2938
2939                 if (inflight > task_rlimit(current, RLIMIT_NOFILE))
2940                         return -EMFILE;
2941         }
2942
2943         fpl = kzalloc(sizeof(*fpl), GFP_KERNEL);
2944         if (!fpl)
2945                 return -ENOMEM;
2946
2947         skb = alloc_skb(0, GFP_KERNEL);
2948         if (!skb) {
2949                 kfree(fpl);
2950                 return -ENOMEM;
2951         }
2952
2953         skb->sk = sk;
2954         skb->destructor = io_destruct_skb;
2955
2956         fpl->user = get_uid(ctx->user);
2957         for (i = 0; i < nr; i++) {
2958                 fpl->fp[i] = get_file(ctx->user_files[i + offset]);
2959                 unix_inflight(fpl->user, fpl->fp[i]);
2960         }
2961
2962         fpl->max = fpl->count = nr;
2963         UNIXCB(skb).fp = fpl;
2964         refcount_add(skb->truesize, &sk->sk_wmem_alloc);
2965         skb_queue_head(&sk->sk_receive_queue, skb);
2966
2967         for (i = 0; i < nr; i++)
2968                 fput(fpl->fp[i]);
2969
2970         return 0;
2971 }
2972
2973 /*
2974  * If UNIX sockets are enabled, fd passing can cause a reference cycle which
2975  * causes regular reference counting to break down. We rely on the UNIX
2976  * garbage collection to take care of this problem for us.
2977  */
2978 static int io_sqe_files_scm(struct io_ring_ctx *ctx)
2979 {
2980         unsigned left, total;
2981         int ret = 0;
2982
2983         total = 0;
2984         left = ctx->nr_user_files;
2985         while (left) {
2986                 unsigned this_files = min_t(unsigned, left, SCM_MAX_FD);
2987
2988                 ret = __io_sqe_files_scm(ctx, this_files, total);
2989                 if (ret)
2990                         break;
2991                 left -= this_files;
2992                 total += this_files;
2993         }
2994
2995         if (!ret)
2996                 return 0;
2997
2998         while (total < ctx->nr_user_files) {
2999                 fput(ctx->user_files[total]);
3000                 total++;
3001         }
3002
3003         return ret;
3004 }
3005 #else
3006 static int io_sqe_files_scm(struct io_ring_ctx *ctx)
3007 {
3008         return 0;
3009 }
3010 #endif
3011
3012 static int io_sqe_files_register(struct io_ring_ctx *ctx, void __user *arg,
3013                                  unsigned nr_args)
3014 {
3015         __s32 __user *fds = (__s32 __user *) arg;
3016         int fd, ret = 0;
3017         unsigned i;
3018
3019         if (ctx->user_files)
3020                 return -EBUSY;
3021         if (!nr_args)
3022                 return -EINVAL;
3023         if (nr_args > IORING_MAX_FIXED_FILES)
3024                 return -EMFILE;
3025
3026         ctx->user_files = kcalloc(nr_args, sizeof(struct file *), GFP_KERNEL);
3027         if (!ctx->user_files)
3028                 return -ENOMEM;
3029
3030         for (i = 0; i < nr_args; i++) {
3031                 ret = -EFAULT;
3032                 if (copy_from_user(&fd, &fds[i], sizeof(fd)))
3033                         break;
3034
3035                 ctx->user_files[i] = fget(fd);
3036
3037                 ret = -EBADF;
3038                 if (!ctx->user_files[i])
3039                         break;
3040                 /*
3041                  * Don't allow io_uring instances to be registered. If UNIX
3042                  * isn't enabled, then this causes a reference cycle and this
3043                  * instance can never get freed. If UNIX is enabled we'll
3044                  * handle it just fine, but there's still no point in allowing
3045                  * a ring fd as it doesn't support regular read/write anyway.
3046                  */
3047                 if (ctx->user_files[i]->f_op == &io_uring_fops) {
3048                         fput(ctx->user_files[i]);
3049                         break;
3050                 }
3051                 ctx->nr_user_files++;
3052                 ret = 0;
3053         }
3054
3055         if (ret) {
3056                 for (i = 0; i < ctx->nr_user_files; i++)
3057                         fput(ctx->user_files[i]);
3058
3059                 kfree(ctx->user_files);
3060                 ctx->user_files = NULL;
3061                 ctx->nr_user_files = 0;
3062                 return ret;
3063         }
3064
3065         ret = io_sqe_files_scm(ctx);
3066         if (ret)
3067                 io_sqe_files_unregister(ctx);
3068
3069         return ret;
3070 }
3071
3072 static int io_sq_offload_start(struct io_ring_ctx *ctx,
3073                                struct io_uring_params *p)
3074 {
3075         int ret;
3076
3077         init_waitqueue_head(&ctx->sqo_wait);
3078         mmgrab(current->mm);
3079         ctx->sqo_mm = current->mm;
3080
3081         if (ctx->flags & IORING_SETUP_SQPOLL) {
3082                 ret = -EPERM;
3083                 if (!capable(CAP_SYS_ADMIN))
3084                         goto err;
3085
3086                 ctx->sq_thread_idle = msecs_to_jiffies(p->sq_thread_idle);
3087                 if (!ctx->sq_thread_idle)
3088                         ctx->sq_thread_idle = HZ;
3089
3090                 if (p->flags & IORING_SETUP_SQ_AFF) {
3091                         int cpu = p->sq_thread_cpu;
3092
3093                         ret = -EINVAL;
3094                         if (cpu >= nr_cpu_ids)
3095                                 goto err;
3096                         if (!cpu_online(cpu))
3097                                 goto err;
3098
3099                         ctx->sqo_thread = kthread_create_on_cpu(io_sq_thread,
3100                                                         ctx, cpu,
3101                                                         "io_uring-sq");
3102                 } else {
3103                         ctx->sqo_thread = kthread_create(io_sq_thread, ctx,
3104                                                         "io_uring-sq");
3105                 }
3106                 if (IS_ERR(ctx->sqo_thread)) {
3107                         ret = PTR_ERR(ctx->sqo_thread);
3108                         ctx->sqo_thread = NULL;
3109                         goto err;
3110                 }
3111                 wake_up_process(ctx->sqo_thread);
3112         } else if (p->flags & IORING_SETUP_SQ_AFF) {
3113                 /* Can't have SQ_AFF without SQPOLL */
3114                 ret = -EINVAL;
3115                 goto err;
3116         }
3117
3118         /* Do QD, or 2 * CPUS, whatever is smallest */
3119         ctx->sqo_wq[0] = alloc_workqueue("io_ring-wq",
3120                         WQ_UNBOUND | WQ_FREEZABLE,
3121                         min(ctx->sq_entries - 1, 2 * num_online_cpus()));
3122         if (!ctx->sqo_wq[0]) {
3123                 ret = -ENOMEM;
3124                 goto err;
3125         }
3126
3127         /*
3128          * This is for buffered writes, where we want to limit the parallelism
3129          * due to file locking in file systems. As "normal" buffered writes
3130          * should parellelize on writeout quite nicely, limit us to having 2
3131          * pending. This avoids massive contention on the inode when doing
3132          * buffered async writes.
3133          */
3134         ctx->sqo_wq[1] = alloc_workqueue("io_ring-write-wq",
3135                                                 WQ_UNBOUND | WQ_FREEZABLE, 2);
3136         if (!ctx->sqo_wq[1]) {
3137                 ret = -ENOMEM;
3138                 goto err;
3139         }
3140
3141         return 0;
3142 err:
3143         io_finish_async(ctx);
3144         mmdrop(ctx->sqo_mm);
3145         ctx->sqo_mm = NULL;
3146         return ret;
3147 }
3148
3149 static void io_unaccount_mem(struct user_struct *user, unsigned long nr_pages)
3150 {
3151         atomic_long_sub(nr_pages, &user->locked_vm);
3152 }
3153
3154 static int io_account_mem(struct user_struct *user, unsigned long nr_pages)
3155 {
3156         unsigned long page_limit, cur_pages, new_pages;
3157
3158         /* Don't allow more pages than we can safely lock */
3159         page_limit = rlimit(RLIMIT_MEMLOCK) >> PAGE_SHIFT;
3160
3161         do {
3162                 cur_pages = atomic_long_read(&user->locked_vm);
3163                 new_pages = cur_pages + nr_pages;
3164                 if (new_pages > page_limit)
3165                         return -ENOMEM;
3166         } while (atomic_long_cmpxchg(&user->locked_vm, cur_pages,
3167                                         new_pages) != cur_pages);
3168
3169         return 0;
3170 }
3171
3172 static void io_mem_free(void *ptr)
3173 {
3174         struct page *page;
3175
3176         if (!ptr)
3177                 return;
3178
3179         page = virt_to_head_page(ptr);
3180         if (put_page_testzero(page))
3181                 free_compound_page(page);
3182 }
3183
3184 static void *io_mem_alloc(size_t size)
3185 {
3186         gfp_t gfp_flags = GFP_KERNEL | __GFP_ZERO | __GFP_NOWARN | __GFP_COMP |
3187                                 __GFP_NORETRY;
3188
3189         return (void *) __get_free_pages(gfp_flags, get_order(size));
3190 }
3191
3192 static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,
3193                                 size_t *sq_offset)
3194 {
3195         struct io_rings *rings;
3196         size_t off, sq_array_size;
3197
3198         off = struct_size(rings, cqes, cq_entries);
3199         if (off == SIZE_MAX)
3200                 return SIZE_MAX;
3201
3202 #ifdef CONFIG_SMP
3203         off = ALIGN(off, SMP_CACHE_BYTES);
3204         if (off == 0)
3205                 return SIZE_MAX;
3206 #endif
3207
3208         sq_array_size = array_size(sizeof(u32), sq_entries);
3209         if (sq_array_size == SIZE_MAX)
3210                 return SIZE_MAX;
3211
3212         if (check_add_overflow(off, sq_array_size, &off))
3213                 return SIZE_MAX;
3214
3215         if (sq_offset)
3216                 *sq_offset = off;
3217
3218         return off;
3219 }
3220
3221 static unsigned long ring_pages(unsigned sq_entries, unsigned cq_entries)
3222 {
3223         size_t pages;
3224
3225         pages = (size_t)1 << get_order(
3226                 rings_size(sq_entries, cq_entries, NULL));
3227         pages += (size_t)1 << get_order(
3228                 array_size(sizeof(struct io_uring_sqe), sq_entries));
3229
3230         return pages;
3231 }
3232
3233 static int io_sqe_buffer_unregister(struct io_ring_ctx *ctx)
3234 {
3235         int i, j;
3236
3237         if (!ctx->user_bufs)
3238                 return -ENXIO;
3239
3240         for (i = 0; i < ctx->nr_user_bufs; i++) {
3241                 struct io_mapped_ubuf *imu = &ctx->user_bufs[i];
3242
3243                 for (j = 0; j < imu->nr_bvecs; j++)
3244                         put_user_page(imu->bvec[j].bv_page);
3245
3246                 if (ctx->account_mem)
3247                         io_unaccount_mem(ctx->user, imu->nr_bvecs);
3248                 kvfree(imu->bvec);
3249                 imu->nr_bvecs = 0;
3250         }
3251
3252         kfree(ctx->user_bufs);
3253         ctx->user_bufs = NULL;
3254         ctx->nr_user_bufs = 0;
3255         return 0;
3256 }
3257
3258 static int io_copy_iov(struct io_ring_ctx *ctx, struct iovec *dst,
3259                        void __user *arg, unsigned index)
3260 {
3261         struct iovec __user *src;
3262
3263 #ifdef CONFIG_COMPAT
3264         if (ctx->compat) {
3265                 struct compat_iovec __user *ciovs;
3266                 struct compat_iovec ciov;
3267
3268                 ciovs = (struct compat_iovec __user *) arg;
3269                 if (copy_from_user(&ciov, &ciovs[index], sizeof(ciov)))
3270                         return -EFAULT;
3271
3272                 dst->iov_base = (void __user *) (unsigned long) ciov.iov_base;
3273                 dst->iov_len = ciov.iov_len;
3274                 return 0;
3275         }
3276 #endif
3277         src = (struct iovec __user *) arg;
3278         if (copy_from_user(dst, &src[index], sizeof(*dst)))
3279                 return -EFAULT;
3280         return 0;
3281 }
3282
3283 static int io_sqe_buffer_register(struct io_ring_ctx *ctx, void __user *arg,
3284                                   unsigned nr_args)
3285 {
3286         struct vm_area_struct **vmas = NULL;
3287         struct page **pages = NULL;
3288         int i, j, got_pages = 0;
3289         int ret = -EINVAL;
3290
3291         if (ctx->user_bufs)
3292                 return -EBUSY;
3293         if (!nr_args || nr_args > UIO_MAXIOV)
3294                 return -EINVAL;
3295
3296         ctx->user_bufs = kcalloc(nr_args, sizeof(struct io_mapped_ubuf),
3297                                         GFP_KERNEL);
3298         if (!ctx->user_bufs)
3299                 return -ENOMEM;
3300
3301         for (i = 0; i < nr_args; i++) {
3302                 struct io_mapped_ubuf *imu = &ctx->user_bufs[i];
3303                 unsigned long off, start, end, ubuf;
3304                 int pret, nr_pages;
3305                 struct iovec iov;
3306                 size_t size;
3307
3308                 ret = io_copy_iov(ctx, &iov, arg, i);
3309                 if (ret)
3310                         goto err;
3311
3312                 /*
3313                  * Don't impose further limits on the size and buffer
3314                  * constraints here, we'll -EINVAL later when IO is
3315                  * submitted if they are wrong.
3316                  */
3317                 ret = -EFAULT;
3318                 if (!iov.iov_base || !iov.iov_len)
3319                         goto err;
3320
3321                 /* arbitrary limit, but we need something */
3322                 if (iov.iov_len > SZ_1G)
3323                         goto err;
3324
3325                 ubuf = (unsigned long) iov.iov_base;
3326                 end = (ubuf + iov.iov_len + PAGE_SIZE - 1) >> PAGE_SHIFT;
3327                 start = ubuf >> PAGE_SHIFT;
3328                 nr_pages = end - start;
3329
3330                 if (ctx->account_mem) {
3331                         ret = io_account_mem(ctx->user, nr_pages);
3332                         if (ret)
3333                                 goto err;
3334                 }
3335
3336                 ret = 0;
3337                 if (!pages || nr_pages > got_pages) {
3338                         kfree(vmas);
3339                         kfree(pages);
3340                         pages = kvmalloc_array(nr_pages, sizeof(struct page *),
3341                                                 GFP_KERNEL);
3342                         vmas = kvmalloc_array(nr_pages,
3343                                         sizeof(struct vm_area_struct *),
3344                                         GFP_KERNEL);
3345                         if (!pages || !vmas) {
3346                                 ret = -ENOMEM;
3347                                 if (ctx->account_mem)
3348                                         io_unaccount_mem(ctx->user, nr_pages);
3349                                 goto err;
3350                         }
3351                         got_pages = nr_pages;
3352                 }
3353
3354                 imu->bvec = kvmalloc_array(nr_pages, sizeof(struct bio_vec),
3355                                                 GFP_KERNEL);
3356                 ret = -ENOMEM;
3357                 if (!imu->bvec) {
3358                         if (ctx->account_mem)
3359                                 io_unaccount_mem(ctx->user, nr_pages);
3360                         goto err;
3361                 }
3362
3363                 ret = 0;
3364                 down_read(&current->mm->mmap_sem);
3365                 pret = get_user_pages(ubuf, nr_pages,
3366                                       FOLL_WRITE | FOLL_LONGTERM,
3367                                       pages, vmas);
3368                 if (pret == nr_pages) {
3369                         /* don't support file backed memory */
3370                         for (j = 0; j < nr_pages; j++) {
3371                                 struct vm_area_struct *vma = vmas[j];
3372
3373                                 if (vma->vm_file &&
3374                                     !is_file_hugepages(vma->vm_file)) {
3375                                         ret = -EOPNOTSUPP;
3376                                         break;
3377                                 }
3378                         }
3379                 } else {
3380                         ret = pret < 0 ? pret : -EFAULT;
3381                 }
3382                 up_read(&current->mm->mmap_sem);
3383                 if (ret) {
3384                         /*
3385                          * if we did partial map, or found file backed vmas,
3386                          * release any pages we did get
3387                          */
3388                         if (pret > 0)
3389                                 put_user_pages(pages, pret);
3390                         if (ctx->account_mem)
3391                                 io_unaccount_mem(ctx->user, nr_pages);
3392                         kvfree(imu->bvec);
3393                         goto err;
3394                 }
3395
3396                 off = ubuf & ~PAGE_MASK;
3397                 size = iov.iov_len;
3398                 for (j = 0; j < nr_pages; j++) {
3399                         size_t vec_len;
3400
3401                         vec_len = min_t(size_t, size, PAGE_SIZE - off);
3402                         imu->bvec[j].bv_page = pages[j];
3403                         imu->bvec[j].bv_len = vec_len;
3404                         imu->bvec[j].bv_offset = off;
3405                         off = 0;
3406                         size -= vec_len;
3407                 }
3408                 /* store original address for later verification */
3409                 imu->ubuf = ubuf;
3410                 imu->len = iov.iov_len;
3411                 imu->nr_bvecs = nr_pages;
3412
3413                 ctx->nr_user_bufs++;
3414         }
3415         kvfree(pages);
3416         kvfree(vmas);
3417         return 0;
3418 err:
3419         kvfree(pages);
3420         kvfree(vmas);
3421         io_sqe_buffer_unregister(ctx);
3422         return ret;
3423 }
3424
3425 static int io_eventfd_register(struct io_ring_ctx *ctx, void __user *arg)
3426 {
3427         __s32 __user *fds = arg;
3428         int fd;
3429
3430         if (ctx->cq_ev_fd)
3431                 return -EBUSY;
3432
3433         if (copy_from_user(&fd, fds, sizeof(*fds)))
3434                 return -EFAULT;
3435
3436         ctx->cq_ev_fd = eventfd_ctx_fdget(fd);
3437         if (IS_ERR(ctx->cq_ev_fd)) {
3438                 int ret = PTR_ERR(ctx->cq_ev_fd);
3439                 ctx->cq_ev_fd = NULL;
3440                 return ret;
3441         }
3442
3443         return 0;
3444 }
3445
3446 static int io_eventfd_unregister(struct io_ring_ctx *ctx)
3447 {
3448         if (ctx->cq_ev_fd) {
3449                 eventfd_ctx_put(ctx->cq_ev_fd);
3450                 ctx->cq_ev_fd = NULL;
3451                 return 0;
3452         }
3453
3454         return -ENXIO;
3455 }
3456
3457 static void io_ring_ctx_free(struct io_ring_ctx *ctx)
3458 {
3459         io_finish_async(ctx);
3460         if (ctx->sqo_mm)
3461                 mmdrop(ctx->sqo_mm);
3462
3463         io_iopoll_reap_events(ctx);
3464         io_sqe_buffer_unregister(ctx);
3465         io_sqe_files_unregister(ctx);
3466         io_eventfd_unregister(ctx);
3467
3468 #if defined(CONFIG_UNIX)
3469         if (ctx->ring_sock) {
3470                 ctx->ring_sock->file = NULL; /* so that iput() is called */
3471                 sock_release(ctx->ring_sock);
3472         }
3473 #endif
3474
3475         io_mem_free(ctx->rings);
3476         io_mem_free(ctx->sq_sqes);
3477
3478         percpu_ref_exit(&ctx->refs);
3479         if (ctx->account_mem)
3480                 io_unaccount_mem(ctx->user,
3481                                 ring_pages(ctx->sq_entries, ctx->cq_entries));
3482         free_uid(ctx->user);
3483         kfree(ctx);
3484 }
3485
3486 static __poll_t io_uring_poll(struct file *file, poll_table *wait)
3487 {
3488         struct io_ring_ctx *ctx = file->private_data;
3489         __poll_t mask = 0;
3490
3491         poll_wait(file, &ctx->cq_wait, wait);
3492         /*
3493          * synchronizes with barrier from wq_has_sleeper call in
3494          * io_commit_cqring
3495          */
3496         smp_rmb();
3497         if (READ_ONCE(ctx->rings->sq.tail) - ctx->cached_sq_head !=
3498             ctx->rings->sq_ring_entries)
3499                 mask |= EPOLLOUT | EPOLLWRNORM;
3500         if (READ_ONCE(ctx->rings->cq.head) != ctx->cached_cq_tail)
3501                 mask |= EPOLLIN | EPOLLRDNORM;
3502
3503         return mask;
3504 }
3505
3506 static int io_uring_fasync(int fd, struct file *file, int on)
3507 {
3508         struct io_ring_ctx *ctx = file->private_data;
3509
3510         return fasync_helper(fd, file, on, &ctx->cq_fasync);
3511 }
3512
3513 static void io_ring_ctx_wait_and_kill(struct io_ring_ctx *ctx)
3514 {
3515         mutex_lock(&ctx->uring_lock);
3516         percpu_ref_kill(&ctx->refs);
3517         mutex_unlock(&ctx->uring_lock);
3518
3519         io_kill_timeouts(ctx);
3520         io_poll_remove_all(ctx);
3521         io_iopoll_reap_events(ctx);
3522         wait_for_completion(&ctx->ctx_done);
3523         io_ring_ctx_free(ctx);
3524 }
3525
3526 static int io_uring_release(struct inode *inode, struct file *file)
3527 {
3528         struct io_ring_ctx *ctx = file->private_data;
3529
3530         file->private_data = NULL;
3531         io_ring_ctx_wait_and_kill(ctx);
3532         return 0;
3533 }
3534
3535 static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
3536 {
3537         loff_t offset = (loff_t) vma->vm_pgoff << PAGE_SHIFT;
3538         unsigned long sz = vma->vm_end - vma->vm_start;
3539         struct io_ring_ctx *ctx = file->private_data;
3540         unsigned long pfn;
3541         struct page *page;
3542         void *ptr;
3543
3544         switch (offset) {
3545         case IORING_OFF_SQ_RING:
3546         case IORING_OFF_CQ_RING:
3547                 ptr = ctx->rings;
3548                 break;
3549         case IORING_OFF_SQES:
3550                 ptr = ctx->sq_sqes;
3551                 break;
3552         default:
3553                 return -EINVAL;
3554         }
3555
3556         page = virt_to_head_page(ptr);
3557         if (sz > page_size(page))
3558                 return -EINVAL;
3559
3560         pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
3561         return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);
3562 }
3563
3564 SYSCALL_DEFINE6(io_uring_enter, unsigned int, fd, u32, to_submit,
3565                 u32, min_complete, u32, flags, const sigset_t __user *, sig,
3566                 size_t, sigsz)
3567 {
3568         struct io_ring_ctx *ctx;
3569         long ret = -EBADF;
3570         int submitted = 0;
3571         struct fd f;
3572
3573         if (flags & ~(IORING_ENTER_GETEVENTS | IORING_ENTER_SQ_WAKEUP))
3574                 return -EINVAL;
3575
3576         f = fdget(fd);
3577         if (!f.file)
3578                 return -EBADF;
3579
3580         ret = -EOPNOTSUPP;
3581         if (f.file->f_op != &io_uring_fops)
3582                 goto out_fput;
3583
3584         ret = -ENXIO;
3585         ctx = f.file->private_data;
3586         if (!percpu_ref_tryget(&ctx->refs))
3587                 goto out_fput;
3588
3589         /*
3590          * For SQ polling, the thread will do all submissions and completions.
3591          * Just return the requested submit count, and wake the thread if
3592          * we were asked to.
3593          */
3594         ret = 0;
3595         if (ctx->flags & IORING_SETUP_SQPOLL) {
3596                 if (flags & IORING_ENTER_SQ_WAKEUP)
3597                         wake_up(&ctx->sqo_wait);
3598                 submitted = to_submit;
3599         } else if (to_submit) {
3600                 bool block_for_last = false;
3601
3602                 to_submit = min(to_submit, ctx->sq_entries);
3603
3604                 /*
3605                  * Allow last submission to block in a series, IFF the caller
3606                  * asked to wait for events and we don't currently have
3607                  * enough. This potentially avoids an async punt.
3608                  */
3609                 if (to_submit == min_complete &&
3610                     io_cqring_events(ctx->rings) < min_complete)
3611                         block_for_last = true;
3612
3613                 mutex_lock(&ctx->uring_lock);
3614                 submitted = io_ring_submit(ctx, to_submit, block_for_last);
3615                 mutex_unlock(&ctx->uring_lock);
3616         }
3617         if (flags & IORING_ENTER_GETEVENTS) {
3618                 unsigned nr_events = 0;
3619
3620                 min_complete = min(min_complete, ctx->cq_entries);
3621
3622                 if (ctx->flags & IORING_SETUP_IOPOLL) {
3623                         ret = io_iopoll_check(ctx, &nr_events, min_complete);
3624                 } else {
3625                         ret = io_cqring_wait(ctx, min_complete, sig, sigsz);
3626                 }
3627         }
3628
3629         percpu_ref_put(&ctx->refs);
3630 out_fput:
3631         fdput(f);
3632         return submitted ? submitted : ret;
3633 }
3634
3635 static const struct file_operations io_uring_fops = {
3636         .release        = io_uring_release,
3637         .mmap           = io_uring_mmap,
3638         .poll           = io_uring_poll,
3639         .fasync         = io_uring_fasync,
3640 };
3641
3642 static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
3643                                   struct io_uring_params *p)
3644 {
3645         struct io_rings *rings;
3646         size_t size, sq_array_offset;
3647
3648         size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);
3649         if (size == SIZE_MAX)
3650                 return -EOVERFLOW;
3651
3652         rings = io_mem_alloc(size);
3653         if (!rings)
3654                 return -ENOMEM;
3655
3656         ctx->rings = rings;
3657         ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
3658         rings->sq_ring_mask = p->sq_entries - 1;
3659         rings->cq_ring_mask = p->cq_entries - 1;
3660         rings->sq_ring_entries = p->sq_entries;
3661         rings->cq_ring_entries = p->cq_entries;
3662         ctx->sq_mask = rings->sq_ring_mask;
3663         ctx->cq_mask = rings->cq_ring_mask;
3664         ctx->sq_entries = rings->sq_ring_entries;
3665         ctx->cq_entries = rings->cq_ring_entries;
3666
3667         size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
3668         if (size == SIZE_MAX)
3669                 return -EOVERFLOW;
3670
3671         ctx->sq_sqes = io_mem_alloc(size);
3672         if (!ctx->sq_sqes)
3673                 return -ENOMEM;
3674
3675         return 0;
3676 }
3677
3678 /*
3679  * Allocate an anonymous fd, this is what constitutes the application
3680  * visible backing of an io_uring instance. The application mmaps this
3681  * fd to gain access to the SQ/CQ ring details. If UNIX sockets are enabled,
3682  * we have to tie this fd to a socket for file garbage collection purposes.
3683  */
3684 static int io_uring_get_fd(struct io_ring_ctx *ctx)
3685 {
3686         struct file *file;
3687         int ret;
3688
3689 #if defined(CONFIG_UNIX)
3690         ret = sock_create_kern(&init_net, PF_UNIX, SOCK_RAW, IPPROTO_IP,
3691                                 &ctx->ring_sock);
3692         if (ret)
3693                 return ret;
3694 #endif
3695
3696         ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
3697         if (ret < 0)
3698                 goto err;
3699
3700         file = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,
3701                                         O_RDWR | O_CLOEXEC);
3702         if (IS_ERR(file)) {
3703                 put_unused_fd(ret);
3704                 ret = PTR_ERR(file);
3705                 goto err;
3706         }
3707
3708 #if defined(CONFIG_UNIX)
3709         ctx->ring_sock->file = file;
3710         ctx->ring_sock->sk->sk_user_data = ctx;
3711 #endif
3712         fd_install(ret, file);
3713         return ret;
3714 err:
3715 #if defined(CONFIG_UNIX)
3716         sock_release(ctx->ring_sock);
3717         ctx->ring_sock = NULL;
3718 #endif
3719         return ret;
3720 }
3721
3722 static int io_uring_create(unsigned entries, struct io_uring_params *p)
3723 {
3724         struct user_struct *user = NULL;
3725         struct io_ring_ctx *ctx;
3726         bool account_mem;
3727         int ret;
3728
3729         if (!entries || entries > IORING_MAX_ENTRIES)
3730                 return -EINVAL;
3731
3732         /*
3733          * Use twice as many entries for the CQ ring. It's possible for the
3734          * application to drive a higher depth than the size of the SQ ring,
3735          * since the sqes are only used at submission time. This allows for
3736          * some flexibility in overcommitting a bit.
3737          */
3738         p->sq_entries = roundup_pow_of_two(entries);
3739         p->cq_entries = 2 * p->sq_entries;
3740
3741         user = get_uid(current_user());
3742         account_mem = !capable(CAP_IPC_LOCK);
3743
3744         if (account_mem) {
3745                 ret = io_account_mem(user,
3746                                 ring_pages(p->sq_entries, p->cq_entries));
3747                 if (ret) {
3748                         free_uid(user);
3749                         return ret;
3750                 }
3751         }
3752
3753         ctx = io_ring_ctx_alloc(p);
3754         if (!ctx) {
3755                 if (account_mem)
3756                         io_unaccount_mem(user, ring_pages(p->sq_entries,
3757                                                                 p->cq_entries));
3758                 free_uid(user);
3759                 return -ENOMEM;
3760         }
3761         ctx->compat = in_compat_syscall();
3762         ctx->account_mem = account_mem;
3763         ctx->user = user;
3764
3765         ret = io_allocate_scq_urings(ctx, p);
3766         if (ret)
3767                 goto err;
3768
3769         ret = io_sq_offload_start(ctx, p);
3770         if (ret)
3771                 goto err;
3772
3773         ret = io_uring_get_fd(ctx);
3774         if (ret < 0)
3775                 goto err;
3776
3777         memset(&p->sq_off, 0, sizeof(p->sq_off));
3778         p->sq_off.head = offsetof(struct io_rings, sq.head);
3779         p->sq_off.tail = offsetof(struct io_rings, sq.tail);
3780         p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
3781         p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
3782         p->sq_off.flags = offsetof(struct io_rings, sq_flags);
3783         p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
3784         p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
3785
3786         memset(&p->cq_off, 0, sizeof(p->cq_off));
3787         p->cq_off.head = offsetof(struct io_rings, cq.head);
3788         p->cq_off.tail = offsetof(struct io_rings, cq.tail);
3789         p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
3790         p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
3791         p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
3792         p->cq_off.cqes = offsetof(struct io_rings, cqes);
3793
3794         p->features = IORING_FEAT_SINGLE_MMAP;
3795         return ret;
3796 err:
3797         io_ring_ctx_wait_and_kill(ctx);
3798         return ret;
3799 }
3800
3801 /*
3802  * Sets up an aio uring context, and returns the fd. Applications asks for a
3803  * ring size, we return the actual sq/cq ring sizes (among other things) in the
3804  * params structure passed in.
3805  */
3806 static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
3807 {
3808         struct io_uring_params p;
3809         long ret;
3810         int i;
3811
3812         if (copy_from_user(&p, params, sizeof(p)))
3813                 return -EFAULT;
3814         for (i = 0; i < ARRAY_SIZE(p.resv); i++) {
3815                 if (p.resv[i])
3816                         return -EINVAL;
3817         }
3818
3819         if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
3820                         IORING_SETUP_SQ_AFF))
3821                 return -EINVAL;
3822
3823         ret = io_uring_create(entries, &p);
3824         if (ret < 0)
3825                 return ret;
3826
3827         if (copy_to_user(params, &p, sizeof(p)))
3828                 return -EFAULT;
3829
3830         return ret;
3831 }
3832
3833 SYSCALL_DEFINE2(io_uring_setup, u32, entries,
3834                 struct io_uring_params __user *, params)
3835 {
3836         return io_uring_setup(entries, params);
3837 }
3838
3839 static int __io_uring_register(struct io_ring_ctx *ctx, unsigned opcode,
3840                                void __user *arg, unsigned nr_args)
3841         __releases(ctx->uring_lock)
3842         __acquires(ctx->uring_lock)
3843 {
3844         int ret;
3845
3846         /*
3847          * We're inside the ring mutex, if the ref is already dying, then
3848          * someone else killed the ctx or is already going through
3849          * io_uring_register().
3850          */
3851         if (percpu_ref_is_dying(&ctx->refs))
3852                 return -ENXIO;
3853
3854         percpu_ref_kill(&ctx->refs);
3855
3856         /*
3857          * Drop uring mutex before waiting for references to exit. If another
3858          * thread is currently inside io_uring_enter() it might need to grab
3859          * the uring_lock to make progress. If we hold it here across the drain
3860          * wait, then we can deadlock. It's safe to drop the mutex here, since
3861          * no new references will come in after we've killed the percpu ref.
3862          */
3863         mutex_unlock(&ctx->uring_lock);
3864         wait_for_completion(&ctx->ctx_done);
3865         mutex_lock(&ctx->uring_lock);
3866
3867         switch (opcode) {
3868         case IORING_REGISTER_BUFFERS:
3869                 ret = io_sqe_buffer_register(ctx, arg, nr_args);
3870                 break;
3871         case IORING_UNREGISTER_BUFFERS:
3872                 ret = -EINVAL;
3873                 if (arg || nr_args)
3874                         break;
3875                 ret = io_sqe_buffer_unregister(ctx);
3876                 break;
3877         case IORING_REGISTER_FILES:
3878                 ret = io_sqe_files_register(ctx, arg, nr_args);
3879                 break;
3880         case IORING_UNREGISTER_FILES:
3881                 ret = -EINVAL;
3882                 if (arg || nr_args)
3883                         break;
3884                 ret = io_sqe_files_unregister(ctx);
3885                 break;
3886         case IORING_REGISTER_EVENTFD:
3887                 ret = -EINVAL;
3888                 if (nr_args != 1)
3889                         break;
3890                 ret = io_eventfd_register(ctx, arg);
3891                 break;
3892         case IORING_UNREGISTER_EVENTFD:
3893                 ret = -EINVAL;
3894                 if (arg || nr_args)
3895                         break;
3896                 ret = io_eventfd_unregister(ctx);
3897                 break;
3898         default:
3899                 ret = -EINVAL;
3900                 break;
3901         }
3902
3903         /* bring the ctx back to life */
3904         reinit_completion(&ctx->ctx_done);
3905         percpu_ref_reinit(&ctx->refs);
3906         return ret;
3907 }
3908
3909 SYSCALL_DEFINE4(io_uring_register, unsigned int, fd, unsigned int, opcode,
3910                 void __user *, arg, unsigned int, nr_args)
3911 {
3912         struct io_ring_ctx *ctx;
3913         long ret = -EBADF;
3914         struct fd f;
3915
3916         f = fdget(fd);
3917         if (!f.file)
3918                 return -EBADF;
3919
3920         ret = -EOPNOTSUPP;
3921         if (f.file->f_op != &io_uring_fops)
3922                 goto out_fput;
3923
3924         ctx = f.file->private_data;
3925
3926         mutex_lock(&ctx->uring_lock);
3927         ret = __io_uring_register(ctx, opcode, arg, nr_args);
3928         mutex_unlock(&ctx->uring_lock);
3929 out_fput:
3930         fdput(f);
3931         return ret;
3932 }
3933
3934 static int __init io_uring_init(void)
3935 {
3936         req_cachep = KMEM_CACHE(io_kiocb, SLAB_HWCACHE_ALIGN | SLAB_PANIC);
3937         return 0;
3938 };
3939 __initcall(io_uring_init);