59cdf3f742acfa5f3102ffa3339ac855cc86dac2
[linux-2.6-microblaze.git] / arch / x86 / kernel / cpu / sgx / virt.c
1 // SPDX-License-Identifier: GPL-2.0
2 /*
3  * Device driver to expose SGX enclave memory to KVM guests.
4  *
5  * Copyright(c) 2021 Intel Corporation.
6  */
7
8 #include <linux/miscdevice.h>
9 #include <linux/mm.h>
10 #include <linux/mman.h>
11 #include <linux/sched/mm.h>
12 #include <linux/sched/signal.h>
13 #include <linux/slab.h>
14 #include <linux/xarray.h>
15 #include <asm/sgx.h>
16 #include <uapi/asm/sgx.h>
17
18 #include "encls.h"
19 #include "sgx.h"
20
21 struct sgx_vepc {
22         struct xarray page_array;
23         struct mutex lock;
24 };
25
26 /*
27  * Temporary SECS pages that cannot be EREMOVE'd due to having child in other
28  * virtual EPC instances, and the lock to protect it.
29  */
30 static struct mutex zombie_secs_pages_lock;
31 static struct list_head zombie_secs_pages;
32
33 static int __sgx_vepc_fault(struct sgx_vepc *vepc,
34                             struct vm_area_struct *vma, unsigned long addr)
35 {
36         struct sgx_epc_page *epc_page;
37         unsigned long index, pfn;
38         int ret;
39
40         WARN_ON(!mutex_is_locked(&vepc->lock));
41
42         /* Calculate index of EPC page in virtual EPC's page_array */
43         index = vma->vm_pgoff + PFN_DOWN(addr - vma->vm_start);
44
45         epc_page = xa_load(&vepc->page_array, index);
46         if (epc_page)
47                 return 0;
48
49         epc_page = sgx_alloc_epc_page(vepc, false);
50         if (IS_ERR(epc_page))
51                 return PTR_ERR(epc_page);
52
53         ret = xa_err(xa_store(&vepc->page_array, index, epc_page, GFP_KERNEL));
54         if (ret)
55                 goto err_free;
56
57         pfn = PFN_DOWN(sgx_get_epc_phys_addr(epc_page));
58
59         ret = vmf_insert_pfn(vma, addr, pfn);
60         if (ret != VM_FAULT_NOPAGE) {
61                 ret = -EFAULT;
62                 goto err_delete;
63         }
64
65         return 0;
66
67 err_delete:
68         xa_erase(&vepc->page_array, index);
69 err_free:
70         sgx_free_epc_page(epc_page);
71         return ret;
72 }
73
74 static vm_fault_t sgx_vepc_fault(struct vm_fault *vmf)
75 {
76         struct vm_area_struct *vma = vmf->vma;
77         struct sgx_vepc *vepc = vma->vm_private_data;
78         int ret;
79
80         mutex_lock(&vepc->lock);
81         ret = __sgx_vepc_fault(vepc, vma, vmf->address);
82         mutex_unlock(&vepc->lock);
83
84         if (!ret)
85                 return VM_FAULT_NOPAGE;
86
87         if (ret == -EBUSY && (vmf->flags & FAULT_FLAG_ALLOW_RETRY)) {
88                 mmap_read_unlock(vma->vm_mm);
89                 return VM_FAULT_RETRY;
90         }
91
92         return VM_FAULT_SIGBUS;
93 }
94
95 static const struct vm_operations_struct sgx_vepc_vm_ops = {
96         .fault = sgx_vepc_fault,
97 };
98
99 static int sgx_vepc_mmap(struct file *file, struct vm_area_struct *vma)
100 {
101         struct sgx_vepc *vepc = file->private_data;
102
103         if (!(vma->vm_flags & VM_SHARED))
104                 return -EINVAL;
105
106         vma->vm_ops = &sgx_vepc_vm_ops;
107         /* Don't copy VMA in fork() */
108         vma->vm_flags |= VM_PFNMAP | VM_IO | VM_DONTDUMP | VM_DONTCOPY;
109         vma->vm_private_data = vepc;
110
111         return 0;
112 }
113
114 static int sgx_vepc_remove_page(struct sgx_epc_page *epc_page)
115 {
116         /*
117          * Take a previously guest-owned EPC page and return it to the
118          * general EPC page pool.
119          *
120          * Guests can not be trusted to have left this page in a good
121          * state, so run EREMOVE on the page unconditionally.  In the
122          * case that a guest properly EREMOVE'd this page, a superfluous
123          * EREMOVE is harmless.
124          */
125         return __eremove(sgx_get_epc_virt_addr(epc_page));
126 }
127
128 static int sgx_vepc_free_page(struct sgx_epc_page *epc_page)
129 {
130         int ret = sgx_vepc_remove_page(epc_page);
131         if (ret) {
132                 /*
133                  * Only SGX_CHILD_PRESENT is expected, which is because of
134                  * EREMOVE'ing an SECS still with child, in which case it can
135                  * be handled by EREMOVE'ing the SECS again after all pages in
136                  * virtual EPC have been EREMOVE'd. See comments in below in
137                  * sgx_vepc_release().
138                  *
139                  * The user of virtual EPC (KVM) needs to guarantee there's no
140                  * logical processor is still running in the enclave in guest,
141                  * otherwise EREMOVE will get SGX_ENCLAVE_ACT which cannot be
142                  * handled here.
143                  */
144                 WARN_ONCE(ret != SGX_CHILD_PRESENT, EREMOVE_ERROR_MESSAGE,
145                           ret, ret);
146                 return ret;
147         }
148
149         sgx_free_epc_page(epc_page);
150         return 0;
151 }
152
153 static int sgx_vepc_release(struct inode *inode, struct file *file)
154 {
155         struct sgx_vepc *vepc = file->private_data;
156         struct sgx_epc_page *epc_page, *tmp, *entry;
157         unsigned long index;
158
159         LIST_HEAD(secs_pages);
160
161         xa_for_each(&vepc->page_array, index, entry) {
162                 /*
163                  * Remove all normal, child pages.  sgx_vepc_free_page()
164                  * will fail if EREMOVE fails, but this is OK and expected on
165                  * SECS pages.  Those can only be EREMOVE'd *after* all their
166                  * child pages. Retries below will clean them up.
167                  */
168                 if (sgx_vepc_free_page(entry))
169                         continue;
170
171                 xa_erase(&vepc->page_array, index);
172         }
173
174         /*
175          * Retry EREMOVE'ing pages.  This will clean up any SECS pages that
176          * only had children in this 'epc' area.
177          */
178         xa_for_each(&vepc->page_array, index, entry) {
179                 epc_page = entry;
180                 /*
181                  * An EREMOVE failure here means that the SECS page still
182                  * has children.  But, since all children in this 'sgx_vepc'
183                  * have been removed, the SECS page must have a child on
184                  * another instance.
185                  */
186                 if (sgx_vepc_free_page(epc_page))
187                         list_add_tail(&epc_page->list, &secs_pages);
188
189                 xa_erase(&vepc->page_array, index);
190         }
191
192         /*
193          * SECS pages are "pinned" by child pages, and "unpinned" once all
194          * children have been EREMOVE'd.  A child page in this instance
195          * may have pinned an SECS page encountered in an earlier release(),
196          * creating a zombie.  Since some children were EREMOVE'd above,
197          * try to EREMOVE all zombies in the hopes that one was unpinned.
198          */
199         mutex_lock(&zombie_secs_pages_lock);
200         list_for_each_entry_safe(epc_page, tmp, &zombie_secs_pages, list) {
201                 /*
202                  * Speculatively remove the page from the list of zombies,
203                  * if the page is successfully EREMOVE'd it will be added to
204                  * the list of free pages.  If EREMOVE fails, throw the page
205                  * on the local list, which will be spliced on at the end.
206                  */
207                 list_del(&epc_page->list);
208
209                 if (sgx_vepc_free_page(epc_page))
210                         list_add_tail(&epc_page->list, &secs_pages);
211         }
212
213         if (!list_empty(&secs_pages))
214                 list_splice_tail(&secs_pages, &zombie_secs_pages);
215         mutex_unlock(&zombie_secs_pages_lock);
216
217         xa_destroy(&vepc->page_array);
218         kfree(vepc);
219
220         return 0;
221 }
222
223 static int sgx_vepc_open(struct inode *inode, struct file *file)
224 {
225         struct sgx_vepc *vepc;
226
227         vepc = kzalloc(sizeof(struct sgx_vepc), GFP_KERNEL);
228         if (!vepc)
229                 return -ENOMEM;
230         mutex_init(&vepc->lock);
231         xa_init(&vepc->page_array);
232
233         file->private_data = vepc;
234
235         return 0;
236 }
237
238 static const struct file_operations sgx_vepc_fops = {
239         .owner          = THIS_MODULE,
240         .open           = sgx_vepc_open,
241         .release        = sgx_vepc_release,
242         .mmap           = sgx_vepc_mmap,
243 };
244
245 static struct miscdevice sgx_vepc_dev = {
246         .minor          = MISC_DYNAMIC_MINOR,
247         .name           = "sgx_vepc",
248         .nodename       = "sgx_vepc",
249         .fops           = &sgx_vepc_fops,
250 };
251
252 int __init sgx_vepc_init(void)
253 {
254         /* SGX virtualization requires KVM to work */
255         if (!cpu_feature_enabled(X86_FEATURE_VMX))
256                 return -ENODEV;
257
258         INIT_LIST_HEAD(&zombie_secs_pages);
259         mutex_init(&zombie_secs_pages_lock);
260
261         return misc_register(&sgx_vepc_dev);
262 }
263
264 /**
265  * sgx_virt_ecreate() - Run ECREATE on behalf of guest
266  * @pageinfo:   Pointer to PAGEINFO structure
267  * @secs:       Userspace pointer to SECS page
268  * @trapnr:     trap number injected to guest in case of ECREATE error
269  *
270  * Run ECREATE on behalf of guest after KVM traps ECREATE for the purpose
271  * of enforcing policies of guest's enclaves, and return the trap number
272  * which should be injected to guest in case of any ECREATE error.
273  *
274  * Return:
275  * -  0:        ECREATE was successful.
276  * - <0:        on error.
277  */
278 int sgx_virt_ecreate(struct sgx_pageinfo *pageinfo, void __user *secs,
279                      int *trapnr)
280 {
281         int ret;
282
283         /*
284          * @secs is an untrusted, userspace-provided address.  It comes from
285          * KVM and is assumed to be a valid pointer which points somewhere in
286          * userspace.  This can fault and call SGX or other fault handlers when
287          * userspace mapping @secs doesn't exist.
288          *
289          * Add a WARN() to make sure @secs is already valid userspace pointer
290          * from caller (KVM), who should already have handled invalid pointer
291          * case (for instance, made by malicious guest).  All other checks,
292          * such as alignment of @secs, are deferred to ENCLS itself.
293          */
294         if (WARN_ON_ONCE(!access_ok(secs, PAGE_SIZE)))
295                 return -EINVAL;
296
297         __uaccess_begin();
298         ret = __ecreate(pageinfo, (void *)secs);
299         __uaccess_end();
300
301         if (encls_faulted(ret)) {
302                 *trapnr = ENCLS_TRAPNR(ret);
303                 return -EFAULT;
304         }
305
306         /* ECREATE doesn't return an error code, it faults or succeeds. */
307         WARN_ON_ONCE(ret);
308         return 0;
309 }
310 EXPORT_SYMBOL_GPL(sgx_virt_ecreate);
311
312 static int __sgx_virt_einit(void __user *sigstruct, void __user *token,
313                             void __user *secs)
314 {
315         int ret;
316
317         /*
318          * Make sure all userspace pointers from caller (KVM) are valid.
319          * All other checks deferred to ENCLS itself.  Also see comment
320          * for @secs in sgx_virt_ecreate().
321          */
322 #define SGX_EINITTOKEN_SIZE     304
323         if (WARN_ON_ONCE(!access_ok(sigstruct, sizeof(struct sgx_sigstruct)) ||
324                          !access_ok(token, SGX_EINITTOKEN_SIZE) ||
325                          !access_ok(secs, PAGE_SIZE)))
326                 return -EINVAL;
327
328         __uaccess_begin();
329         ret = __einit((void *)sigstruct, (void *)token, (void *)secs);
330         __uaccess_end();
331
332         return ret;
333 }
334
335 /**
336  * sgx_virt_einit() - Run EINIT on behalf of guest
337  * @sigstruct:          Userspace pointer to SIGSTRUCT structure
338  * @token:              Userspace pointer to EINITTOKEN structure
339  * @secs:               Userspace pointer to SECS page
340  * @lepubkeyhash:       Pointer to guest's *virtual* SGX_LEPUBKEYHASH MSR values
341  * @trapnr:             trap number injected to guest in case of EINIT error
342  *
343  * Run EINIT on behalf of guest after KVM traps EINIT. If SGX_LC is available
344  * in host, SGX driver may rewrite the hardware values at wish, therefore KVM
345  * needs to update hardware values to guest's virtual MSR values in order to
346  * ensure EINIT is executed with expected hardware values.
347  *
348  * Return:
349  * -  0:        EINIT was successful.
350  * - <0:        on error.
351  */
352 int sgx_virt_einit(void __user *sigstruct, void __user *token,
353                    void __user *secs, u64 *lepubkeyhash, int *trapnr)
354 {
355         int ret;
356
357         if (!cpu_feature_enabled(X86_FEATURE_SGX_LC)) {
358                 ret = __sgx_virt_einit(sigstruct, token, secs);
359         } else {
360                 preempt_disable();
361
362                 sgx_update_lepubkeyhash(lepubkeyhash);
363
364                 ret = __sgx_virt_einit(sigstruct, token, secs);
365                 preempt_enable();
366         }
367
368         /* Propagate up the error from the WARN_ON_ONCE in __sgx_virt_einit() */
369         if (ret == -EINVAL)
370                 return ret;
371
372         if (encls_faulted(ret)) {
373                 *trapnr = ENCLS_TRAPNR(ret);
374                 return -EFAULT;
375         }
376
377         return ret;
378 }
379 EXPORT_SYMBOL_GPL(sgx_virt_einit);