btrfs: stop setting nbytes when filling inode item for logging
authorFilipe Manana <fdmanana@suse.com>
Wed, 27 Jan 2021 10:34:55 +0000 (10:34 +0000)
committerDavid Sterba <dsterba@suse.com>
Mon, 8 Feb 2021 21:59:00 +0000 (22:59 +0100)
When we fill an inode item for logging we are setting its nbytes field
with the value returned by inode_get_bytes() (a VFS API), however we do
not need it because it is not used during log replay. In fact, for fast
fsyncs, when we call inode_get_bytes() we may even get an outdated value
for nbytes because the nbytes field of the inode is only updated when
ordered extents complete, and a fast fsync only waits for writeback to
complete, it does not wait for ordered extent completion.

So just remove the setup of nbytes and add an explicit comment mentioning
why we do not set it. This also avoids adding contention on the inode's
i_lock (VFS) with concurrent stat() calls, since that spinlock is used by
inode_get_bytes() which is also called by our stat callback
(btrfs_getattr()).

This patch is part of a patchset comprised of the following patches:

  btrfs: remove unnecessary directory inode item update when deleting dir entry
  btrfs: stop setting nbytes when filling inode item for logging
  btrfs: avoid logging new ancestor inodes when logging new inode
  btrfs: skip logging directories already logged when logging all parents
  btrfs: skip logging inodes already logged when logging new entries
  btrfs: remove unnecessary check_parent_dirs_for_sync()
  btrfs: make concurrent fsyncs wait less when waiting for a transaction commit

Performance results, after applying all patches, are mentioned in the
change log of the last patch.

Reviewed-by: Josef Bacik <josef@toxicpanda.com>
Signed-off-by: Filipe Manana <fdmanana@suse.com>
Signed-off-by: David Sterba <dsterba@suse.com>
fs/btrfs/tree-log.c

index 5d87afc..be62759 100644 (file)
@@ -3858,7 +3858,14 @@ static void fill_inode_item(struct btrfs_trans_handle *trans,
        btrfs_set_token_timespec_nsec(&token, &item->ctime,
                                      inode->i_ctime.tv_nsec);
 
-       btrfs_set_token_inode_nbytes(&token, item, inode_get_bytes(inode));
+       /*
+        * We do not need to set the nbytes field, in fact during a fast fsync
+        * its value may not even be correct, since a fast fsync does not wait
+        * for ordered extent completion, which is where we update nbytes, it
+        * only waits for writeback to complete. During log replay as we find
+        * file extent items and replay them, we adjust the nbytes field of the
+        * inode item in subvolume tree as needed (see overwrite_item()).
+        */
 
        btrfs_set_token_inode_sequence(&token, item, inode_peek_iversion(inode));
        btrfs_set_token_inode_transid(&token, item, trans->transid);