block: remove i_bdev
[linux-2.6-microblaze.git] / fs / block_dev.c
index 8ae833e..6d6e4d5 100644 (file)
@@ -103,6 +103,35 @@ void invalidate_bdev(struct block_device *bdev)
 }
 EXPORT_SYMBOL(invalidate_bdev);
 
+/*
+ * Drop all buffers & page cache for given bdev range. This function bails
+ * with error if bdev has other exclusive owner (such as filesystem).
+ */
+int truncate_bdev_range(struct block_device *bdev, fmode_t mode,
+                       loff_t lstart, loff_t lend)
+{
+       struct block_device *claimed_bdev = NULL;
+       int err;
+
+       /*
+        * If we don't hold exclusive handle for the device, upgrade to it
+        * while we discard the buffer cache to avoid discarding buffers
+        * under live filesystem.
+        */
+       if (!(mode & FMODE_EXCL)) {
+               claimed_bdev = bdev->bd_contains;
+               err = bd_prepare_to_claim(bdev, claimed_bdev,
+                                         truncate_bdev_range);
+               if (err)
+                       return err;
+       }
+       truncate_inode_pages_range(bdev->bd_inode->i_mapping, lstart, lend);
+       if (claimed_bdev)
+               bd_abort_claiming(bdev, claimed_bdev, truncate_bdev_range);
+       return 0;
+}
+EXPORT_SYMBOL(truncate_bdev_range);
+
 static void set_init_blocksize(struct block_device *bdev)
 {
        bdev->bd_inode->i_blkbits = blksize_bits(bdev_logical_block_size(bdev));
@@ -519,55 +548,47 @@ EXPORT_SYMBOL(fsync_bdev);
  * count down in thaw_bdev(). When it becomes 0, thaw_bdev() will unfreeze
  * actually.
  */
-struct super_block *freeze_bdev(struct block_device *bdev)
+int freeze_bdev(struct block_device *bdev)
 {
        struct super_block *sb;
        int error = 0;
 
        mutex_lock(&bdev->bd_fsfreeze_mutex);
-       if (++bdev->bd_fsfreeze_count > 1) {
-               /*
-                * We don't even need to grab a reference - the first call
-                * to freeze_bdev grab an active reference and only the last
-                * thaw_bdev drops it.
-                */
-               sb = get_super(bdev);
-               if (sb)
-                       drop_super(sb);
-               mutex_unlock(&bdev->bd_fsfreeze_mutex);
-               return sb;
-       }
+       if (++bdev->bd_fsfreeze_count > 1)
+               goto done;
 
        sb = get_active_super(bdev);
        if (!sb)
-               goto out;
+               goto sync;
        if (sb->s_op->freeze_super)
                error = sb->s_op->freeze_super(sb);
        else
                error = freeze_super(sb);
+       deactivate_super(sb);
+
        if (error) {
-               deactivate_super(sb);
                bdev->bd_fsfreeze_count--;
-               mutex_unlock(&bdev->bd_fsfreeze_mutex);
-               return ERR_PTR(error);
+               goto done;
        }
-       deactivate_super(sb);
- out:
+       bdev->bd_fsfreeze_sb = sb;
+
+sync:
        sync_blockdev(bdev);
+done:
        mutex_unlock(&bdev->bd_fsfreeze_mutex);
-       return sb;      /* thaw_bdev releases s->s_umount */
+       return error;
 }
 EXPORT_SYMBOL(freeze_bdev);
 
 /**
  * thaw_bdev  -- unlock filesystem
  * @bdev:      blockdevice to unlock
- * @sb:                associated superblock
  *
  * Unlocks the filesystem and marks it writeable again after freeze_bdev().
  */
-int thaw_bdev(struct block_device *bdev, struct super_block *sb)
+int thaw_bdev(struct block_device *bdev)
 {
+       struct super_block *sb;
        int error = -EINVAL;
 
        mutex_lock(&bdev->bd_fsfreeze_mutex);
@@ -578,6 +599,7 @@ int thaw_bdev(struct block_device *bdev, struct super_block *sb)
        if (--bdev->bd_fsfreeze_count > 0)
                goto out;
 
+       sb = bdev->bd_fsfreeze_sb;
        if (!sb)
                goto out;
 
@@ -841,49 +863,26 @@ void __init bdev_cache_init(void)
        blockdev_superblock = bd_mnt->mnt_sb;   /* For writeback */
 }
 
-/*
- * Most likely _very_ bad one - but then it's hardly critical for small
- * /dev and can be fixed when somebody will need really large one.
- * Keep in mind that it will be fed through icache hash function too.
- */
-static inline unsigned long hash(dev_t dev)
-{
-       return MAJOR(dev)+MINOR(dev);
-}
-
-static int bdev_test(struct inode *inode, void *data)
-{
-       return BDEV_I(inode)->bdev.bd_dev == *(dev_t *)data;
-}
-
-static int bdev_set(struct inode *inode, void *data)
-{
-       BDEV_I(inode)->bdev.bd_dev = *(dev_t *)data;
-       return 0;
-}
-
-struct block_device *bdget(dev_t dev)
+static struct block_device *bdget(dev_t dev)
 {
        struct block_device *bdev;
        struct inode *inode;
 
-       inode = iget5_locked(blockdev_superblock, hash(dev),
-                       bdev_test, bdev_set, &dev);
-
+       inode = iget_locked(blockdev_superblock, dev);
        if (!inode)
                return NULL;
 
        bdev = &BDEV_I(inode)->bdev;
 
        if (inode->i_state & I_NEW) {
+               spin_lock_init(&bdev->bd_size_lock);
                bdev->bd_contains = NULL;
                bdev->bd_super = NULL;
                bdev->bd_inode = inode;
                bdev->bd_part_count = 0;
-               bdev->bd_invalidated = 0;
+               bdev->bd_dev = dev;
                inode->i_mode = S_IFBLK;
                inode->i_rdev = dev;
-               inode->i_bdev = bdev;
                inode->i_data.a_ops = &def_blk_aops;
                mapping_set_gfp_mask(&inode->i_data, GFP_USER);
                unlock_new_inode(inode);
@@ -891,19 +890,26 @@ struct block_device *bdget(dev_t dev)
        return bdev;
 }
 
-EXPORT_SYMBOL(bdget);
-
 /**
  * bdgrab -- Grab a reference to an already referenced block device
  * @bdev:      Block device to grab a reference to.
+ *
+ * Returns the block_device with an additional reference when successful,
+ * or NULL if the inode is already beeing freed.
  */
 struct block_device *bdgrab(struct block_device *bdev)
 {
-       ihold(bdev->bd_inode);
+       if (!igrab(bdev->bd_inode))
+               return NULL;
        return bdev;
 }
 EXPORT_SYMBOL(bdgrab);
 
+struct block_device *bdget_part(struct hd_struct *part)
+{
+       return bdget(part_devt(part));
+}
+
 long nr_blockdev_pages(void)
 {
        struct inode *inode;
@@ -921,67 +927,8 @@ void bdput(struct block_device *bdev)
 {
        iput(bdev->bd_inode);
 }
-
 EXPORT_SYMBOL(bdput);
  
-static struct block_device *bd_acquire(struct inode *inode)
-{
-       struct block_device *bdev;
-
-       spin_lock(&bdev_lock);
-       bdev = inode->i_bdev;
-       if (bdev && !inode_unhashed(bdev->bd_inode)) {
-               bdgrab(bdev);
-               spin_unlock(&bdev_lock);
-               return bdev;
-       }
-       spin_unlock(&bdev_lock);
-
-       /*
-        * i_bdev references block device inode that was already shut down
-        * (corresponding device got removed).  Remove the reference and look
-        * up block device inode again just in case new device got
-        * reestablished under the same device number.
-        */
-       if (bdev)
-               bd_forget(inode);
-
-       bdev = bdget(inode->i_rdev);
-       if (bdev) {
-               spin_lock(&bdev_lock);
-               if (!inode->i_bdev) {
-                       /*
-                        * We take an additional reference to bd_inode,
-                        * and it's released in clear_inode() of inode.
-                        * So, we can access it via ->i_mapping always
-                        * without igrab().
-                        */
-                       bdgrab(bdev);
-                       inode->i_bdev = bdev;
-                       inode->i_mapping = bdev->bd_inode->i_mapping;
-               }
-               spin_unlock(&bdev_lock);
-       }
-       return bdev;
-}
-
-/* Call when you free inode */
-
-void bd_forget(struct inode *inode)
-{
-       struct block_device *bdev = NULL;
-
-       spin_lock(&bdev_lock);
-       if (!sb_is_blkdev_sb(inode->i_sb))
-               bdev = inode->i_bdev;
-       inode->i_bdev = NULL;
-       inode->i_mapping = &inode->i_data;
-       spin_unlock(&bdev_lock);
-
-       if (bdev)
-               bdput(bdev);
-}
-
 /**
  * bd_may_claim - test whether a block device can be claimed
  * @bdev: block device of interest
@@ -1217,7 +1164,7 @@ int bd_link_disk_holder(struct block_device *bdev, struct gendisk *disk)
        holder->disk = disk;
        holder->refcnt = 1;
 
-       ret = add_symlink(disk->slave_dir, &part_to_dev(bdev->bd_part)->kobj);
+       ret = add_symlink(disk->slave_dir, bdev_kobj(bdev));
        if (ret)
                goto out_free;
 
@@ -1234,7 +1181,7 @@ int bd_link_disk_holder(struct block_device *bdev, struct gendisk *disk)
        goto out_unlock;
 
 out_del:
-       del_symlink(disk->slave_dir, &part_to_dev(bdev->bd_part)->kobj);
+       del_symlink(disk->slave_dir, bdev_kobj(bdev));
 out_free:
        kfree(holder);
 out_unlock:
@@ -1262,7 +1209,7 @@ void bd_unlink_disk_holder(struct block_device *bdev, struct gendisk *disk)
        holder = bd_find_holder_disk(bdev, disk);
 
        if (!WARN_ON_ONCE(holder == NULL) && !--holder->refcnt) {
-               del_symlink(disk->slave_dir, &part_to_dev(bdev->bd_part)->kobj);
+               del_symlink(disk->slave_dir, bdev_kobj(bdev));
                del_symlink(bdev->bd_part->holder_dir,
                            &disk_to_dev(disk)->kobj);
                kobject_put(bdev->bd_part->holder_dir);
@@ -1290,6 +1237,7 @@ static void check_disk_size_change(struct gendisk *disk,
 {
        loff_t disk_size, bdev_size;
 
+       spin_lock(&bdev->bd_size_lock);
        disk_size = (loff_t)get_capacity(disk) << 9;
        bdev_size = i_size_read(bdev->bd_inode);
        if (disk_size != bdev_size) {
@@ -1299,85 +1247,44 @@ static void check_disk_size_change(struct gendisk *disk,
                               disk->disk_name, bdev_size, disk_size);
                }
                i_size_write(bdev->bd_inode, disk_size);
-               if (bdev_size > disk_size && __invalidate_device(bdev, false))
-                       pr_warn("VFS: busy inodes on resized disk %s\n",
-                               disk->disk_name);
        }
-       bdev->bd_invalidated = 0;
+       spin_unlock(&bdev->bd_size_lock);
 }
 
 /**
- * revalidate_disk - wrapper for lower-level driver's revalidate_disk call-back
- * @disk: struct gendisk to be revalidated
+ * revalidate_disk_size - checks for disk size change and adjusts bdev size.
+ * @disk: struct gendisk to check
+ * @verbose: if %true log a message about a size change if there is any
  *
- * This routine is a wrapper for lower-level driver's revalidate_disk
- * call-backs.  It is used to do common pre and post operations needed
- * for all revalidate_disk operations.
+ * This routine checks to see if the bdev size does not match the disk size
+ * and adjusts it if it differs. When shrinking the bdev size, its all caches
+ * are freed.
  */
-int revalidate_disk(struct gendisk *disk)
+void revalidate_disk_size(struct gendisk *disk, bool verbose)
 {
-       int ret = 0;
-
-       if (disk->fops->revalidate_disk)
-               ret = disk->fops->revalidate_disk(disk);
+       struct block_device *bdev;
 
        /*
         * Hidden disks don't have associated bdev so there's no point in
-        * revalidating it.
+        * revalidating them.
         */
-       if (!(disk->flags & GENHD_FL_HIDDEN)) {
-               struct block_device *bdev = bdget_disk(disk, 0);
-
-               if (!bdev)
-                       return ret;
+       if (disk->flags & GENHD_FL_HIDDEN)
+               return;
 
-               mutex_lock(&bdev->bd_mutex);
-               check_disk_size_change(disk, bdev, ret == 0);
-               mutex_unlock(&bdev->bd_mutex);
+       bdev = bdget_disk(disk, 0);
+       if (bdev) {
+               check_disk_size_change(disk, bdev, verbose);
                bdput(bdev);
        }
-       return ret;
-}
-EXPORT_SYMBOL(revalidate_disk);
-
-/*
- * This routine checks whether a removable media has been changed,
- * and invalidates all buffer-cache-entries in that case. This
- * is a relatively slow routine, so we have to try to minimize using
- * it. Thus it is called only upon a 'mount' or 'open'. This
- * is the best way of combining speed and utility, I think.
- * People changing diskettes in the middle of an operation deserve
- * to lose :-)
- */
-int check_disk_change(struct block_device *bdev)
-{
-       struct gendisk *disk = bdev->bd_disk;
-       const struct block_device_operations *bdops = disk->fops;
-       unsigned int events;
-
-       events = disk_clear_events(disk, DISK_EVENT_MEDIA_CHANGE |
-                                  DISK_EVENT_EJECT_REQUEST);
-       if (!(events & DISK_EVENT_MEDIA_CHANGE))
-               return 0;
-
-       if (__invalidate_device(bdev, true))
-               pr_warn("VFS: busy inodes on changed media %s\n",
-                       disk->disk_name);
-       bdev->bd_invalidated = 1;
-       if (bdops->revalidate_disk)
-               bdops->revalidate_disk(bdev->bd_disk);
-       return 1;
 }
 
-EXPORT_SYMBOL(check_disk_change);
-
-void bd_set_size(struct block_device *bdev, loff_t size)
+void bd_set_nr_sectors(struct block_device *bdev, sector_t sectors)
 {
-       inode_lock(bdev->bd_inode);
-       i_size_write(bdev->bd_inode, size);
-       inode_unlock(bdev->bd_inode);
+       spin_lock(&bdev->bd_size_lock);
+       i_size_write(bdev->bd_inode, (loff_t)sectors << SECTOR_SHIFT);
+       spin_unlock(&bdev->bd_size_lock);
 }
-EXPORT_SYMBOL(bd_set_size);
+EXPORT_SYMBOL(bd_set_nr_sectors);
 
 static void __blkdev_put(struct block_device *bdev, fmode_t mode, int for_part);
 
@@ -1388,6 +1295,8 @@ int bdev_disk_changed(struct block_device *bdev, bool invalidate)
 
        lockdep_assert_held(&bdev->bd_mutex);
 
+       clear_bit(GD_NEED_PART_SCAN, &bdev->bd_disk->state);
+
 rescan:
        ret = blk_drop_partitions(bdev);
        if (ret)
@@ -1438,60 +1347,12 @@ EXPORT_SYMBOL_GPL(bdev_disk_changed);
  *  mutex_lock(part->bd_mutex)
  *    mutex_lock_nested(whole->bd_mutex, 1)
  */
-
-static int __blkdev_get(struct block_device *bdev, fmode_t mode, void *holder,
-               int for_part)
+static int __blkdev_get(struct block_device *bdev, struct gendisk *disk,
+               int partno, fmode_t mode)
 {
-       struct block_device *whole = NULL, *claiming = NULL;
-       struct gendisk *disk;
        int ret;
-       int partno;
-       int perm = 0;
-       bool first_open = false, unblock_events = true, need_restart;
-
-       if (mode & FMODE_READ)
-               perm |= MAY_READ;
-       if (mode & FMODE_WRITE)
-               perm |= MAY_WRITE;
-       /*
-        * hooks: /n/, see "layering violations".
-        */
-       if (!for_part) {
-               ret = devcgroup_inode_permission(bdev->bd_inode, perm);
-               if (ret != 0)
-                       return ret;
-       }
-
- restart:
-       need_restart = false;
-       ret = -ENXIO;
-       disk = bdev_get_gendisk(bdev, &partno);
-       if (!disk)
-               goto out;
-
-       if (partno) {
-               whole = bdget_disk(disk, 0);
-               if (!whole) {
-                       ret = -ENOMEM;
-                       goto out_put_disk;
-               }
-       }
-
-       if (!for_part && (mode & FMODE_EXCL)) {
-               WARN_ON_ONCE(!holder);
-               if (whole)
-                       claiming = whole;
-               else
-                       claiming = bdev;
-               ret = bd_prepare_to_claim(bdev, claiming, holder);
-               if (ret)
-                       goto out_put_whole;
-       }
 
-       disk_block_events(disk);
-       mutex_lock_nested(&bdev->bd_mutex, for_part);
        if (!bdev->bd_openers) {
-               first_open = true;
                bdev->bd_disk = disk;
                bdev->bd_contains = bdev;
                bdev->bd_partno = partno;
@@ -1503,18 +1364,11 @@ static int __blkdev_get(struct block_device *bdev, fmode_t mode, void *holder,
                                goto out_clear;
 
                        ret = 0;
-                       if (disk->fops->open) {
+                       if (disk->fops->open)
                                ret = disk->fops->open(bdev, mode);
-                               /*
-                                * If we lost a race with 'disk' being deleted,
-                                * try again.  See md.c
-                                */
-                               if (ret == -ERESTARTSYS)
-                                       need_restart = true;
-                       }
 
                        if (!ret) {
-                               bd_set_size(bdev,(loff_t)get_capacity(disk)<<9);
+                               bd_set_nr_sectors(bdev, get_capacity(disk));
                                set_init_blocksize(bdev);
                        }
 
@@ -1524,25 +1378,35 @@ static int __blkdev_get(struct block_device *bdev, fmode_t mode, void *holder,
                         * The latter is necessary to prevent ghost
                         * partitions on a removed medium.
                         */
-                       if (bdev->bd_invalidated &&
+                       if (test_bit(GD_NEED_PART_SCAN, &disk->state) &&
                            (!ret || ret == -ENOMEDIUM))
                                bdev_disk_changed(bdev, ret == -ENOMEDIUM);
 
                        if (ret)
                                goto out_clear;
                } else {
-                       BUG_ON(for_part);
-                       ret = __blkdev_get(whole, mode, NULL, 1);
-                       if (ret)
+                       struct block_device *whole = bdget_disk(disk, 0);
+
+                       mutex_lock_nested(&whole->bd_mutex, 1);
+                       ret = __blkdev_get(whole, disk, 0, mode);
+                       if (ret) {
+                               mutex_unlock(&whole->bd_mutex);
+                               bdput(whole);
                                goto out_clear;
-                       bdev->bd_contains = bdgrab(whole);
+                       }
+                       whole->bd_part_count++;
+                       mutex_unlock(&whole->bd_mutex);
+
+                       bdev->bd_contains = whole;
                        bdev->bd_part = disk_get_part(disk, partno);
                        if (!(disk->flags & GENHD_FL_UP) ||
                            !bdev->bd_part || !bdev->bd_part->nr_sects) {
+                               __blkdev_put(whole, mode, 1);
+                               bdput(whole);
                                ret = -ENXIO;
                                goto out_clear;
                        }
-                       bd_set_size(bdev, (loff_t)bdev->bd_part->nr_sects << 9);
+                       bd_set_nr_sectors(bdev, bdev->bd_part->nr_sects);
                        set_init_blocksize(bdev);
                }
 
@@ -1554,94 +1418,131 @@ static int __blkdev_get(struct block_device *bdev, fmode_t mode, void *holder,
                        if (bdev->bd_disk->fops->open)
                                ret = bdev->bd_disk->fops->open(bdev, mode);
                        /* the same as first opener case, read comment there */
-                       if (bdev->bd_invalidated &&
+                       if (test_bit(GD_NEED_PART_SCAN, &disk->state) &&
                            (!ret || ret == -ENOMEDIUM))
                                bdev_disk_changed(bdev, ret == -ENOMEDIUM);
                        if (ret)
-                               goto out_unlock_bdev;
+                               return ret;
                }
        }
        bdev->bd_openers++;
-       if (for_part)
-               bdev->bd_part_count++;
-       if (claiming)
-               bd_finish_claiming(bdev, claiming, holder);
-
-       /*
-        * Block event polling for write claims if requested.  Any write holder
-        * makes the write_holder state stick until all are released.  This is
-        * good enough and tracking individual writeable reference is too
-        * fragile given the way @mode is used in blkdev_get/put().
-        */
-       if (claiming && (mode & FMODE_WRITE) && !bdev->bd_write_holder &&
-           (disk->flags & GENHD_FL_BLOCK_EVENTS_ON_EXCL_WRITE)) {
-               bdev->bd_write_holder = true;
-               unblock_events = false;
-       }
-       mutex_unlock(&bdev->bd_mutex);
-
-       if (unblock_events)
-               disk_unblock_events(disk);
-
-       /* only one opener holds refs to the module and disk */
-       if (!first_open)
-               put_disk_and_module(disk);
-       if (whole)
-               bdput(whole);
        return 0;
 
  out_clear:
        disk_put_part(bdev->bd_part);
        bdev->bd_disk = NULL;
        bdev->bd_part = NULL;
-       if (bdev != bdev->bd_contains)
-               __blkdev_put(bdev->bd_contains, mode, 1);
        bdev->bd_contains = NULL;
- out_unlock_bdev:
-       if (claiming)
-               bd_abort_claiming(bdev, claiming, holder);
-       mutex_unlock(&bdev->bd_mutex);
-       disk_unblock_events(disk);
- out_put_whole:
-       if (whole)
-               bdput(whole);
- out_put_disk:
-       put_disk_and_module(disk);
-       if (need_restart)
-               goto restart;
- out:
        return ret;
 }
 
 /**
- * blkdev_get - open a block device
- * @bdev: block_device to open
+ * blkdev_get_by_dev - open a block device by device number
+ * @dev: device number of block device to open
  * @mode: FMODE_* mask
  * @holder: exclusive holder identifier
  *
- * Open @bdev with @mode.  If @mode includes %FMODE_EXCL, @bdev is
- * open with exclusive access.  Specifying %FMODE_EXCL with %NULL
- * @holder is invalid.  Exclusive opens may nest for the same @holder.
+ * Open the block device described by device number @dev. If @mode includes
+ * %FMODE_EXCL, the block device is opened with exclusive access.  Specifying
+ * %FMODE_EXCL with a %NULL @holder is invalid.  Exclusive opens may nest for
+ * the same @holder.
  *
- * On success, the reference count of @bdev is unchanged.  On failure,
- * @bdev is put.
+ * Use this interface ONLY if you really do not have anything better - i.e. when
+ * you are behind a truly sucky interface and all you are given is a device
+ * number.  Everything else should use blkdev_get_by_path().
  *
  * CONTEXT:
  * Might sleep.
  *
  * RETURNS:
- * 0 on success, -errno on failure.
+ * Reference to the block_device on success, ERR_PTR(-errno) on failure.
  */
-int blkdev_get(struct block_device *bdev, fmode_t mode, void *holder)
+struct block_device *blkdev_get_by_dev(dev_t dev, fmode_t mode, void *holder)
 {
-       int res;
+       struct block_device *claiming;
+       bool unblock_events = true;
+       struct block_device *bdev;
+       struct gendisk *disk;
+       int partno;
+       int ret;
 
-       res =__blkdev_get(bdev, mode, holder, 0);
-       if (res)
+       ret = devcgroup_check_permission(DEVCG_DEV_BLOCK,
+                       MAJOR(dev), MINOR(dev),
+                       ((mode & FMODE_READ) ? DEVCG_ACC_READ : 0) |
+                       ((mode & FMODE_WRITE) ? DEVCG_ACC_WRITE : 0));
+       if (ret)
+               return ERR_PTR(ret);
+
+       bdev = bdget(dev);
+       if (!bdev)
+               return ERR_PTR(-ENOMEM);
+
+       /*
+        * If we lost a race with 'disk' being deleted, try again.  See md.c.
+        */
+retry:
+       ret = -ENXIO;
+       disk = bdev_get_gendisk(bdev, &partno);
+       if (!disk)
+               goto bdput;
+
+       if (mode & FMODE_EXCL) {
+               WARN_ON_ONCE(!holder);
+       
+               ret = -ENOMEM;
+               claiming = bdget_disk(disk, 0);
+               if (!claiming)
+                       goto put_disk;
+               ret = bd_prepare_to_claim(bdev, claiming, holder);
+               if (ret)
+                       goto put_claiming;
+       }
+
+       disk_block_events(disk);
+
+       mutex_lock(&bdev->bd_mutex);
+       ret =__blkdev_get(bdev, disk, partno, mode);
+       if (!(mode & FMODE_EXCL)) {
+               ; /* nothing to do here */
+       } else if (ret) {
+               bd_abort_claiming(bdev, claiming, holder);
+       } else {
+               bd_finish_claiming(bdev, claiming, holder);
+
+               /*
+                * Block event polling for write claims if requested.  Any write
+                * holder makes the write_holder state stick until all are
+                * released.  This is good enough and tracking individual
+                * writeable reference is too fragile given the way @mode is
+                * used in blkdev_get/put().
+                */
+               if ((mode & FMODE_WRITE) && !bdev->bd_write_holder &&
+                   (disk->flags & GENHD_FL_BLOCK_EVENTS_ON_EXCL_WRITE)) {
+                       bdev->bd_write_holder = true;
+                       unblock_events = false;
+               }
+       }
+       mutex_unlock(&bdev->bd_mutex);
+
+       if (unblock_events)
+               disk_unblock_events(disk);
+
+put_claiming:
+       if (mode & FMODE_EXCL)
+               bdput(claiming);
+put_disk:
+       if (ret)
+               put_disk_and_module(disk);
+       if (ret == -ERESTARTSYS)
+               goto retry;
+bdput:
+       if (ret) {
                bdput(bdev);
-       return res;
+               return ERR_PTR(ret);
+       }
+       return bdev;
 }
-EXPORT_SYMBOL(blkdev_get);
+EXPORT_SYMBOL(blkdev_get_by_dev);
 
 /**
  * blkdev_get_by_path - open a block device by name
@@ -1649,32 +1550,30 @@ EXPORT_SYMBOL(blkdev_get);
  * @mode: FMODE_* mask
  * @holder: exclusive holder identifier
  *
- * Open the blockdevice described by the device file at @path.  @mode
- * and @holder are identical to blkdev_get().
- *
- * On success, the returned block_device has reference count of one.
+ * Open the block device described by the device file at @path.  If @mode
+ * includes %FMODE_EXCL, the block device is opened with exclusive access.
+ * Specifying %FMODE_EXCL with a %NULL @holder is invalid.  Exclusive opens may
+ * nest for the same @holder.
  *
  * CONTEXT:
  * Might sleep.
  *
  * RETURNS:
- * Pointer to block_device on success, ERR_PTR(-errno) on failure.
+ * Reference to the block_device on success, ERR_PTR(-errno) on failure.
  */
 struct block_device *blkdev_get_by_path(const char *path, fmode_t mode,
                                        void *holder)
 {
        struct block_device *bdev;
-       int err;
-
-       bdev = lookup_bdev(path);
-       if (IS_ERR(bdev))
-               return bdev;
+       dev_t dev;
+       int error;
 
-       err = blkdev_get(bdev, mode, holder);
-       if (err)
-               return ERR_PTR(err);
+       error = lookup_bdev(path, &dev);
+       if (error)
+               return ERR_PTR(error);
 
-       if ((mode & FMODE_WRITE) && bdev_read_only(bdev)) {
+       bdev = blkdev_get_by_dev(dev, mode, holder);
+       if (!IS_ERR(bdev) && (mode & FMODE_WRITE) && bdev_read_only(bdev)) {
                blkdev_put(bdev, mode);
                return ERR_PTR(-EACCES);
        }
@@ -1683,45 +1582,6 @@ struct block_device *blkdev_get_by_path(const char *path, fmode_t mode,
 }
 EXPORT_SYMBOL(blkdev_get_by_path);
 
-/**
- * blkdev_get_by_dev - open a block device by device number
- * @dev: device number of block device to open
- * @mode: FMODE_* mask
- * @holder: exclusive holder identifier
- *
- * Open the blockdevice described by device number @dev.  @mode and
- * @holder are identical to blkdev_get().
- *
- * Use it ONLY if you really do not have anything better - i.e. when
- * you are behind a truly sucky interface and all you are given is a
- * device number.  _Never_ to be used for internal purposes.  If you
- * ever need it - reconsider your API.
- *
- * On success, the returned block_device has reference count of one.
- *
- * CONTEXT:
- * Might sleep.
- *
- * RETURNS:
- * Pointer to block_device on success, ERR_PTR(-errno) on failure.
- */
-struct block_device *blkdev_get_by_dev(dev_t dev, fmode_t mode, void *holder)
-{
-       struct block_device *bdev;
-       int err;
-
-       bdev = bdget(dev);
-       if (!bdev)
-               return ERR_PTR(-ENOMEM);
-
-       err = blkdev_get(bdev, mode, holder);
-       if (err)
-               return ERR_PTR(err);
-
-       return bdev;
-}
-EXPORT_SYMBOL(blkdev_get_by_dev);
-
 static int blkdev_open(struct inode * inode, struct file * filp)
 {
        struct block_device *bdev;
@@ -1743,14 +1603,12 @@ static int blkdev_open(struct inode * inode, struct file * filp)
        if ((filp->f_flags & O_ACCMODE) == 3)
                filp->f_mode |= FMODE_WRITE_IOCTL;
 
-       bdev = bd_acquire(inode);
-       if (bdev == NULL)
-               return -ENOMEM;
-
+       bdev = blkdev_get_by_dev(inode->i_rdev, filp->f_mode, filp);
+       if (IS_ERR(bdev))
+               return PTR_ERR(bdev);
        filp->f_mapping = bdev->bd_inode->i_mapping;
        filp->f_wb_err = filemap_sample_wb_err(filp->f_mapping);
-
-       return blkdev_get(bdev, filp->f_mode, filp);
+       return 0;
 }
 
 static void __blkdev_put(struct block_device *bdev, fmode_t mode, int for_part)
@@ -1776,31 +1634,32 @@ static void __blkdev_put(struct block_device *bdev, fmode_t mode, int for_part)
                WARN_ON_ONCE(bdev->bd_holders);
                sync_blockdev(bdev);
                kill_bdev(bdev);
-
                bdev_write_inode(bdev);
-       }
-       if (bdev->bd_contains == bdev) {
-               if (disk->fops->release)
+
+               if (!bdev_is_partition(bdev) && disk->fops->release)
                        disk->fops->release(disk, mode);
-       }
-       if (!bdev->bd_openers) {
+
                disk_put_part(bdev->bd_part);
                bdev->bd_part = NULL;
                bdev->bd_disk = NULL;
-               if (bdev != bdev->bd_contains)
+               if (bdev_is_partition(bdev))
                        victim = bdev->bd_contains;
                bdev->bd_contains = NULL;
-
-               put_disk_and_module(disk);
+       } else {
+               if (!bdev_is_partition(bdev) && disk->fops->release)
+                       disk->fops->release(disk, mode);
        }
        mutex_unlock(&bdev->bd_mutex);
-       bdput(bdev);
-       if (victim)
+       if (victim) {
                __blkdev_put(victim, mode, 1);
+               bdput(victim);
+       }
 }
 
 void blkdev_put(struct block_device *bdev, fmode_t mode)
 {
+       struct gendisk *disk = bdev->bd_disk;
+
        mutex_lock(&bdev->bd_mutex);
 
        if (mode & FMODE_EXCL) {
@@ -1829,7 +1688,7 @@ void blkdev_put(struct block_device *bdev, fmode_t mode)
                 * unblock evpoll if it was a write holder.
                 */
                if (bdev_free && bdev->bd_write_holder) {
-                       disk_unblock_events(bdev->bd_disk);
+                       disk_unblock_events(disk);
                        bdev->bd_write_holder = false;
                }
        }
@@ -1839,11 +1698,13 @@ void blkdev_put(struct block_device *bdev, fmode_t mode)
         * event.  This is to ensure detection of media removal commanded
         * from userland - e.g. eject(1).
         */
-       disk_flush_events(bdev->bd_disk, DISK_EVENT_MEDIA_CHANGE);
+       disk_flush_events(disk, DISK_EVENT_MEDIA_CHANGE);
 
        mutex_unlock(&bdev->bd_mutex);
 
        __blkdev_put(bdev, mode, 0);
+       bdput(bdev);
+       put_disk_and_module(disk);
 }
 EXPORT_SYMBOL(blkdev_put);
 
@@ -1889,7 +1750,7 @@ ssize_t blkdev_write_iter(struct kiocb *iocb, struct iov_iter *from)
        if (bdev_read_only(I_BDEV(bd_inode)))
                return -EPERM;
 
-       if (IS_SWAPFILE(bd_inode) && !is_hibernate_resume_dev(bd_inode))
+       if (IS_SWAPFILE(bd_inode) && !is_hibernate_resume_dev(bd_inode->i_rdev))
                return -ETXTBSY;
 
        if (!iov_iter_count(from))
@@ -1969,7 +1830,6 @@ static long blkdev_fallocate(struct file *file, int mode, loff_t start,
                             loff_t len)
 {
        struct block_device *bdev = I_BDEV(bdev_file_inode(file));
-       struct address_space *mapping;
        loff_t end = start + len - 1;
        loff_t isize;
        int error;
@@ -1997,8 +1857,9 @@ static long blkdev_fallocate(struct file *file, int mode, loff_t start,
                return -EINVAL;
 
        /* Invalidate the page cache, including dirty pages. */
-       mapping = bdev->bd_inode->i_mapping;
-       truncate_inode_pages_range(mapping, start, end);
+       error = truncate_bdev_range(bdev, file->f_mode, start, end);
+       if (error)
+               return error;
 
        switch (mode) {
        case FALLOC_FL_ZERO_RANGE:
@@ -2025,7 +1886,7 @@ static long blkdev_fallocate(struct file *file, int mode, loff_t start,
         * the caller will be given -EBUSY.  The third argument is
         * inclusive, so the rounding here is safe.
         */
-       return invalidate_inode_pages2_range(mapping,
+       return invalidate_inode_pages2_range(bdev->bd_inode->i_mapping,
                                             start >> PAGE_SHIFT,
                                             end >> PAGE_SHIFT);
 }
@@ -2056,37 +1917,32 @@ const struct file_operations def_blk_fops = {
  * namespace if possible and return it.  Return ERR_PTR(error)
  * otherwise.
  */
-struct block_device *lookup_bdev(const char *pathname)
+int lookup_bdev(const char *pathname, dev_t *dev)
 {
-       struct block_device *bdev;
        struct inode *inode;
        struct path path;
        int error;
 
        if (!pathname || !*pathname)
-               return ERR_PTR(-EINVAL);
+               return -EINVAL;
 
        error = kern_path(pathname, LOOKUP_FOLLOW, &path);
        if (error)
-               return ERR_PTR(error);
+               return error;
 
        inode = d_backing_inode(path.dentry);
        error = -ENOTBLK;
        if (!S_ISBLK(inode->i_mode))
-               goto fail;
+               goto out_path_put;
        error = -EACCES;
        if (!may_open_dev(&path))
-               goto fail;
-       error = -ENOMEM;
-       bdev = bd_acquire(inode);
-       if (!bdev)
-               goto fail;
-out:
+               goto out_path_put;
+
+       *dev = inode->i_rdev;
+       error = 0;
+out_path_put:
        path_put(&path);
-       return bdev;
-fail:
-       bdev = ERR_PTR(error);
-       goto out;
+       return error;
 }
 EXPORT_SYMBOL(lookup_bdev);