md: restart recovery cleanly after device failure. (dfc70645) · Commits · 戴 / test

drivers/md/md.c

+11 −11

Original line number	Diff line number	Diff line
		@@ -5434,7 +5434,7 @@ void md_done_sync(mddev_t *mddev, int blocks, int ok)
		atomic_sub(blocks, &mddev->recovery_active);
		wake_up(&mddev->recovery_wait);
		if (!ok) {
		set_bit(MD_RECOVERY_ERR, &mddev->recovery);
		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
		md_wakeup_thread(mddev->thread);
		// stop recovery, signal do_sync ....
		}
		@@ -5690,7 +5690,7 @@ void md_do_sync(mddev_t *mddev)
		sectors = mddev->pers->sync_request(mddev, j, &skipped,
		currspeed < speed_min(mddev));
		if (sectors == 0) {
		set_bit(MD_RECOVERY_ERR, &mddev->recovery);
		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
		goto out;
		}

		@@ -5713,8 +5713,7 @@ void md_do_sync(mddev_t *mddev)

		last_check = io_sectors;

		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery) \|\|
		test_bit(MD_RECOVERY_ERR, &mddev->recovery))
		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
		break;

		repeat:
		@@ -5768,8 +5767,7 @@ void md_do_sync(mddev_t *mddev)
		/* tell personality that we are finished */
		mddev->pers->sync_request(mddev, max_sectors, &skipped, 1);

		if (!test_bit(MD_RECOVERY_ERR, &mddev->recovery) &&
		!test_bit(MD_RECOVERY_CHECK, &mddev->recovery) &&
		if (!test_bit(MD_RECOVERY_CHECK, &mddev->recovery) &&
		mddev->curr_resync > 2) {
		if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
		@@ -5838,7 +5836,10 @@ static int remove_and_add_spares(mddev_t *mddev)
		}

		if (mddev->degraded) {
		rdev_for_each(rdev, rtmp, mddev)
		rdev_for_each(rdev, rtmp, mddev) {
		if (rdev->raid_disk >= 0 &&
		!test_bit(In_sync, &rdev->flags))
		spares++;
		if (rdev->raid_disk < 0
		&& !test_bit(Faulty, &rdev->flags)) {
		rdev->recovery_offset = 0;
		@@ -5857,6 +5858,7 @@ static int remove_and_add_spares(mddev_t *mddev)
		break;
		}
		}
		}
		return spares;
		}
		/*
		@@ -5869,7 +5871,7 @@ static int remove_and_add_spares(mddev_t *mddev)
		* to do that as needed.
		* When it is determined that resync is needed, we set MD_RECOVERY_RUNNING in
		* "->recovery" and create a thread at ->sync_thread.
		* When the thread finishes it sets MD_RECOVERY_DONE (and might set MD_RECOVERY_ERR)
		* When the thread finishes it sets MD_RECOVERY_DONE
		* and wakeups up this thread which will reap the thread and finish up.
		* This thread also removes any faulty devices (with nr_pending == 0).
		*
		@@ -5944,8 +5946,7 @@ void md_check_recovery(mddev_t *mddev)
		/* resync has finished, collect result */
		md_unregister_thread(mddev->sync_thread);
		mddev->sync_thread = NULL;
		if (!test_bit(MD_RECOVERY_ERR, &mddev->recovery) &&
		!test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
		if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
		/* success...*/
		/* activate any spares */
		mddev->pers->spare_active(mddev);
		@@ -5969,7 +5970,6 @@ void md_check_recovery(mddev_t *mddev)
		* might be left set
		*/
		clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
		clear_bit(MD_RECOVERY_ERR, &mddev->recovery);
		clear_bit(MD_RECOVERY_INTR, &mddev->recovery);
		clear_bit(MD_RECOVERY_DONE, &mddev->recovery);

drivers/md/multipath.c

+2 −1

Original line number	Diff line number	Diff line
		@@ -327,7 +327,8 @@ static int multipath_remove_disk(mddev_t *mddev, int number)
		if (rdev) {
		if (test_bit(In_sync, &rdev->flags) \|\|
		atomic_read(&rdev->nr_pending)) {
		printk(KERN_ERR "hot-remove-disk, slot %d is identified" " but is still operational!\n", number);
		printk(KERN_ERR "hot-remove-disk, slot %d is identified"
		" but is still operational!\n", number);
		err = -EBUSY;
		goto abort;
		}

drivers/md/raid1.c

+9 −1

Original line number	Diff line number	Diff line
		@@ -1027,7 +1027,7 @@ static void error(mddev_t mddev, mdk_rdev_t rdev)
		/*
		* if recovery is running, make sure it aborts.
		*/
		set_bit(MD_RECOVERY_ERR, &mddev->recovery);
		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
		} else
		set_bit(Faulty, &rdev->flags);
		set_bit(MD_CHANGE_DEVS, &mddev->flags);
		@@ -1148,6 +1148,14 @@ static int raid1_remove_disk(mddev_t *mddev, int number)
		err = -EBUSY;
		goto abort;
		}
		/* Only remove non-faulty devices is recovery
		* is not possible.
		*/
		if (!test_bit(Faulty, &rdev->flags) &&
		mddev->degraded < conf->raid_disks) {
		err = -EBUSY;
		goto abort;
		}
		p->rdev = NULL;
		synchronize_rcu();
		if (atomic_read(&rdev->nr_pending)) {

drivers/md/raid10.c

+12 −2

Original line number	Diff line number	Diff line
		@@ -1020,7 +1020,7 @@ static void error(mddev_t mddev, mdk_rdev_t rdev)
		/*
		* if recovery is running, make sure it aborts.
		*/
		set_bit(MD_RECOVERY_ERR, &mddev->recovery);
		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
		}
		set_bit(Faulty, &rdev->flags);
		set_bit(MD_CHANGE_DEVS, &mddev->flags);
		@@ -1171,6 +1171,14 @@ static int raid10_remove_disk(mddev_t *mddev, int number)
		err = -EBUSY;
		goto abort;
		}
		/* Only remove faulty devices in recovery
		* is not possible.
		*/
		if (!test_bit(Faulty, &rdev->flags) &&
		enough(conf)) {
		err = -EBUSY;
		goto abort;
		}
		p->rdev = NULL;
		synchronize_rcu();
		if (atomic_read(&rdev->nr_pending)) {
		@@ -1237,6 +1245,7 @@ static void end_sync_write(struct bio *bio, int error)

		if (!uptodate)
		md_error(mddev, conf->mirrors[d].rdev);

		update_head_pos(i, r10_bio);

		while (atomic_dec_and_test(&r10_bio->remaining)) {
		@@ -1844,7 +1853,8 @@ static sector_t sync_request(mddev_t mddev, sector_t sector_nr, int skipped, i
		if (rb2)
		atomic_dec(&rb2->remaining);
		r10_bio = rb2;
		if (!test_and_set_bit(MD_RECOVERY_ERR, &mddev->recovery))
		if (!test_and_set_bit(MD_RECOVERY_INTR,
		&mddev->recovery))
		printk(KERN_INFO "raid10: %s: insufficient working devices for recovery.\n",
		mdname(mddev));
		break;

drivers/md/raid5.c

+9 −1

Original line number	Diff line number	Diff line
		@@ -1268,7 +1268,7 @@ static void error(mddev_t mddev, mdk_rdev_t rdev)
		/*
		* if recovery was running, make sure it aborts.
		*/
		set_bit(MD_RECOVERY_ERR, &mddev->recovery);
		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
		}
		set_bit(Faulty, &rdev->flags);
		printk (KERN_ALERT
		@@ -4574,6 +4574,14 @@ static int raid5_remove_disk(mddev_t *mddev, int number)
		err = -EBUSY;
		goto abort;
		}
		/* Only remove non-faulty devices if recovery
		* isn't possible.
		*/
		if (!test_bit(Faulty, &rdev->flags) &&
		mddev->degraded <= conf->max_degraded) {
		err = -EBUSY;
		goto abort;
		}
		p->rdev = NULL;
		synchronize_rcu();
		if (atomic_read(&rdev->nr_pending)) {

Admin message