Spaces:

bellmake
/

SAM3-video-segmentation-tracking

Runtime error

App Files Files Community

SAM3-video-segmentation-tracking / sam3 /train /transforms /basic_for_api.py

bellmake

SAM3 Video Segmentation - Clean deployment

14114e8 7 days ago

raw

history blame contribute delete

53.8 kB

	# Copyright (c) Meta Platforms, Inc. and affiliates. All Rights Reserved

	"""
	Transforms and data augmentation for both image + bbox.
	"""

	import logging

	import numbers
	import random
	from collections.abc import Sequence
	from typing import Iterable

	import torch
	import torchvision.transforms as T
	import torchvision.transforms.functional as F
	import torchvision.transforms.v2.functional as Fv2

	from PIL import Image as PILImage

	from sam3.model.box_ops import box_xyxy_to_cxcywh, masks_to_boxes
	from sam3.train.data.sam3_image_dataset import Datapoint
	from torchvision.transforms import InterpolationMode


	def crop(
	datapoint,
	index,
	region,
	v2=False,
	check_validity=True,
	check_input_validity=True,
	recompute_box_from_mask=False,
	):
	if v2:
	rtop, rleft, rheight, rwidth = (int(round(r)) for r in region)
	datapoint.images[index].data = Fv2.crop(
	datapoint.images[index].data,
	top=rtop,
	left=rleft,
	height=rheight,
	width=rwidth,
	)
	else:
	datapoint.images[index].data = F.crop(datapoint.images[index].data, *region)

	i, j, h, w = region

	# should we do something wrt the original size?
	datapoint.images[index].size = (h, w)

	for obj in datapoint.images[index].objects:
	# crop the mask
	if obj.segment is not None:
	obj.segment = F.crop(obj.segment, int(i), int(j), int(h), int(w))

	# crop the bounding box
	if recompute_box_from_mask and obj.segment is not None:
	# here the boxes are still in XYXY format with absolute coordinates (they are
	# converted to CxCyWH with relative coordinates in basic_for_api.NormalizeAPI)
	obj.bbox, obj.area = get_bbox_xyxy_abs_coords_from_mask(obj.segment)
	else:
	if recompute_box_from_mask and obj.segment is None and obj.area > 0:
	logging.warning(
	"Cannot recompute bounding box from mask since `obj.segment` is None. "
	"Falling back to directly cropping from the input bounding box."
	)
	boxes = obj.bbox.view(1, 4)
	max_size = torch.as_tensor([w, h], dtype=torch.float32)
	cropped_boxes = boxes - torch.as_tensor([j, i, j, i], dtype=torch.float32)
	cropped_boxes = torch.min(cropped_boxes.reshape(-1, 2, 2), max_size)
	cropped_boxes = cropped_boxes.clamp(min=0)
	obj.area = (cropped_boxes[:, 1, :] - cropped_boxes[:, 0, :]).prod(dim=1)
	obj.bbox = cropped_boxes.reshape(-1, 4)

	for query in datapoint.find_queries:
	if query.semantic_target is not None:
	query.semantic_target = F.crop(
	query.semantic_target, int(i), int(j), int(h), int(w)
	)
	if query.image_id == index and query.input_bbox is not None:
	boxes = query.input_bbox
	max_size = torch.as_tensor([w, h], dtype=torch.float32)
	cropped_boxes = boxes - torch.as_tensor([j, i, j, i], dtype=torch.float32)
	cropped_boxes = torch.min(cropped_boxes.reshape(-1, 2, 2), max_size)
	cropped_boxes = cropped_boxes.clamp(min=0)

	# cur_area = (cropped_boxes[:, 1, :] - cropped_boxes[:, 0, :]).prod(dim=1)
	# if check_input_validity:
	# assert (
	# (cur_area > 0).all().item()
	# ), "Some input box got cropped out by the crop transform"

	query.input_bbox = cropped_boxes.reshape(-1, 4)
	if query.image_id == index and query.input_points is not None:
	print(
	"Warning! Point cropping with this function may lead to unexpected results"
	)
	points = query.input_points
	# Unlike right-lower box edges, which are exclusive, the
	# point must be in [0, length-1], hence the -1
	max_size = torch.as_tensor([w, h], dtype=torch.float32) - 1
	cropped_points = points - torch.as_tensor([j, i, 0], dtype=torch.float32)
	cropped_points[:, :, :2] = torch.min(cropped_points[:, :, :2], max_size)
	cropped_points[:, :, :2] = cropped_points[:, :, :2].clamp(min=0)
	query.input_points = cropped_points

	if check_validity:
	# Check that all boxes are still valid
	for obj in datapoint.images[index].objects:
	assert obj.area > 0, "Box {} has no area".format(obj.bbox)

	return datapoint


	def hflip(datapoint, index):
	datapoint.images[index].data = F.hflip(datapoint.images[index].data)

	w, h = datapoint.images[index].data.size
	for obj in datapoint.images[index].objects:
	boxes = obj.bbox.view(1, 4)
	boxes = boxes[:, [2, 1, 0, 3]] * torch.as_tensor(
	[-1, 1, -1, 1]
	) + torch.as_tensor([w, 0, w, 0])
	obj.bbox = boxes
	if obj.segment is not None:
	obj.segment = F.hflip(obj.segment)

	for query in datapoint.find_queries:
	if query.semantic_target is not None:
	query.semantic_target = F.hflip(query.semantic_target)
	if query.image_id == index and query.input_bbox is not None:
	boxes = query.input_bbox
	boxes = boxes[:, [2, 1, 0, 3]] * torch.as_tensor(
	[-1, 1, -1, 1]
	) + torch.as_tensor([w, 0, w, 0])
	query.input_bbox = boxes
	if query.image_id == index and query.input_points is not None:
	points = query.input_points
	points = points * torch.as_tensor([-1, 1, 1]) + torch.as_tensor([w, 0, 0])
	query.input_points = points
	return datapoint


	def get_size_with_aspect_ratio(image_size, size, max_size=None):
	w, h = image_size
	if max_size is not None:
	min_original_size = float(min((w, h)))
	max_original_size = float(max((w, h)))
	if max_original_size / min_original_size * size > max_size:
	size = max_size * min_original_size / max_original_size

	if (w <= h and w == size) or (h <= w and h == size):
	return (h, w)

	if w < h:
	ow = int(round(size))
	oh = int(round(size * h / w))
	else:
	oh = int(round(size))
	ow = int(round(size * w / h))

	return (oh, ow)


	def resize(datapoint, index, size, max_size=None, square=False, v2=False):
	# size can be min_size (scalar) or (w, h) tuple

	def get_size(image_size, size, max_size=None):
	if isinstance(size, (list, tuple)):
	return size[::-1]
	else:
	return get_size_with_aspect_ratio(image_size, size, max_size)

	if square:
	size = size, size
	else:
	cur_size = (
	datapoint.images[index].data.size()[-2:][::-1]
	if v2
	else datapoint.images[index].data.size
	)
	size = get_size(cur_size, size, max_size)

	old_size = (
	datapoint.images[index].data.size()[-2:][::-1]
	if v2
	else datapoint.images[index].data.size
	)
	if v2:
	datapoint.images[index].data = Fv2.resize(
	datapoint.images[index].data, size, antialias=True
	)
	else:
	datapoint.images[index].data = F.resize(datapoint.images[index].data, size)

	new_size = (
	datapoint.images[index].data.size()[-2:][::-1]
	if v2
	else datapoint.images[index].data.size
	)
	ratios = tuple(float(s) / float(s_orig) for s, s_orig in zip(new_size, old_size))
	ratio_width, ratio_height = ratios

	for obj in datapoint.images[index].objects:
	boxes = obj.bbox.view(1, 4)
	scaled_boxes = boxes * torch.as_tensor(
	[ratio_width, ratio_height, ratio_width, ratio_height], dtype=torch.float32
	)
	obj.bbox = scaled_boxes
	obj.area = ratio_width ratio_height
	if obj.segment is not None:
	obj.segment = F.resize(obj.segment[None, None], size).squeeze()

	for query in datapoint.find_queries:
	if query.semantic_target is not None:
	query.semantic_target = F.resize(
	query.semantic_target[None, None], size
	).squeeze()
	if query.image_id == index and query.input_bbox is not None:
	boxes = query.input_bbox
	scaled_boxes = boxes * torch.as_tensor(
	[ratio_width, ratio_height, ratio_width, ratio_height],
	dtype=torch.float32,
	)
	query.input_bbox = scaled_boxes
	if query.image_id == index and query.input_points is not None:
	points = query.input_points
	scaled_points = points * torch.as_tensor(
	[ratio_width, ratio_height, 1],
	dtype=torch.float32,
	)
	query.input_points = scaled_points

	h, w = size
	datapoint.images[index].size = (h, w)
	return datapoint


	def pad(datapoint, index, padding, v2=False):
	old_h, old_w = datapoint.images[index].size
	h, w = old_h, old_w
	if len(padding) == 2:
	# assumes that we only pad on the bottom right corners
	if v2:
	datapoint.images[index].data = Fv2.pad(
	datapoint.images[index].data, (0, 0, padding[0], padding[1])
	)
	else:
	datapoint.images[index].data = F.pad(
	datapoint.images[index].data, (0, 0, padding[0], padding[1])
	)
	h += padding[1]
	w += padding[0]
	else:
	if v2:
	# left, top, right, bottom
	datapoint.images[index].data = Fv2.pad(
	datapoint.images[index].data,
	(padding[0], padding[1], padding[2], padding[3]),
	)
	else:
	# left, top, right, bottom
	datapoint.images[index].data = F.pad(
	datapoint.images[index].data,
	(padding[0], padding[1], padding[2], padding[3]),
	)
	h += padding[1] + padding[3]
	w += padding[0] + padding[2]

	datapoint.images[index].size = (h, w)

	for obj in datapoint.images[index].objects:
	if len(padding) != 2:
	obj.bbox += torch.as_tensor(
	[padding[0], padding[1], padding[0], padding[1]], dtype=torch.float32
	)
	if obj.segment is not None:
	if v2:
	if len(padding) == 2:
	obj.segment = Fv2.pad(
	obj.segment[None], (0, 0, padding[0], padding[1])
	).squeeze(0)
	else:
	obj.segment = Fv2.pad(obj.segment[None], tuple(padding)).squeeze(0)
	else:
	if len(padding) == 2:
	obj.segment = F.pad(obj.segment, (0, 0, padding[0], padding[1]))
	else:
	obj.segment = F.pad(obj.segment, tuple(padding))

	for query in datapoint.find_queries:
	if query.semantic_target is not None:
	if v2:
	if len(padding) == 2:
	query.semantic_target = Fv2.pad(
	query.semantic_target[None, None],
	(0, 0, padding[0], padding[1]),
	).squeeze()
	else:
	query.semantic_target = Fv2.pad(
	query.semantic_target[None, None], tuple(padding)
	).squeeze()
	else:
	if len(padding) == 2:
	query.semantic_target = F.pad(
	query.semantic_target[None, None],
	(0, 0, padding[0], padding[1]),
	).squeeze()
	else:
	query.semantic_target = F.pad(
	query.semantic_target[None, None], tuple(padding)
	).squeeze()
	if query.image_id == index and query.input_bbox is not None:
	if len(padding) != 2:
	query.input_bbox += torch.as_tensor(
	[padding[0], padding[1], padding[0], padding[1]],
	dtype=torch.float32,
	)
	if query.image_id == index and query.input_points is not None:
	if len(padding) != 2:
	query.input_points += torch.as_tensor(
	[padding[0], padding[1], 0], dtype=torch.float32
	)

	return datapoint


	class RandomSizeCropAPI:
	def __init__(
	self,
	min_size: int,
	max_size: int,
	respect_boxes: bool,
	consistent_transform: bool,
	respect_input_boxes: bool = True,
	v2: bool = False,
	recompute_box_from_mask: bool = False,
	):
	self.min_size = min_size
	self.max_size = max_size
	self.respect_boxes = respect_boxes # if True we can't crop a box out
	self.respect_input_boxes = respect_input_boxes
	self.consistent_transform = consistent_transform
	self.v2 = v2
	self.recompute_box_from_mask = recompute_box_from_mask

	def _sample_no_respect_boxes(self, img):
	w = random.randint(self.min_size, min(img.width, self.max_size))
	h = random.randint(self.min_size, min(img.height, self.max_size))
	return T.RandomCrop.get_params(img, (h, w))

	def _sample_respect_boxes(self, img, boxes, points, min_box_size=10.0):
	"""
	Assure that no box or point is dropped via cropping, though portions
	of boxes may be removed.
	"""
	if len(boxes) == 0 and len(points) == 0:
	return self._sample_no_respect_boxes(img)

	if self.v2:
	img_height, img_width = img.size()[-2:]
	else:
	img_width, img_height = img.size

	minW, minH, maxW, maxH = (
	min(img_width, self.min_size),
	min(img_height, self.min_size),
	min(img_width, self.max_size),
	min(img_height, self.max_size),
	)

	# The crop box must extend one pixel beyond points to the bottom/right
	# to assure the exclusive box contains the points.
	minX = (
	torch.cat([boxes[:, 0] + min_box_size, points[:, 0] + 1], dim=0)
	.max()
	.item()
	)
	minY = (
	torch.cat([boxes[:, 1] + min_box_size, points[:, 1] + 1], dim=0)
	.max()
	.item()
	)
	minX = min(img_width, minX)
	minY = min(img_height, minY)
	maxX = torch.cat([boxes[:, 2] - min_box_size, points[:, 0]], dim=0).min().item()
	maxY = torch.cat([boxes[:, 3] - min_box_size, points[:, 1]], dim=0).min().item()
	maxX = max(0.0, maxX)
	maxY = max(0.0, maxY)
	minW = max(minW, minX - maxX)
	minH = max(minH, minY - maxY)
	w = random.uniform(minW, max(minW, maxW))
	h = random.uniform(minH, max(minH, maxH))
	if minX > maxX:
	# i = random.uniform(max(0, minX - w + 1), max(maxX, max(0, minX - w + 1)))
	i = random.uniform(max(0, minX - w), max(maxX, max(0, minX - w)))
	else:
	i = random.uniform(
	max(0, minX - w + 1), max(maxX - 1, max(0, minX - w + 1))
	)
	if minY > maxY:
	# j = random.uniform(max(0, minY - h + 1), max(maxY, max(0, minY - h + 1)))
	j = random.uniform(max(0, minY - h), max(maxY, max(0, minY - h)))
	else:
	j = random.uniform(
	max(0, minY - h + 1), max(maxY - 1, max(0, minY - h + 1))
	)

	return [j, i, h, w]

	def __call__(self, datapoint, **kwargs):
	if self.respect_boxes or self.respect_input_boxes:
	if self.consistent_transform:
	# Check that all the images are the same size
	w, h = datapoint.images[0].data.size
	for img in datapoint.images:
	assert img.data.size == (w, h)

	all_boxes = []
	# Getting all boxes in all the images
	if self.respect_boxes:
	all_boxes += [
	obj.bbox.view(-1, 4)
	for img in datapoint.images
	for obj in img.objects
	]
	# Get all the boxes in the find queries
	if self.respect_input_boxes:
	all_boxes += [
	q.input_bbox.view(-1, 4)
	for q in datapoint.find_queries
	if q.input_bbox is not None
	]
	if all_boxes:
	all_boxes = torch.cat(all_boxes, 0)
	else:
	all_boxes = torch.empty(0, 4)

	all_points = [
	q.input_points.view(-1, 3)[:, :2]
	for q in datapoint.find_queries
	if q.input_points is not None
	]
	if all_points:
	all_points = torch.cat(all_points, 0)
	else:
	all_points = torch.empty(0, 2)

	crop_param = self._sample_respect_boxes(
	datapoint.images[0].data, all_boxes, all_points
	)
	for i in range(len(datapoint.images)):
	datapoint = crop(
	datapoint,
	i,
	crop_param,
	v2=self.v2,
	check_validity=self.respect_boxes,
	check_input_validity=self.respect_input_boxes,
	recompute_box_from_mask=self.recompute_box_from_mask,
	)
	return datapoint
	else:
	for i in range(len(datapoint.images)):
	all_boxes = []
	# Get all boxes in the current image
	if self.respect_boxes:
	all_boxes += [
	obj.bbox.view(-1, 4) for obj in datapoint.images[i].objects
	]
	# Get all the boxes in the find queries that correspond to this image
	if self.respect_input_boxes:
	all_boxes += [
	q.input_bbox.view(-1, 4)
	for q in datapoint.find_queries
	if q.image_id == i and q.input_bbox is not None
	]
	if all_boxes:
	all_boxes = torch.cat(all_boxes, 0)
	else:
	all_boxes = torch.empty(0, 4)

	all_points = [
	q.input_points.view(-1, 3)[:, :2]
	for q in datapoint.find_queries
	if q.input_points is not None
	]
	if all_points:
	all_points = torch.cat(all_points, 0)
	else:
	all_points = torch.empty(0, 2)

	crop_param = self._sample_respect_boxes(
	datapoint.images[i].data, all_boxes, all_points
	)
	datapoint = crop(
	datapoint,
	i,
	crop_param,
	v2=self.v2,
	check_validity=self.respect_boxes,
	check_input_validity=self.respect_input_boxes,
	recompute_box_from_mask=self.recompute_box_from_mask,
	)
	return datapoint
	else:
	if self.consistent_transform:
	# Check that all the images are the same size
	w, h = datapoint.images[0].data.size
	for img in datapoint.images:
	assert img.data.size == (w, h)

	crop_param = self._sample_no_respect_boxes(datapoint.images[0].data)
	for i in range(len(datapoint.images)):
	datapoint = crop(
	datapoint,
	i,
	crop_param,
	v2=self.v2,
	check_validity=self.respect_boxes,
	check_input_validity=self.respect_input_boxes,
	recompute_box_from_mask=self.recompute_box_from_mask,
	)
	return datapoint
	else:
	for i in range(len(datapoint.images)):
	crop_param = self._sample_no_respect_boxes(datapoint.images[i].data)
	datapoint = crop(
	datapoint,
	i,
	crop_param,
	v2=self.v2,
	check_validity=self.respect_boxes,
	check_input_validity=self.respect_input_boxes,
	recompute_box_from_mask=self.recompute_box_from_mask,
	)
	return datapoint


	class CenterCropAPI:
	def __init__(self, size, consistent_transform, recompute_box_from_mask=False):
	self.size = size
	self.consistent_transform = consistent_transform
	self.recompute_box_from_mask = recompute_box_from_mask

	def _sample_crop(self, image_width, image_height):
	crop_height, crop_width = self.size
	crop_top = int(round((image_height - crop_height) / 2.0))
	crop_left = int(round((image_width - crop_width) / 2.0))
	return crop_top, crop_left, crop_height, crop_width

	def __call__(self, datapoint, **kwargs):
	if self.consistent_transform:
	# Check that all the images are the same size
	w, h = datapoint.images[0].data.size
	for img in datapoint.images:
	assert img.size == (w, h)

	crop_top, crop_left, crop_height, crop_width = self._sample_crop(w, h)
	for i in range(len(datapoint.images)):
	datapoint = crop(
	datapoint,
	i,
	(crop_top, crop_left, crop_height, crop_width),
	recompute_box_from_mask=self.recompute_box_from_mask,
	)
	return datapoint

	for i in range(len(datapoint.images)):
	w, h = datapoint.images[i].data.size
	crop_top, crop_left, crop_height, crop_width = self._sample_crop(w, h)
	datapoint = crop(
	datapoint,
	i,
	(crop_top, crop_left, crop_height, crop_width),
	recompute_box_from_mask=self.recompute_box_from_mask,
	)

	return datapoint


	class RandomHorizontalFlip:
	def __init__(self, consistent_transform, p=0.5):
	self.p = p
	self.consistent_transform = consistent_transform

	def __call__(self, datapoint, **kwargs):
	if self.consistent_transform:
	if random.random() < self.p:
	for i in range(len(datapoint.images)):
	datapoint = hflip(datapoint, i)
	return datapoint
	for i in range(len(datapoint.images)):
	if random.random() < self.p:
	datapoint = hflip(datapoint, i)
	return datapoint


	class RandomResizeAPI:
	def __init__(
	self, sizes, consistent_transform, max_size=None, square=False, v2=False
	):
	if isinstance(sizes, int):
	sizes = (sizes,)
	assert isinstance(sizes, Iterable)
	self.sizes = list(sizes)
	self.max_size = max_size
	self.square = square
	self.consistent_transform = consistent_transform
	self.v2 = v2

	def __call__(self, datapoint, **kwargs):
	if self.consistent_transform:
	size = random.choice(self.sizes)
	for i in range(len(datapoint.images)):
	datapoint = resize(
	datapoint, i, size, self.max_size, square=self.square, v2=self.v2
	)
	return datapoint
	for i in range(len(datapoint.images)):
	size = random.choice(self.sizes)
	datapoint = resize(
	datapoint, i, size, self.max_size, square=self.square, v2=self.v2
	)
	return datapoint


	class ScheduledRandomResizeAPI(RandomResizeAPI):
	def __init__(self, size_scheduler, consistent_transform, square=False):
	self.size_scheduler = size_scheduler
	# Just a meaningful init value for super
	params = self.size_scheduler(epoch_num=0)
	sizes, max_size = params["sizes"], params["max_size"]
	super().__init__(sizes, consistent_transform, max_size=max_size, square=square)

	def __call__(self, datapoint, **kwargs):
	assert "epoch" in kwargs, "Param scheduler needs to know the current epoch"
	params = self.size_scheduler(kwargs["epoch"])
	sizes, max_size = params["sizes"], params["max_size"]
	self.sizes = sizes
	self.max_size = max_size
	datapoint = super(ScheduledRandomResizeAPI, self).__call__(datapoint, **kwargs)
	return datapoint


	class RandomPadAPI:
	def __init__(self, max_pad, consistent_transform):
	self.max_pad = max_pad
	self.consistent_transform = consistent_transform

	def _sample_pad(self):
	pad_x = random.randint(0, self.max_pad)
	pad_y = random.randint(0, self.max_pad)
	return pad_x, pad_y

	def __call__(self, datapoint, **kwargs):
	if self.consistent_transform:
	pad_x, pad_y = self._sample_pad()
	for i in range(len(datapoint.images)):
	datapoint = pad(datapoint, i, (pad_x, pad_y))
	return datapoint

	for i in range(len(datapoint.images)):
	pad_x, pad_y = self._sample_pad()
	datapoint = pad(datapoint, i, (pad_x, pad_y))
	return datapoint


	class PadToSizeAPI:
	def __init__(self, size, consistent_transform, bottom_right=False, v2=False):
	self.size = size
	self.consistent_transform = consistent_transform
	self.v2 = v2
	self.bottom_right = bottom_right

	def _sample_pad(self, w, h):
	pad_x = self.size - w
	pad_y = self.size - h
	assert pad_x >= 0 and pad_y >= 0
	pad_left = random.randint(0, pad_x)
	pad_right = pad_x - pad_left
	pad_top = random.randint(0, pad_y)
	pad_bottom = pad_y - pad_top
	return pad_left, pad_top, pad_right, pad_bottom

	def __call__(self, datapoint, **kwargs):
	if self.consistent_transform:
	# Check that all the images are the same size
	w, h = datapoint.images[0].data.size
	for img in datapoint.images:
	assert img.size == (w, h)
	if self.bottom_right:
	pad_right = self.size - w
	pad_bottom = self.size - h
	padding = (pad_right, pad_bottom)
	else:
	padding = self._sample_pad(w, h)
	for i in range(len(datapoint.images)):
	datapoint = pad(datapoint, i, padding, v2=self.v2)
	return datapoint

	for i, img in enumerate(datapoint.images):
	w, h = img.data.size
	if self.bottom_right:
	pad_right = self.size - w
	pad_bottom = self.size - h
	padding = (pad_right, pad_bottom)
	else:
	padding = self._sample_pad(w, h)
	datapoint = pad(datapoint, i, padding, v2=self.v2)
	return datapoint


	class RandomMosaicVideoAPI:
	def __init__(self, prob=0.15, grid_h=2, grid_w=2, use_random_hflip=False):
	self.prob = prob
	self.grid_h = grid_h
	self.grid_w = grid_w
	self.use_random_hflip = use_random_hflip

	def __call__(self, datapoint, **kwargs):
	if random.random() > self.prob:
	return datapoint

	# select a random location to place the target mask in the mosaic
	target_grid_y = random.randint(0, self.grid_h - 1)
	target_grid_x = random.randint(0, self.grid_w - 1)
	# whether to flip each grid in the mosaic horizontally
	if self.use_random_hflip:
	should_hflip = torch.rand(self.grid_h, self.grid_w) < 0.5
	else:
	should_hflip = torch.zeros(self.grid_h, self.grid_w, dtype=torch.bool)
	for i in range(len(datapoint.images)):
	datapoint = random_mosaic_frame(
	datapoint,
	i,
	grid_h=self.grid_h,
	grid_w=self.grid_w,
	target_grid_y=target_grid_y,
	target_grid_x=target_grid_x,
	should_hflip=should_hflip,
	)

	return datapoint


	def random_mosaic_frame(
	datapoint,
	index,
	grid_h,
	grid_w,
	target_grid_y,
	target_grid_x,
	should_hflip,
	):
	# Step 1: downsize the images and paste them into a mosaic
	image_data = datapoint.images[index].data
	is_pil = isinstance(image_data, PILImage.Image)
	if is_pil:
	H_im = image_data.height
	W_im = image_data.width
	image_data_output = PILImage.new("RGB", (W_im, H_im))
	else:
	H_im = image_data.size(-2)
	W_im = image_data.size(-1)
	image_data_output = torch.zeros_like(image_data)

	downsize_cache = {}
	for grid_y in range(grid_h):
	for grid_x in range(grid_w):
	y_offset_b = grid_y * H_im // grid_h
	x_offset_b = grid_x * W_im // grid_w
	y_offset_e = (grid_y + 1) * H_im // grid_h
	x_offset_e = (grid_x + 1) * W_im // grid_w
	H_im_downsize = y_offset_e - y_offset_b
	W_im_downsize = x_offset_e - x_offset_b

	if (H_im_downsize, W_im_downsize) in downsize_cache:
	image_data_downsize = downsize_cache[(H_im_downsize, W_im_downsize)]
	else:
	image_data_downsize = F.resize(
	image_data,
	size=(H_im_downsize, W_im_downsize),
	interpolation=InterpolationMode.BILINEAR,
	antialias=True, # antialiasing for downsizing
	)
	downsize_cache[(H_im_downsize, W_im_downsize)] = image_data_downsize
	if should_hflip[grid_y, grid_x].item():
	image_data_downsize = F.hflip(image_data_downsize)

	if is_pil:
	image_data_output.paste(image_data_downsize, (x_offset_b, y_offset_b))
	else:
	image_data_output[:, y_offset_b:y_offset_e, x_offset_b:x_offset_e] = (
	image_data_downsize
	)

	datapoint.images[index].data = image_data_output

	# Step 2: downsize the masks and paste them into the target grid of the mosaic
	# (note that we don't scale input/target boxes since they are not used in TA)
	for obj in datapoint.images[index].objects:
	if obj.segment is None:
	continue
	assert obj.segment.shape == (H_im, W_im) and obj.segment.dtype == torch.uint8
	segment_output = torch.zeros_like(obj.segment)

	target_y_offset_b = target_grid_y * H_im // grid_h
	target_x_offset_b = target_grid_x * W_im // grid_w
	target_y_offset_e = (target_grid_y + 1) * H_im // grid_h
	target_x_offset_e = (target_grid_x + 1) * W_im // grid_w
	target_H_im_downsize = target_y_offset_e - target_y_offset_b
	target_W_im_downsize = target_x_offset_e - target_x_offset_b

	segment_downsize = F.resize(
	obj.segment[None, None],
	size=(target_H_im_downsize, target_W_im_downsize),
	interpolation=InterpolationMode.BILINEAR,
	antialias=True, # antialiasing for downsizing
	)[0, 0]
	if should_hflip[target_grid_y, target_grid_x].item():
	segment_downsize = F.hflip(segment_downsize[None, None])[0, 0]

	segment_output[
	target_y_offset_b:target_y_offset_e, target_x_offset_b:target_x_offset_e
	] = segment_downsize
	obj.segment = segment_output

	return datapoint


	class ScheduledPadToSizeAPI(PadToSizeAPI):
	def __init__(self, size_scheduler, consistent_transform):
	self.size_scheduler = size_scheduler
	size = self.size_scheduler(epoch_num=0)["sizes"]
	super().__init__(size, consistent_transform)

	def __call__(self, datapoint, **kwargs):
	assert "epoch" in kwargs, "Param scheduler needs to know the current epoch"
	params = self.size_scheduler(kwargs["epoch"])
	self.size = params["resolution"]
	return super(ScheduledPadToSizeAPI, self).__call__(datapoint, **kwargs)


	class IdentityAPI:
	def __call__(self, datapoint, **kwargs):
	return datapoint


	class RandomSelectAPI:
	"""
	Randomly selects between transforms1 and transforms2,
	with probability p for transforms1 and (1 - p) for transforms2
	"""

	def __init__(self, transforms1=None, transforms2=None, p=0.5):
	self.transforms1 = transforms1 or IdentityAPI()
	self.transforms2 = transforms2 or IdentityAPI()
	self.p = p

	def __call__(self, datapoint, **kwargs):
	if random.random() < self.p:
	return self.transforms1(datapoint, **kwargs)
	return self.transforms2(datapoint, **kwargs)


	class ToTensorAPI:
	def __init__(self, v2=False):
	self.v2 = v2

	def __call__(self, datapoint: Datapoint, **kwargs):
	for img in datapoint.images:
	if self.v2:
	img.data = Fv2.to_image_tensor(img.data)
	# img.data = Fv2.to_dtype(img.data, torch.uint8, scale=True)
	# img.data = Fv2.convert_image_dtype(img.data, torch.uint8)
	else:
	img.data = F.to_tensor(img.data)
	return datapoint


	class NormalizeAPI:
	def __init__(self, mean, std, v2=False):
	self.mean = mean
	self.std = std
	self.v2 = v2

	def __call__(self, datapoint: Datapoint, **kwargs):
	for img in datapoint.images:
	if self.v2:
	img.data = Fv2.convert_image_dtype(img.data, torch.float32)
	img.data = Fv2.normalize(img.data, mean=self.mean, std=self.std)
	else:
	img.data = F.normalize(img.data, mean=self.mean, std=self.std)
	for obj in img.objects:
	boxes = obj.bbox
	cur_h, cur_w = img.data.shape[-2:]
	boxes = box_xyxy_to_cxcywh(boxes)
	boxes = boxes / torch.tensor(
	[cur_w, cur_h, cur_w, cur_h], dtype=torch.float32
	)
	obj.bbox = boxes

	for query in datapoint.find_queries:
	if query.input_bbox is not None:
	boxes = query.input_bbox
	cur_h, cur_w = datapoint.images[query.image_id].data.shape[-2:]
	boxes = box_xyxy_to_cxcywh(boxes)
	boxes = boxes / torch.tensor(
	[cur_w, cur_h, cur_w, cur_h], dtype=torch.float32
	)
	query.input_bbox = boxes
	if query.input_points is not None:
	points = query.input_points
	cur_h, cur_w = datapoint.images[query.image_id].data.shape[-2:]
	points = points / torch.tensor([cur_w, cur_h, 1.0], dtype=torch.float32)
	query.input_points = points

	return datapoint


	class ComposeAPI:
	def __init__(self, transforms):
	self.transforms = transforms

	def __call__(self, datapoint, **kwargs):
	for t in self.transforms:
	datapoint = t(datapoint, **kwargs)
	return datapoint

	def __repr__(self):
	format_string = self.__class__.__name__ + "("
	for t in self.transforms:
	format_string += "\n"
	format_string += " {0}".format(t)
	format_string += "\n)"
	return format_string


	class RandomGrayscale:
	def __init__(self, consistent_transform, p=0.5):
	self.p = p
	self.consistent_transform = consistent_transform
	self.Grayscale = T.Grayscale(num_output_channels=3)

	def __call__(self, datapoint: Datapoint, **kwargs):
	if self.consistent_transform:
	if random.random() < self.p:
	for img in datapoint.images:
	img.data = self.Grayscale(img.data)
	return datapoint
	for img in datapoint.images:
	if random.random() < self.p:
	img.data = self.Grayscale(img.data)
	return datapoint


	class ColorJitter:
	def __init__(self, consistent_transform, brightness, contrast, saturation, hue):
	self.consistent_transform = consistent_transform
	self.brightness = (
	brightness
	if isinstance(brightness, list)
	else [max(0, 1 - brightness), 1 + brightness]
	)
	self.contrast = (
	contrast
	if isinstance(contrast, list)
	else [max(0, 1 - contrast), 1 + contrast]
	)
	self.saturation = (
	saturation
	if isinstance(saturation, list)
	else [max(0, 1 - saturation), 1 + saturation]
	)
	self.hue = hue if isinstance(hue, list) or hue is None else ([-hue, hue])

	def __call__(self, datapoint: Datapoint, **kwargs):
	if self.consistent_transform:
	# Create a color jitter transformation params
	(
	fn_idx,
	brightness_factor,
	contrast_factor,
	saturation_factor,
	hue_factor,
	) = T.ColorJitter.get_params(
	self.brightness, self.contrast, self.saturation, self.hue
	)
	for img in datapoint.images:
	if not self.consistent_transform:
	(
	fn_idx,
	brightness_factor,
	contrast_factor,
	saturation_factor,
	hue_factor,
	) = T.ColorJitter.get_params(
	self.brightness, self.contrast, self.saturation, self.hue
	)
	for fn_id in fn_idx:
	if fn_id == 0 and brightness_factor is not None:
	img.data = F.adjust_brightness(img.data, brightness_factor)
	elif fn_id == 1 and contrast_factor is not None:
	img.data = F.adjust_contrast(img.data, contrast_factor)
	elif fn_id == 2 and saturation_factor is not None:
	img.data = F.adjust_saturation(img.data, saturation_factor)
	elif fn_id == 3 and hue_factor is not None:
	img.data = F.adjust_hue(img.data, hue_factor)
	return datapoint


	class RandomAffine:
	def __init__(
	self,
	degrees,
	consistent_transform,
	scale=None,
	translate=None,
	shear=None,
	image_mean=(123, 116, 103),
	log_warning=True,
	num_tentatives=1,
	image_interpolation="bicubic",
	):
	"""
	The mask is required for this transform.
	if consistent_transform if True, then the same random affine is applied to all frames and masks.
	"""
	self.degrees = degrees if isinstance(degrees, list) else ([-degrees, degrees])
	self.scale = scale
	self.shear = (
	shear if isinstance(shear, list) else ([-shear, shear] if shear else None)
	)
	self.translate = translate
	self.fill_img = image_mean
	self.consistent_transform = consistent_transform
	self.log_warning = log_warning
	self.num_tentatives = num_tentatives

	if image_interpolation == "bicubic":
	self.image_interpolation = InterpolationMode.BICUBIC
	elif image_interpolation == "bilinear":
	self.image_interpolation = InterpolationMode.BILINEAR
	else:
	raise NotImplementedError

	def __call__(self, datapoint: Datapoint, **kwargs):
	for _tentative in range(self.num_tentatives):
	res = self.transform_datapoint(datapoint)
	if res is not None:
	return res

	if self.log_warning:
	logging.warning(
	f"Skip RandomAffine for zero-area mask in first frame after {self.num_tentatives} tentatives"
	)
	return datapoint

	def transform_datapoint(self, datapoint: Datapoint):
	_, height, width = F.get_dimensions(datapoint.images[0].data)
	img_size = [width, height]

	if self.consistent_transform:
	# Create a random affine transformation
	affine_params = T.RandomAffine.get_params(
	degrees=self.degrees,
	translate=self.translate,
	scale_ranges=self.scale,
	shears=self.shear,
	img_size=img_size,
	)

	for img_idx, img in enumerate(datapoint.images):
	this_masks = [
	obj.segment.unsqueeze(0) if obj.segment is not None else None
	for obj in img.objects
	]
	if not self.consistent_transform:
	# if not consistent we create a new affine params for every frame&mask pair Create a random affine transformation
	affine_params = T.RandomAffine.get_params(
	degrees=self.degrees,
	translate=self.translate,
	scale_ranges=self.scale,
	shears=self.shear,
	img_size=img_size,
	)

	transformed_bboxes, transformed_masks = [], []
	for i in range(len(img.objects)):
	if this_masks[i] is None:
	transformed_masks.append(None)
	# Dummy bbox for a dummy target
	transformed_bboxes.append(torch.tensor([[0, 0, 0, 0]]))
	else:
	transformed_mask = F.affine(
	this_masks[i],
	*affine_params,
	interpolation=InterpolationMode.NEAREST,
	fill=0.0,
	)
	if img_idx == 0 and transformed_mask.max() == 0:
	# We are dealing with a video and the object is not visible in the first frame
	# Return the datapoint without transformation
	return None
	transformed_bbox = masks_to_boxes(transformed_mask)
	transformed_bboxes.append(transformed_bbox)
	transformed_masks.append(transformed_mask.squeeze())

	for i in range(len(img.objects)):
	img.objects[i].bbox = transformed_bboxes[i]
	img.objects[i].segment = transformed_masks[i]

	img.data = F.affine(
	img.data,
	*affine_params,
	interpolation=self.image_interpolation,
	fill=self.fill_img,
	)
	return datapoint


	class RandomResizedCrop:
	def __init__(
	self,
	consistent_transform,
	size,
	scale=None,
	ratio=None,
	log_warning=True,
	num_tentatives=4,
	keep_aspect_ratio=False,
	):
	"""
	The mask is required for this transform.
	if consistent_transform if True, then the same random resized crop is applied to all frames and masks.
	"""
	if isinstance(size, numbers.Number):
	self.size = (int(size), int(size))
	elif isinstance(size, Sequence) and len(size) == 1:
	self.size = (size[0], size[0])
	elif len(size) != 2:
	raise ValueError("Please provide only two dimensions (h, w) for size.")
	else:
	self.size = size

	self.scale = scale if scale is not None else (0.08, 1.0)
	self.ratio = ratio if ratio is not None else (3.0 / 4.0, 4.0 / 3.0)
	self.consistent_transform = consistent_transform
	self.log_warning = log_warning
	self.num_tentatives = num_tentatives
	self.keep_aspect_ratio = keep_aspect_ratio

	def __call__(self, datapoint: Datapoint, **kwargs):
	for _tentative in range(self.num_tentatives):
	res = self.transform_datapoint(datapoint)
	if res is not None:
	return res

	if self.log_warning:
	logging.warning(
	f"Skip RandomResizeCrop for zero-area mask in first frame after {self.num_tentatives} tentatives"
	)
	return datapoint

	def transform_datapoint(self, datapoint: Datapoint):
	if self.keep_aspect_ratio:
	original_size = datapoint.images[0].size
	original_ratio = original_size[1] / original_size[0]
	ratio = [r * original_ratio for r in self.ratio]
	else:
	ratio = self.ratio

	if self.consistent_transform:
	# Create a random crop transformation
	crop_params = T.RandomResizedCrop.get_params(
	img=datapoint.images[0].data,
	scale=self.scale,
	ratio=ratio,
	)

	for img_idx, img in enumerate(datapoint.images):
	if not self.consistent_transform:
	# Create a random crop transformation
	crop_params = T.RandomResizedCrop.get_params(
	img=img.data,
	scale=self.scale,
	ratio=ratio,
	)

	this_masks = [
	obj.segment.unsqueeze(0) if obj.segment is not None else None
	for obj in img.objects
	]

	transformed_bboxes, transformed_masks = [], []
	for i in range(len(img.objects)):
	if this_masks[i] is None:
	transformed_masks.append(None)
	# Dummy bbox for a dummy target
	transformed_bboxes.append(torch.tensor([[0, 0, 0, 0]]))
	else:
	transformed_mask = F.resized_crop(
	this_masks[i],
	*crop_params,
	size=self.size,
	interpolation=InterpolationMode.NEAREST,
	)
	if img_idx == 0 and transformed_mask.max() == 0:
	# We are dealing with a video and the object is not visible in the first frame
	# Return the datapoint without transformation
	return None
	transformed_masks.append(transformed_mask.squeeze())
	transformed_bbox = masks_to_boxes(transformed_mask)
	transformed_bboxes.append(transformed_bbox)

	# Set the new boxes and masks if all transformed masks and boxes are good.
	for i in range(len(img.objects)):
	img.objects[i].bbox = transformed_bboxes[i]
	img.objects[i].segment = transformed_masks[i]

	img.data = F.resized_crop(
	img.data,
	*crop_params,
	size=self.size,
	interpolation=InterpolationMode.BILINEAR,
	)
	return datapoint


	class ResizeToMaxIfAbove:
	# Resize datapoint image if one of its sides is larger that max_size
	def __init__(
	self,
	max_size=None,
	):
	self.max_size = max_size

	def __call__(self, datapoint: Datapoint, **kwargs):
	_, height, width = F.get_dimensions(datapoint.images[0].data)

	if height <= self.max_size and width <= self.max_size:
	# The original frames are small enough
	return datapoint
	elif height >= width:
	new_height = self.max_size
	new_width = int(round(self.max_size * width / height))
	else:
	new_height = int(round(self.max_size * height / width))
	new_width = self.max_size

	size = new_height, new_width

	for index in range(len(datapoint.images)):
	datapoint.images[index].data = F.resize(datapoint.images[index].data, size)

	for obj in datapoint.images[index].objects:
	obj.segment = F.resize(
	obj.segment[None, None],
	size,
	interpolation=InterpolationMode.NEAREST,
	).squeeze()

	h, w = size
	datapoint.images[index].size = (h, w)
	return datapoint


	def get_bbox_xyxy_abs_coords_from_mask(mask):
	"""Get the bounding box (XYXY format w/ absolute coordinates) of a binary mask."""
	assert mask.dim() == 2
	rows = torch.any(mask, dim=1)
	cols = torch.any(mask, dim=0)
	row_inds = rows.nonzero().view(-1)
	col_inds = cols.nonzero().view(-1)
	if row_inds.numel() == 0:
	# mask is empty
	bbox = torch.zeros(1, 4, dtype=torch.float32)
	bbox_area = 0.0
	else:
	ymin, ymax = row_inds.min(), row_inds.max()
	xmin, xmax = col_inds.min(), col_inds.max()
	bbox = torch.tensor([xmin, ymin, xmax, ymax], dtype=torch.float32).view(1, 4)
	bbox_area = float((ymax - ymin) * (xmax - xmin))
	return bbox, bbox_area


	class MotionBlur:
	def __init__(self, kernel_size=5, consistent_transform=True, p=0.5):
	assert kernel_size % 2 == 1, "Kernel size must be odd."
	self.kernel_size = kernel_size
	self.consistent_transform = consistent_transform
	self.p = p

	def __call__(self, datapoint: Datapoint, **kwargs):
	if random.random() >= self.p:
	return datapoint
	if self.consistent_transform:
	# Generate a single motion blur kernel for all images
	kernel = self._generate_motion_blur_kernel()
	for img in datapoint.images:
	if not self.consistent_transform:
	# Generate a new motion blur kernel for each image
	kernel = self._generate_motion_blur_kernel()
	img.data = self._apply_motion_blur(img.data, kernel)

	return datapoint

	def _generate_motion_blur_kernel(self):
	kernel = torch.zeros((self.kernel_size, self.kernel_size))
	direction = random.choice(["horizontal", "vertical", "diagonal"])
	if direction == "horizontal":
	kernel[self.kernel_size // 2, :] = 1.0
	elif direction == "vertical":
	kernel[:, self.kernel_size // 2] = 1.0
	elif direction == "diagonal":
	for i in range(self.kernel_size):
	kernel[i, i] = 1.0
	kernel /= kernel.sum()
	return kernel

	def _apply_motion_blur(self, image, kernel):
	if isinstance(image, PILImage.Image):
	image = F.to_tensor(image)
	channels = image.shape[0]
	kernel = kernel.to(image.device).unsqueeze(0).unsqueeze(0)
	blurred_image = torch.nn.functional.conv2d(
	image.unsqueeze(0),
	kernel.repeat(channels, 1, 1, 1),
	padding=self.kernel_size // 2,
	groups=channels,
	)
	return F.to_pil_image(blurred_image.squeeze(0))


	class LargeScaleJitter:
	def __init__(
	self,
	scale_range=(0.1, 2.0),
	aspect_ratio_range=(0.75, 1.33),
	crop_size=(640, 640),
	consistent_transform=True,
	p=0.5,
	):
	"""
	Args:rack
	scale_range (tuple): Range of scaling factors (min_scale, max_scale).
	aspect_ratio_range (tuple): Range of aspect ratios (min_aspect_ratio, max_aspect_ratio).
	crop_size (tuple): Target size of the cropped region (width, height).
	consistent_transform (bool): Whether to apply the same transformation across all frames.
	p (float): Probability of applying the transformation.
	"""
	self.scale_range = scale_range
	self.aspect_ratio_range = aspect_ratio_range
	self.crop_size = crop_size
	self.consistent_transform = consistent_transform
	self.p = p

	def __call__(self, datapoint: Datapoint, **kwargs):
	if random.random() >= self.p:
	return datapoint

	# Sample a single scale factor and aspect ratio for all frames
	log_ratio = torch.log(torch.tensor(self.aspect_ratio_range))
	scale_factor = torch.empty(1).uniform_(*self.scale_range).item()
	aspect_ratio = torch.exp(
	torch.empty(1).uniform_(log_ratio[0], log_ratio[1])
	).item()

	for idx, img in enumerate(datapoint.images):
	if not self.consistent_transform:
	# Sample a new scale factor and aspect ratio for each frame
	log_ratio = torch.log(torch.tensor(self.aspect_ratio_range))
	scale_factor = torch.empty(1).uniform_(*self.scale_range).item()
	aspect_ratio = torch.exp(
	torch.empty(1).uniform_(log_ratio[0], log_ratio[1])
	).item()

	# Compute the dimensions of the jittered crop
	original_width, original_height = img.data.size
	target_area = original_width * original_height * scale_factor
	crop_width = int(round((target_area * aspect_ratio) ** 0.5))
	crop_height = int(round((target_area / aspect_ratio) ** 0.5))

	# Randomly select the top-left corner of the crop
	crop_x = random.randint(0, max(0, original_width - crop_width))
	crop_y = random.randint(0, max(0, original_height - crop_height))

	# Extract the cropped region
	datapoint = crop(datapoint, idx, (crop_x, crop_y, crop_width, crop_height))

	# Resize the cropped region to the target crop size
	datapoint = resize(datapoint, idx, self.crop_size)

	return datapoint