Spaces:

alexandraroze
/

cels

Sleeping

App Files Files Community

cels / train_cross_classifier.py

alexandraroze

fixed config

b265c62 10 months ago

raw

history blame contribute delete

8.23 kB

	import argparse

	import matplotlib.pyplot as plt
	import torch
	import torch.nn as nn
	import torch.optim as optim
	import wandb
	from torch.optim.lr_scheduler import StepLR
	from torch.utils.data import DataLoader
	from tqdm import tqdm
	from typing_extensions import Optional

	from src.dataset import RandomPairDataset
	from src.models import CrossAttentionClassifier, VGGLikeEncode


	def visualize_attention(attn_heatmap, epoch: int):
	fig, ax = plt.subplots(figsize=(6, 6))
	im = ax.imshow(attn_heatmap, cmap="hot", interpolation="nearest")
	plt.colorbar(im, fraction=0.046, pad=0.04)
	plt.title(f"Attention Heatmap (Flatten 64x64) \| Epoch {epoch}")

	wandb.log({"Flatten Attention Heatmap": wandb.Image(fig, caption=f"Flatten 64x64 \| Epoch {epoch}")})

	plt.close(fig)


	def get_data_loaders(
	num_train_samples: int,
	num_val_samples: int,
	batch_size: int,
	num_workers: int = 0,
	shape_params: Optional[dict] = None,
	):
	train_dataset = RandomPairDataset(
	shape_params=shape_params,
	num_samples=num_train_samples,
	train=True
	)
	val_dataset = RandomPairDataset(
	shape_params=shape_params,
	num_samples=num_val_samples,
	train=False
	)

	train_loader = DataLoader(
	train_dataset,
	batch_size=batch_size,
	shuffle=True,
	num_workers=num_workers
	)
	val_loader = DataLoader(
	val_dataset,
	batch_size=batch_size,
	shuffle=False,
	num_workers=num_workers
	)

	return train_loader, val_loader


	def build_model(
	path_to_encoder: str,
	lr: float,
	weight_decay: float,
	step_size: int,
	gamma: float,
	device: torch.device
	):
	encoder = VGGLikeEncode(in_channels=1, out_channels=128, feature_dim=32, apply_pooling=False)
	encoder.load_state_dict(torch.load(path_to_encoder))

	model = CrossAttentionClassifier(encoder=encoder)
	model = model.to(device)

	criterion = nn.BCEWithLogitsLoss()

	optimizer = optim.Adam(
	model.parameters(),
	lr=lr,
	weight_decay=weight_decay
	)

	scheduler = StepLR(optimizer, step_size=step_size, gamma=gamma)

	return model, criterion, optimizer, scheduler


	def train_epoch(
	model: nn.Module,
	criterion: nn.Module,
	optimizer: optim.Optimizer,
	train_loader: DataLoader,
	device: torch.device
	):
	model.train()
	running_loss = 0.0
	correct = 0
	total = 0

	for img1, img2, labels in tqdm(train_loader, desc="Training", leave=False):
	img1, img2, labels = img1.to(device), img2.to(device), labels.to(device)

	optimizer.zero_grad()

	logits, attn_weights = model(img1, img2)
	loss = criterion(logits, labels)

	loss.backward()
	optimizer.step()

	running_loss += loss.item() * img1.size(0)

	preds = (torch.sigmoid(logits) > 0.5).float()
	correct += (preds == labels).sum().item()
	total += labels.size(0)

	epoch_loss = running_loss / len(train_loader.dataset)
	epoch_acc = correct / total

	return epoch_loss, epoch_acc


	@torch.no_grad()
	def validate(
	model: nn.Module,
	criterion: nn.Module,
	val_loader: DataLoader,
	device: torch.device
	):
	model.eval()
	running_loss = 0.0
	correct = 0
	total = 0

	for img1, img2, labels in tqdm(val_loader, desc="Validation", leave=False):
	img1, img2, labels = img1.to(device), img2.to(device), labels.to(device)

	logits, attn_weights = model(img1, img2)
	loss = criterion(logits, labels)

	running_loss += loss.item() * img1.size(0)

	preds = (torch.sigmoid(logits) > 0.5).float()
	correct += (preds == labels).sum().item()
	total += labels.size(0)

	epoch_loss = running_loss / len(val_loader.dataset)
	epoch_acc = correct / total

	return epoch_loss, epoch_acc


	def train(
	model: nn.Module,
	criterion: nn.Module,
	optimizer: optim.Optimizer,
	scheduler,
	train_loader: DataLoader,
	val_loader: DataLoader,
	device: torch.device,
	num_epochs: int = 30,
	save_path: str = "best_attention_classifier.pth"
	):
	best_val_loss = float("inf")
	epochs_no_improve = 0
	print("Start training...")

	for epoch in range(num_epochs):
	print(f"Epoch {epoch + 1}/{num_epochs}")

	train_loss, train_acc = train_epoch(model, criterion, optimizer, train_loader, device)

	val_loss, val_acc = validate(model, criterion, val_loader, device)

	scheduler.step()

	wandb.log({
	"epoch": epoch + 1,
	"train_loss": train_loss,
	"train_acc": train_acc,
	"val_loss": val_loss,
	"val_acc": val_acc,
	"lr": optimizer.param_groups[0]["lr"],
	})

	print(
	f"learning rate: {optimizer.param_groups[0]['lr']:.6f}, "
	f"Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.4f}, "
	f"Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.4f}"
	)

	if val_loss < best_val_loss:
	best_val_loss = val_loss
	torch.save(model.state_dict(), save_path)
	epochs_no_improve = 0
	else:
	epochs_no_improve += 1

	with torch.no_grad():
	sample_img1, sample_img2, sample_labels = next(iter(val_loader))
	sample_img1, sample_img2 = sample_img1.to(device), sample_img2.to(device)

	_, sample_attn_weights = model(sample_img1, sample_img2)

	wandb.log({
	"attention_std": sample_attn_weights.std().item(),
	"attention_mean": sample_attn_weights.mean().item(),
	})

	attn_heatmap = sample_attn_weights[0].detach().cpu().numpy()
	visualize_attention(attn_heatmap, epoch)


	def main(config):
	wandb.init(project="cross_attention_classifier", config=config)

	train_loader, val_loader = get_data_loaders(
	shape_params=config["shape_params"],
	num_train_samples=config["num_train_samples"],
	num_val_samples=config["num_val_samples"],
	batch_size=config["batch_size"]
	)

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

	model, criterion, optimizer, scheduler = build_model(
	path_to_encoder=config["path_to_encoder"],
	lr=config["lr"],
	weight_decay=config["weight_decay"],
	step_size=config["step_size"],
	gamma=config["gamma"],
	device=device
	)

	train(
	model=model,
	criterion=criterion,
	optimizer=optimizer,
	scheduler=scheduler,
	train_loader=train_loader,
	val_loader=val_loader,
	device=device,
	num_epochs=config["num_epochs"],
	save_path=config["save_path"]
	)

	wandb.finish()


	if __name__ == "__main__":

	parser = argparse.ArgumentParser(description="Train classifier model")
	parser.add_argument("--path_to_encoder", type=str, default="best_byol.pth")
	parser.add_argument("--batch_size", type=int, default=256)
	parser.add_argument("--lr", type=float, default=8e-5)
	parser.add_argument("--weight_decay", type=float, default=1e-4)
	parser.add_argument("--step_size", type=int, default=10)
	parser.add_argument("--gamma", type=float, default=0.1)
	parser.add_argument("--num_epochs", type=int, default=10)
	parser.add_argument("--num_train_samples", type=int, default=10000)
	parser.add_argument("--num_val_samples", type=int, default=2000)
	parser.add_argument("--save_path", type=str, default="best_attention_classifier.pth")
	args = parser.parse_args()

	config = {
	"path_to_encoder": args.path_to_encoder,
	"batch_size": args.batch_size,
	"lr": args.lr,
	"weight_decay": args.weight_decay,
	"step_size": args.step_size,
	"gamma": args.gamma,
	"num_epochs": args.num_epochs,
	"num_train_samples": args.num_train_samples,
	"num_val_samples": args.num_val_samples,
	"save_path": args.save_path,
	}

	if "shape_params" not in config:
	config["shape_params"] = {}

	main(config)