Merge pull request #466 from Nuzhny007/master

Nuzhny007 · web-flow · commit 6d7a9c93caaa · 2025-02-27T13:18:28.000+03:00
Update RuCLIP
diff --git a/thirdparty/ruclip/ClipAPI.cpp b/thirdparty/ruclip/ClipAPI.cpp
@@ -19,8 +19,6 @@ class ClassificationCLIP::ClassificationCLIPImpl
 		bool res = true;
 
 		m_pathToClip = pathToClip;
-		m_pathToBPE = pathToBPE;
-		m_inputImgSize = inputImgSize;
 		m_indGPU = indGPU;
 		m_labels = labels;
 
@@ -42,11 +40,9 @@ class ClassificationCLIP::ClassificationCLIPImpl
 		m_clip->to(m_device);
 
 		std::cout << "Load processor from: " << pathToBPE << std::endl;
-		std::vector<double> normMean{ 0.48145466, 0.4578275, 0.40821073 };
-		std::vector<double> normStd{ 0.26862954, 0.26130258, 0.27577711 };
-		m_processor = std::make_unique<RuCLIPProcessor>(m_pathToBPE, m_inputImgSize, 77, normMean, normStd);
+		m_processor = RuCLIPProcessor::FromPretrained(m_pathToClip);
 
-		m_processor->CacheText(m_labels);
+		m_processor.CacheText(m_labels);
 
 		return res;
 	}
@@ -69,12 +65,10 @@ class ClassificationCLIP::ClassificationCLIPImpl
 		for (size_t i = 0; i < rois.size(); ++i)
 		{
 			cv::Rect r = Clamp(rois[i], frame.size());
-			if (r.width > m_inputImgSize / 10 && r.height > m_inputImgSize / 10)
+			if (r.width > m_processor.GetImageSize() / 10 && r.height > m_processor.GetImageSize() / 10)
 			{
 				img2roi[images.size()] = i;
-				cv::Mat tmp;
-				cv::resize(cv::Mat(frame, r), tmp, cv::Size(m_inputImgSize, m_inputImgSize), cv::INTER_CUBIC);
-				images.emplace_back(tmp);
+				images.emplace_back(cv::Mat(frame, r));
 			}
 		}
 		if (images.empty())
@@ -84,7 +78,7 @@ class ClassificationCLIP::ClassificationCLIPImpl
 		}
 
 		std::cout << "Running on " << images.size() << "..." << std::endl;
-		auto dummy_input = m_processor->operator()(images);
+		auto dummy_input = m_processor.operator()(images);
 		try
 		{
 			torch::Tensor logits_per_image = m_clip->forward(dummy_input.first.to(m_device), dummy_input.second.to(m_device));
@@ -123,13 +117,11 @@ class ClassificationCLIP::ClassificationCLIPImpl
 
 private:
 	std::string m_pathToClip = "";
-	std::string m_pathToBPE = "";
-	int m_inputImgSize = 336;
 	int m_indGPU = -1; // -1 - use CPU
 
 	torch::Device m_device{ torch::kCPU };
 	CLIP m_clip = nullptr;
-	std::unique_ptr<RuCLIPProcessor> m_processor;
+	RuCLIPProcessor m_processor;
 
 	std::vector<std::string> m_labels{ "human", "pedestrian", "car", "vehicle", "truck", "bus" };
 };
diff --git a/thirdparty/ruclip/RuCLIP.cpp b/thirdparty/ruclip/RuCLIP.cpp
@@ -57,9 +57,9 @@ torch::Tensor TransformerImpl :: forward(const torch::Tensor& x)
 
 void TransformerImpl :: InitializeParameters()
 {
-	float proj_std = powf(Width, -0.5f) * pow(2 * Layers, -0.5f);
-	float attn_std = powf(Width, -0.5f);
-	float fc_std = powf(2 * Width, -0.5f);
+	float proj_std = powf((float)Width, -0.5f) * powf(2.f * Layers, -0.5f);
+	float attn_std = powf((float)Width, -0.5f);
+	float fc_std = powf(2.f * Width, -0.5f);
 
 	for (int i = 0; i < Resblocks->size(); i++)
 	{
@@ -90,7 +90,7 @@ VisionTransformerImpl :: VisionTransformerImpl(
 ) : torch::nn::Module(module_name), InputResolution(input_resolution), OutputDim(output_dim)
 {
 	Conv1 = torch::nn::Conv2d(torch::nn::Conv2dOptions(3, width, patch_size).stride(patch_size).bias(false));
-	float scale = powf(width, -0.5);
+	float scale = powf((float)width, -0.5);
 	ClassEmbedding = scale * torch::randn(width);
 	PositionalEmbedding = scale * torch::randn({ (int)pow(input_resolution / patch_size/*деление нацело*/, 2) + 1, width });
 	LnPre = RCLayerNorm(std::vector<int64_t>() = { (int64_t)width });
@@ -220,4 +220,4 @@ torch::Tensor CLIPImpl :: forward(torch::Tensor input_ids, torch::Tensor pixel_v
 	auto logits_per_text = logits_per_image.t();
 
 	return logits_per_image;
-}
+}
diff --git a/thirdparty/ruclip/RuCLIP.h b/thirdparty/ruclip/RuCLIP.h
@@ -165,31 +165,30 @@ inline CLIP FromPretrained(const std::filesystem::path &folder)
 
 	// Создание модели
 	auto clip = CLIP("ruclip",
-		int(config["embed_dim"]),
-		int(config["image_resolution"]),
-		int(config["vision_layers"]),
-		int(config["vision_width"]),
-		int(config["vision_patch_size"]),
-		int(config["context_length"]),
-		int(config["vocab_size"]),
-		int(config["transformer_width"]),
-		int(config["transformer_heads"]),
-		int(config["transformer_layers"]));
-
-	for (auto &k : clip->named_parameters())
-		std::cout << k.key() << std::endl;
+		             int(config["embed_dim"]),
+		             int(config["image_resolution"]),
+		             int(config["vision_layers"]),
+		             int(config["vision_width"]),
+		             int(config["vision_patch_size"]),
+		             int(config["context_length"]),
+		             int(config["vocab_size"]),
+		             int(config["transformer_width"]),
+		             int(config["transformer_heads"]),
+		             int(config["transformer_layers"]));
+
+	//for (auto &k : clip->named_parameters())
+	//	std::cout << k.key() << std::endl;
 	//std::cout << "Model params count: " << Trainable::ParamsCount(clip) << std::endl;
 
 	// Загрузка состояния модели из файла
-	try {
+	try
+	{
 		torch::load(clip, (folder / "jit_model.zip").string());
 	}
-	catch (std::exception& e) {
+	catch (std::exception& e)
+	{
 		std::cout << e.what() << std::endl;
 	}
 
-	//		"mean" : [0.48145466, 0.4578275, 0.40821073] ,
-	//		"std" : [0.26862954, 0.26130258, 0.27577711]
-
 	return clip;
 }
diff --git a/thirdparty/ruclip/RuCLIPProcessor.cpp b/thirdparty/ruclip/RuCLIPProcessor.cpp
@@ -1,7 +1,7 @@
 #include "RuCLIPProcessor.h"
 
 ///
-torch::Tensor CVMatToTorchTensor(const cv::Mat img, const bool perm = true)
+inline torch::Tensor CVMatToTorchTensor(const cv::Mat img, const bool perm = true)
 {
 	auto tensor_image = torch::from_blob(img.data, { img.rows, img.cols, img.channels() }, at::kByte);
 	if (perm)
@@ -12,7 +12,7 @@ torch::Tensor CVMatToTorchTensor(const cv::Mat img, const bool perm = true)
 }
 
 ///
-cv::Mat TorchTensorToCVMat(const torch::Tensor tensor_image, const bool perm = true)
+inline cv::Mat TorchTensorToCVMat(const torch::Tensor tensor_image, const bool perm = true)
 {
 	auto t = tensor_image.detach().squeeze().cpu();
 	if (perm)
@@ -33,20 +33,19 @@ RuCLIPProcessor :: RuCLIPProcessor(
 ) : ImageSize(image_size), TextSeqLength(text_seq_length), NormMean(norm_mean), NormStd(norm_std)
 {
 	vkcom::Status status;
-	Tokenizer = new vkcom::BaseEncoder(tokenizer_path, -1, &status);
+	Tokenizer = std::make_unique<vkcom::BaseEncoder>(tokenizer_path, -1, &status);
 }
 
 ///!!!Локали-юникоды
-torch::Tensor RuCLIPProcessor :: EncodeText(/*std::vector<*/std::string &text)
+torch::Tensor RuCLIPProcessor :: EncodeText(const/*std::vector<*/std::string &text) const
 {
 	std::vector<std::vector<int32_t>> ret_ids;
 	vkcom::Status status;
 	////for (auto &it : text)
 	////	it = lowercase(it);
 	//text = lowercase(text);
 	//output_type = vkcom::OutputType::ID, bos = false, eos = false, reverse = false, dropout_prob = 0.0
-	std::vector <std::string> texts;
-	texts.push_back(text);
+	std::vector <std::string> texts{ text };
 	status = Tokenizer->encode_as_ids(texts, &ret_ids);
 	if (status.code != 0)
 		throw std::runtime_error("RuCLIPProcessor::EncodeText error : " + status.message);
@@ -61,7 +60,51 @@ torch::Tensor RuCLIPProcessor :: EncodeText(/*std::vector<*/std::string &text)
 	return PrepareTokens(it);
 }
 
-torch::Tensor RuCLIPProcessor :: PrepareTokens(/*std::vector<*/std::vector<int32_t> tokens)		//Передаю по значению чтобы внутри иметь дело с копией
+///
+cv::Mat RuCLIPProcessor::ResizeToInput(const cv::Mat& img, bool saveAspectRatio) const
+{
+	cv::Mat newImg(cv::Size(ImageSize, ImageSize), img.type(), cv::Scalar(0, 0, 0));
+
+	if (saveAspectRatio)
+	{
+		// resize the image with aspect ratio
+		float r = std::min(static_cast<float>(ImageSize) / static_cast<float>(img.rows), static_cast<float>(ImageSize) / static_cast<float>(img.cols));
+		int newHeight = cvRound(img.rows * r);
+		int newWidth = cvRound(img.cols * r);
+
+		// Additional checks for images with non even dims
+		if ((ImageSize - newWidth) % 2)
+			newWidth--;
+		if ((ImageSize - newHeight) % 2)
+			newHeight--;
+		assert((ImageSize - newWidth) % 2 == 0);
+		assert((ImageSize - newHeight) % 2 == 0);
+
+		int xOffset = (ImageSize - newWidth) / 2;
+		int yOffset = (ImageSize - newHeight) / 2;
+
+		assert(2 * m_XOffset + newWidth == ImageSize);
+		assert(2 * m_YOffset + newHeight == ImageSize);
+
+		cv::resize(img, newImg(cv::Rect(xOffset, yOffset, newWidth, newHeight)), cv::Size(newWidth, newHeight), 0, 0, cv::INTER_CUBIC);
+	}
+	else
+	{
+		cv::resize(img, newImg, newImg.size(), 0, 0, cv::INTER_CUBIC);
+	}
+	return newImg;
+}
+
+///
+torch::Tensor RuCLIPProcessor::EncodeImage(const cv::Mat& img) const
+{
+	torch::Tensor img_tensor = CVMatToTorchTensor(ResizeToInput(img), true);
+	img_tensor = torch::data::transforms::Normalize<>(NormMean, NormStd)(img_tensor);
+	return img_tensor;
+}
+
+///
+torch::Tensor RuCLIPProcessor::PrepareTokens(/*std::vector<*/std::vector<int32_t> tokens) const //Передаю по значению чтобы внутри иметь дело с копией
 {
 	torch::Tensor result;
 	if (tokens.size() > TextSeqLength)
@@ -89,7 +132,13 @@ void RuCLIPProcessor::CacheText(const std::vector <std::string>& texts)
 }
 
 ///
-std::pair<torch::Tensor, torch::Tensor> RuCLIPProcessor::operator()(const std::vector <std::string> &texts, const std::vector <cv::Mat> &images)
+const std::vector<torch::Tensor>& RuCLIPProcessor::GetTextTensors() const
+{
+	return m_textsTensors;
+}
+
+///
+std::pair<torch::Tensor, torch::Tensor> RuCLIPProcessor::operator()(const std::vector <std::string> &texts, const std::vector <cv::Mat> &images) const
 {
 	std::vector <torch::Tensor> texts_tensors;
 	for (auto& it : texts)
@@ -102,21 +151,21 @@ std::pair<torch::Tensor, torch::Tensor> RuCLIPProcessor::operator()(const std::v
 	std::vector <torch::Tensor> images_tensors;
 	for (auto &it : images)
 	{
-		torch::Tensor img_tensor = CVMatToTorchTensor(it, true);
+		torch::Tensor img_tensor = CVMatToTorchTensor(ResizeToInput(it), true);
 		img_tensor = torch::data::transforms::Normalize<>(NormMean, NormStd)(img_tensor);
 		//img_tensor.clone();
 		images_tensors.push_back(img_tensor);
 	}
-	return std::make_pair(/*torch::pad_sequence*/torch::stack(texts_tensors), torch::pad_sequence(images_tensors).squeeze(0));
+	return std::make_pair(!texts_tensors.empty()?/*torch::pad_sequence*/torch::stack(texts_tensors):torch::Tensor(), torch::pad_sequence(images_tensors).squeeze(0));
 }
 
 ///
-std::pair<torch::Tensor, torch::Tensor> RuCLIPProcessor::operator()(const std::vector <cv::Mat>& images)
+std::pair<torch::Tensor, torch::Tensor> RuCLIPProcessor::operator()(const std::vector <cv::Mat>& images) const
 {
 	std::vector <torch::Tensor> images_tensors;
 	for (auto& it : images)
 	{
-		torch::Tensor img_tensor = CVMatToTorchTensor(it, true);
+		torch::Tensor img_tensor = CVMatToTorchTensor(ResizeToInput(it), true);
 		img_tensor = torch::data::transforms::Normalize<>(NormMean, NormStd)(img_tensor);
 		//img_tensor.clone();
 		images_tensors.push_back(img_tensor);
diff --git a/thirdparty/ruclip/RuCLIPProcessor.h b/thirdparty/ruclip/RuCLIPProcessor.h