مواد خام سابلیمیشن

آرزو بر جوانان عیب نیست

مواد خام سابلیمیشن

آرزو بر جوانان عیب نیست

  • ۰
  • ۰

CycleGAN [43]: CycleGAN یک روش معمولی برای ترجمه تصویر به تصویر بدون جفت است. ما آن را با در نظر گرفتن مجموعه داده خود به عنوان جفت نشده و به دنبال اجرای رسمی آن با اندازه دسته ای 1 آموزش دادیم.

انتقال دامنه در سطح پیکسل (PLDT) [41]: PLDT با اندازه دسته ای 128 آموزش داده شد. از آنجایی که وضوح خروجی های PLDT در ابتدا 64 × 64 بود، با استفاده از درون یابی دو مکعبی بر اساس 4 × 4 به 256 × 256 بزرگ شد. پیکسل ها

Pix2pix [11]: pix2pix با اندازه دسته ای 1 با استفاده از پیاده سازی رسمی آن آموزش داده شد.

pix2pixHD [37]: pix2pixHD با اندازه دسته ای 16 و وضوح 256 × 256 با استفاده از اجرای رسمی آن آموزش داده شد.

SPADE [25]: SPADE یک روش پیشرفته ترجمه تصویر به تصویر با لایه های عادی سازی شرطی است. برای مقایسه منصفانه، ما آن را تغییر دادیم تا با نقشه‌های تقسیم‌بندی معنایی، بلکه با تصاویر ورودی‌مان کار کند. تیشرت های انیمه ای  بیشتر بخوانید تیشرت انیمه ای با استفاده از اجرای رسمی آن با اندازه دسته ای 1 آموزش داده شد.

همه GAN ها با استفاده از تقویت داده های مشابه ما آموزش داده شدند. جدول 3 مقایسه ای را با روش های مرسوم ترجمه تصویر به تصویر از نظر FID، FIDfashion، LPIPS و تعداد پارامترهای استفاده شده در مولد هر مدل نشان می دهد. توجه داشته باشید که تفاوت بین خط مبنا در جدول 2 (a) و pix2pix در جدول 3 این است که آیا از رویکرد کالیبراسیون مجموعه داده پیشنهادی استفاده شده است یا خیر. همانطور که نشان داده شد، روش ما در همه اندازه‌ها عملکرد بهتری داشت. PLDT از دست دادن L1 نداشت و تمرین آن ناپایدار بود. اگرچه pix2pixHD نسخه پیشرفته pix2pix است، اما از برازش بیش از حد رنج می برد و نتوانست تصاویری با کیفیت بالا تولید کند. SPADE بر اساس نرمال سازی نمونه است و نیاز به یادگیری 92.06 میلیون پارامتر از ژنراتور خود دارد، که به مقدار زیادی زمان آموزش در محیط محاسباتی ما نیاز دارد. ما همچنین از نمرات FIDfashion دریافتیم که تصاویر تولید شده توسط SPADE از نظر ویژگی‌های بصری مرتبط با مد با تصاویر GT آن‌ها سازگاری کمتری دارند تا تصاویر تولید شده توسط روش ما، که دلالت بر نیاز به ساخت استراتژی‌های انتقال دامنه برای استفاده از SPADE در ما دارد. وظیفه.

جدول 3 مقایسه های کمی با روش های مرسوم
جدول اندازه کامل
شکل 11
شکل 11
مقایسه با روش های مرسوم ترجمه تصویر به تصویر GT مخفف "واقعیت زمین" است. (تصاویر ورودی عبارتند از: Asaka Karin, Love Live! School Idol Festival؛ Jin, Samurai Champloo؛ Shirakiin Ririchiyo, Inu×Boku SS؛ Sonoda Umi, Love Live! Sunshine!!؛ و Kirito, Sword Art Online)

تصویر در اندازه کامل
شکل 11 نتایج تولید تصویر لباس را نشان می دهد که با روش پیشنهادی و روش های مرسوم برای پنج تصویر آزمایشی به دست آمده است. شخصیت‌های این تصاویر آزمایشی لباس‌های متنوع و پیچیده به تن داشتند. CycleGAN نتوانست تصاویر واقعی لباس را تولید کند، که نشان دهنده دشواری در نظر گرفتن وظیفه ما به عنوان یک کار جفت نشده است و سودمندی رویکرد خودکار ما برای ساخت مجموعه داده های جفتی را تأیید می کند. ما همچنین دریافتیم که روش‌های مرسوم تمایل به نقاشی تصاویر با بافت‌های صاف دارند و اشکال دقیق لباس‌های انیمه ورودی را منعکس نمی‌کنند. متمایزکنندگان آنها در یافتن مطابقت بین تصاویر انیمه ورودی و تصاویر لباس خروجی مشکل داشتند زیرا این دو حوزه از نظر تعادل بدن، حالت ها و شکل ها به طور قابل توجهی متفاوت هستند. با این حال، روش پیشنهادی به طور موثر تصاویر واقعی‌تر و ریزدانه‌تری نسبت به روش‌های معمولی تولید می‌کند. از دست دادن ثبات ورودی ما، مطابقت بین تصاویر جفت شده را از طریق تطبیق ویژگی در لایه‌های میانی پیدا کرد، که شکل لباس‌های تولید شده را شبیه به لباس‌های انیمه متناظرشان می‌کرد. مدل از پیش آموزش‌دیده ما، که در وب موجود است، نشان داد که می‌تواند چنین تصاویر لباسی را برای هر تصویر شخصیت انیمیشنی تولید کند. توجه داشته باشید که روش پیشنهادی نه تنها تصاویر چند کانالی مانند تصاویر رنگی RGB، بلکه تصاویر با مقیاس خاکستری را نیز می پذیرد. آزمایش‌های اولیه ما، که نتایج دقیق آن به دلیل محدودیت‌های فضا نشان داده نشده است، تأیید کرد که روش پیشنهادی بهتر از روش‌های معمولی عمل می‌کند، حتی در هنگام تبدیل تمام تصاویر موجود در مجموعه داده به مقیاس خاکستری.

نتیجه گیری و کار بیشتر
این مقاله روش جدیدی را برای ترجمه تصاویر شخصیت انیمه به تصاویر لباس پیشنهاد می‌کند تا ایجاد لباس‌های کازپلی را تسهیل کند. ما ابتدا یک رویکرد برای ساختن یک مجموعه داده تمیز و جفت شده برای وظیفه خود شرح دادیم. سپس، یک معماری جدید GAN مجهز به چندین تکنیک برای پل زدن انیمه و لباس واقعی و بهبود کیفیت تصویر تولید شده ارائه کردیم. آزمایش‌های انجام‌شده با استفاده از مجموعه داده ما نشان داد که GAN پیشنهادی از نظر FID، FID متمرکز بر مد و LPIPS بهتر از چندین روش موجود عمل می‌کند. ما همچنین نشان دادیم که تصاویر تولید شده توسط روش پیشنهادی واقعی‌تر از تصاویر تولید شده توسط روش‌های مرسوم با استفاده از پنج تصویر آزمایشی بودند. به طور خاص، ما متوجه شدیم که یک روش ترجمه تصویر به تصویر جفت نشده در تولید تصاویر لباس پوشیدنی مورد نظر شکست خورده است و اهمیت ساخت یک جفت را تایید می کند.

مجموعه داده d برای پل زدن دو دامنه مختلف.

روش ما هنوز جای پیشرفت دارد. اگرچه کالیبراسیون مجموعه داده ما برای آموزش GAN موثر بود، اما ممکن است در تصاویر پر سر و صدا وجود داشته باشد. افت سازگاری ورودی پیشنهادی بر اساس از دست دادن L1 بین یک شخصیت انیمه ورودی و تصویر لباس سنتز شده آن محاسبه شد، با فرض اینکه نسبت بدن شخصیت‌ها در تمام تصاویر آموزشی نسبتاً ثابت باشد. اگر صورت یا سر یک کاراکتر در تصویر ورودی به طور قابل توجهی بزرگتر از لباس آن باشد (به عنوان مثال، Hello KittyFootnote5)، ژنراتور فعلی ممکن است تصویر لباس مربوطه را تولید نکند: رنگ و شکل لباس تحت تأثیر صورت یا سر قرار می گیرد. . ما قصد داریم یک رویکرد پیچیده‌تر ایجاد کنیم که مطابقت سطح پیکسل بین ورودی‌ها و خروجی‌ها را در نظر می‌گیرد، و قصد داریم نحوه تغییر شکل بدن یک کاراکتر ورودی را برای سازگاری در کل مجموعه داده بررسی کنیم.

یادداشت
https://github.com/tan5o/anime2clothing

لطفاً توجه داشته باشید که این نام متریک "شباهت" است، اما هر چه کوچکتر باشد، بیشتر شبیه است.

http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion/AttributePrediction.html

آموزش ما در (b) (یعنی فقط اضافه کردن طرح درشت به ریز) ناپایدار شد، بنابراین عادی سازی نمونه تمایزکننده [35] را به نرخ یادگیری مساوی [13] تغییر دادیم تا آموزش (b) را تثبیت کنیم. ما این تنظیم را در (c) لغو کردیم.

https://www.sanrio.co.jp/character/hellokitty/

منابع
مجموعه داده های MyAnimeList Azathoth (2018): شامل 300 هزار کاربر، 14 هزار متادیتا انیمه و 80 میلیون است. رتبه بندی از MyAnimeList.net. https://www.kaggle.com/azathoth42/myanimelist. مشاهده شده در 19 آگوست 2020

Chen Y، Wang Z، Peng Y، Zhang Z، Yu G، Sun J (2018) شبکه هرمی آبشاری برای تخمین حالت چند نفره. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 7103-7112

Cheng W-H، Song S، Chen C-Y، Hidayati SC، Liu J (2020) Fashion Meets Computer Vision: A Survey. arXiv:2003.13988

Ci Y, Ma X, Wang Z, Li H, Luo Z (2018) رنگ‌آمیزی هنری خط انیمه عمیق با شبکه‌های خصمانه مشروط توسط کاربر. در: مجموعه مقالات بیست و ششمین کنفرانس بین المللی ACM در چند رسانه ای، صفحات 1536-1544

پایگاه داده توصیه‌های انیمه CooperUnion (2016): داده‌های توصیه‌ای از 76000 کاربر در myanimelist.net. https://www.kaggle.com/CooperUnion/anime-recommendations-database. مشاهده شده در 19 آگوست 2020

Cordts M، Omran M، Ramos S، Rehfeld T، Enzweiler M، Benenson R، Franke U، Roth S، Schiele B (2016) مجموعه داده‌های Cityscapes برای درک معنایی صحنه شهری. در: مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، صفحات 3213-3223

Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y (2014) Generative Adversarial Nets. در: پیشرفت در سیستم های پردازش اطلاعات عصبی، صفحات 2672-2680

Hamada K، Tachibana K، Li T، Honda H، Uchida Y (2018) نسل انیمه با وضوح بالا با ساختار پیشرو-شبکه‌های متخاصم مولد مشروط. در: کنفرانس اروپایی بینایی کامپیوتر. اسپرینگر، صص 67-74

Han X، Wu Z، Wu Z، Yu R، Davis L S (2018) Viton: یک شبکه آزمایشی مجازی مبتنی بر تصویر. در: مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، صفحات 7543-7552

Heusel M، Ramsauer H، Unterthiner T، Nessler B، Hochreiter S (2017) GAN های آموزش دیده توسط یک قانون به روز رسانی دو مقیاس زمانی به یک تعادل نش محلی همگرا می شوند. در: پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، صفحات 6626-6637

Isola P, Zhu J-Y, Zhou T, Efros A A (2017) ترجمه تصویر به تصویر با شبکه های متخاصم شرطی. در: مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، صفحات 1125-1134

Jin Y، Zhang J، Li M، Tian Y، Zhu H، Fang Z (2017) به سوی ایجاد خودکار شخصیت‌های انیمه با شبکه‌های متخاصم مولد. arXiv:1708.05509

Karras T، Aila T، Laine S، Lehtinen J (2017) رشد پیشرونده GAN ها برای بهبود کیفیت، ثبات و تنوع. arXiv:1710.10196

Kingma DP، Ba J (2014) Adam: A Method for Stochastic Optimization. arXiv:1412.6980

Krizhevsky A, Sutskever I, Hinton G E (2012) طبقه بندی ImageNet با شبکه های عصبی پیچیده عمیق. در: پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، صفحات 1097-1105

Kwon Y، Kim S، Yoo D، Yoon S-E (2019) تولید تصویر لباس‌های درشت به ریز با GAN شرطی ساخته شده به تدریج. در: چهاردهمین کنفرانس بین المللی تئوری و کاربردهای بینایی رایانه، انتشارات SCITPRESS-علوم و فناوری، صص 83–90

Li V (2018) FashionAI KeyPoint Detection Challenge Keras. https://github.com/yuanyuanli85/FashionAI_KeyPoint_Detection_Challenge_Keras. مشاهده شده در 19 آگوست 2020

Liu W، Anguelov D، Erhan D، Szegedy C، Reed S، Fu C-Y، Berg AC (2016) SSD: Single Shot Multibox Detector. در: کنفرانس اروپایی بینایی کامپیوتر. اسپرینگر، ص 21-37

Liu Z, Luo P, Qiu S, X, Tang X (2016) DeepFashion: قدرت تشخیص و بازیابی لباس های قوی با حاشیه نویسی های غنی. در: مجموعه مقالات کنفرانس IEEE در Comp

بینایی رحم و تشخیص الگو (CVPR)، صفحات 1096-1104

lltcggie (2018) Waifu2x-Caffe. https://github.com/lltcggie/waifu2x-caffe. (آخرین دسترسی: 19/08/2020)

Long J, Shelhamer E, Darrell T (2015) شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در: مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، صفحات 3431-3440

Mao X، Li Q، Xie H، Lau RY، Wang Z، Paul Smoley S (2017) شبکه‌های متخاصم مولد حداقل مربعات. در: مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، صفحات 2794-2802

میرزا ام، اوسیندرو اس (2014) شبکه های متخاصم مولد مشروط. arXiv:1411.1784

Miyato T، Kataoka T، Koyama M، Yoshida Y (2018) عادی سازی طیفی برای شبکه های متخاصم مولد. arXiv:1802.05957

Park T، Liu M-Y، T-C، Zhu J-Y (2019) ترکیب تصویر معنایی با عادی سازی فضایی-تطبیقی. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 2337-2346

ripobi-tan (2016) DupFileEliminator. https://www.vector.co.jp/soft/winnt/util/se492140.html. مشاهده شده در 19 آگوست 2020

Ronneberger O, Fischer P, Brox T (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. در: کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر. اسپرینگر، ص 234-241

Royer A, Bousmalis K, Gouws S, Bertsch F, Mosseri I, Cole F, Murphy K (2020) XGAN: ترجمه تصویر به تصویر بدون نظارت برای نگاشتهای چند به چند. در: تطبیق دامنه برای درک بصری. اسپرینگر، ص 33-49

Salimans T، Goodfellow I، Zaremba W، Cheung V، Radford A، Chen X (2016) تکنیک های بهبود یافته برای آموزش GAN ها. در: پیشرفت در سیستم های پردازش اطلاعات عصبی، صفحات 2234-2242

Shocher A, Bagon S, Isola P, Iranian M (2018) InGAN: گرفتن و نقشه برداری مجدد "DNA" یک تصویر طبیعی. arXiv:1812.00231

Shorten C, Khoshgoftaar TM (2019) A Survey on Image Augmentation Data for Deep Learning. J Big Data 6(1):60

مقاله
 
Google Scholar
 

Simonyan K, Zisserman A (2014) شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv:1409.1556

Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z (2016) بازاندیشی در معماری آغازین برای بینایی کامپیوتری. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 2818-2826

Tang H, Xu D, Sebe N, Yan Y (2019) شبکه‌های متخاصم مولد با هدایت برای ترجمه تصویر به تصویر بدون نظارت. arXiv:1903.12296

Ulyanov D, Vedaldi A, Lempitsky V (2017) بهبود شبکه‌های بافت: به حداکثر رساندن کیفیت و تنوع در سبک‌سازی پیش‌خور و سنتز بافت. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 6924-6932

Vijayanarasimhan S، Grauman K (2011) یادگیری مقوله بصری فعال حساس به هزینه. Int J Comput Vis 91 (1): 24-44

مقاله
 
Google Scholar
 

Wang T-C، Liu M-Y، Zhu J-Y، Tao A، Kautz J، Catanzaro B (2018) ترکیب تصویر با وضوح بالا و دستکاری معنایی با GANهای شرطی. در: مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، صفحات 8798-8807

WCS Inc. (2019) WCS چیست؟. https://en.worldcosplaysummit.jp/championship2019-about. 24 مه 2020

Wu W، Cao K، Li C، Qian C، Loy CC (2019) Transgaga: Geometry-Aware Unsupervised Image-to-Image translation. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 8012-8021

Wu Z، Lin G، Tao Q، Cai J (2019) M2E-Try On Net: Fashion from Model to Everyone. در: مجموعه مقالات بیست و هفتمین کنفرانس بین المللی ACM در زمینه چند رسانه ای، صفحات 293–301

Yoo D، Kim N، Park S، Paek AS، Kweon IS (2016) انتقال دامنه در سطح پیکسل. در: کنفرانس اروپایی بینایی کامپیوتر. اسپرینگر، ص 517-532

Zhang R، Isola P، Efros AA، Shechtman E، Wang O (2018) اثربخشی غیرمنطقی ویژگی‌های عمیق به عنوان یک معیار ادراکی. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 586-595

Zhu J-Y، Park T، Isola P، Efros AA (2017) ترجمه بدون جفت تصویر به تصویر با استفاده از شبکه‌های متخاصم سازگار با چرخه. در: مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، صفحات 2223-2232

Zhu S، Urtasun R، Fidler S، Lin D، Change Loy C (2017) خودتان پرادا باشید: ترکیب مد با انسجام ساختاری. در: مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، صفحات 1680-1688

Zou X، Kong X، Wong W، Wang C، Liu Y، Cao Y (2019) FashionAI: مجموعه داده سلسله مراتبی برای درک مد. در: مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، صفحات 296-304

لینک سایت منبع

  • ۰۱/۰۶/۰۳
  • محمد محمدی

نظرات (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی