CycleGAN [43]: CycleGAN یک روش معمولی برای ترجمه تصویر به تصویر بدون جفت است. ما آن را با در نظر گرفتن مجموعه داده خود به عنوان جفت نشده و به دنبال اجرای رسمی آن با اندازه دسته ای 1 آموزش دادیم.
انتقال دامنه در سطح پیکسل (PLDT) [41]: PLDT با اندازه دسته ای 128 آموزش داده شد. از آنجایی که وضوح خروجی های PLDT در ابتدا 64 × 64 بود، با استفاده از درون یابی دو مکعبی بر اساس 4 × 4 به 256 × 256 بزرگ شد. پیکسل ها
Pix2pix [11]: pix2pix با اندازه دسته ای 1 با استفاده از پیاده سازی رسمی آن آموزش داده شد.
pix2pixHD [37]: pix2pixHD با اندازه دسته ای 16 و وضوح 256 × 256 با استفاده از اجرای رسمی آن آموزش داده شد.
SPADE [25]: SPADE یک روش پیشرفته ترجمه تصویر به تصویر با لایه های عادی سازی شرطی است. برای مقایسه منصفانه، ما آن را تغییر دادیم تا با نقشههای تقسیمبندی معنایی، بلکه با تصاویر ورودیمان کار کند. تیشرت های انیمه ای بیشتر بخوانید تیشرت انیمه ای با استفاده از اجرای رسمی آن با اندازه دسته ای 1 آموزش داده شد.
همه GAN ها با استفاده از تقویت داده های مشابه ما آموزش داده شدند. جدول 3 مقایسه ای را با روش های مرسوم ترجمه تصویر به تصویر از نظر FID، FIDfashion، LPIPS و تعداد پارامترهای استفاده شده در مولد هر مدل نشان می دهد. توجه داشته باشید که تفاوت بین خط مبنا در جدول 2 (a) و pix2pix در جدول 3 این است که آیا از رویکرد کالیبراسیون مجموعه داده پیشنهادی استفاده شده است یا خیر. همانطور که نشان داده شد، روش ما در همه اندازهها عملکرد بهتری داشت. PLDT از دست دادن L1 نداشت و تمرین آن ناپایدار بود. اگرچه pix2pixHD نسخه پیشرفته pix2pix است، اما از برازش بیش از حد رنج می برد و نتوانست تصاویری با کیفیت بالا تولید کند. SPADE بر اساس نرمال سازی نمونه است و نیاز به یادگیری 92.06 میلیون پارامتر از ژنراتور خود دارد، که به مقدار زیادی زمان آموزش در محیط محاسباتی ما نیاز دارد. ما همچنین از نمرات FIDfashion دریافتیم که تصاویر تولید شده توسط SPADE از نظر ویژگیهای بصری مرتبط با مد با تصاویر GT آنها سازگاری کمتری دارند تا تصاویر تولید شده توسط روش ما، که دلالت بر نیاز به ساخت استراتژیهای انتقال دامنه برای استفاده از SPADE در ما دارد. وظیفه.
جدول 3 مقایسه های کمی با روش های مرسوم
جدول اندازه کامل
شکل 11
شکل 11
مقایسه با روش های مرسوم ترجمه تصویر به تصویر GT مخفف "واقعیت زمین" است. (تصاویر ورودی عبارتند از: Asaka Karin, Love Live! School Idol Festival؛ Jin, Samurai Champloo؛ Shirakiin Ririchiyo, Inu×Boku SS؛ Sonoda Umi, Love Live! Sunshine!!؛ و Kirito, Sword Art Online)
تصویر در اندازه کامل
شکل 11 نتایج تولید تصویر لباس را نشان می دهد که با روش پیشنهادی و روش های مرسوم برای پنج تصویر آزمایشی به دست آمده است. شخصیتهای این تصاویر آزمایشی لباسهای متنوع و پیچیده به تن داشتند. CycleGAN نتوانست تصاویر واقعی لباس را تولید کند، که نشان دهنده دشواری در نظر گرفتن وظیفه ما به عنوان یک کار جفت نشده است و سودمندی رویکرد خودکار ما برای ساخت مجموعه داده های جفتی را تأیید می کند. ما همچنین دریافتیم که روشهای مرسوم تمایل به نقاشی تصاویر با بافتهای صاف دارند و اشکال دقیق لباسهای انیمه ورودی را منعکس نمیکنند. متمایزکنندگان آنها در یافتن مطابقت بین تصاویر انیمه ورودی و تصاویر لباس خروجی مشکل داشتند زیرا این دو حوزه از نظر تعادل بدن، حالت ها و شکل ها به طور قابل توجهی متفاوت هستند. با این حال، روش پیشنهادی به طور موثر تصاویر واقعیتر و ریزدانهتری نسبت به روشهای معمولی تولید میکند. از دست دادن ثبات ورودی ما، مطابقت بین تصاویر جفت شده را از طریق تطبیق ویژگی در لایههای میانی پیدا کرد، که شکل لباسهای تولید شده را شبیه به لباسهای انیمه متناظرشان میکرد. مدل از پیش آموزشدیده ما، که در وب موجود است، نشان داد که میتواند چنین تصاویر لباسی را برای هر تصویر شخصیت انیمیشنی تولید کند. توجه داشته باشید که روش پیشنهادی نه تنها تصاویر چند کانالی مانند تصاویر رنگی RGB، بلکه تصاویر با مقیاس خاکستری را نیز می پذیرد. آزمایشهای اولیه ما، که نتایج دقیق آن به دلیل محدودیتهای فضا نشان داده نشده است، تأیید کرد که روش پیشنهادی بهتر از روشهای معمولی عمل میکند، حتی در هنگام تبدیل تمام تصاویر موجود در مجموعه داده به مقیاس خاکستری.
نتیجه گیری و کار بیشتر
این مقاله روش جدیدی را برای ترجمه تصاویر شخصیت انیمه به تصاویر لباس پیشنهاد میکند تا ایجاد لباسهای کازپلی را تسهیل کند. ما ابتدا یک رویکرد برای ساختن یک مجموعه داده تمیز و جفت شده برای وظیفه خود شرح دادیم. سپس، یک معماری جدید GAN مجهز به چندین تکنیک برای پل زدن انیمه و لباس واقعی و بهبود کیفیت تصویر تولید شده ارائه کردیم. آزمایشهای انجامشده با استفاده از مجموعه داده ما نشان داد که GAN پیشنهادی از نظر FID، FID متمرکز بر مد و LPIPS بهتر از چندین روش موجود عمل میکند. ما همچنین نشان دادیم که تصاویر تولید شده توسط روش پیشنهادی واقعیتر از تصاویر تولید شده توسط روشهای مرسوم با استفاده از پنج تصویر آزمایشی بودند. به طور خاص، ما متوجه شدیم که یک روش ترجمه تصویر به تصویر جفت نشده در تولید تصاویر لباس پوشیدنی مورد نظر شکست خورده است و اهمیت ساخت یک جفت را تایید می کند.
مجموعه داده d برای پل زدن دو دامنه مختلف.
روش ما هنوز جای پیشرفت دارد. اگرچه کالیبراسیون مجموعه داده ما برای آموزش GAN موثر بود، اما ممکن است در تصاویر پر سر و صدا وجود داشته باشد. افت سازگاری ورودی پیشنهادی بر اساس از دست دادن L1 بین یک شخصیت انیمه ورودی و تصویر لباس سنتز شده آن محاسبه شد، با فرض اینکه نسبت بدن شخصیتها در تمام تصاویر آموزشی نسبتاً ثابت باشد. اگر صورت یا سر یک کاراکتر در تصویر ورودی به طور قابل توجهی بزرگتر از لباس آن باشد (به عنوان مثال، Hello KittyFootnote5)، ژنراتور فعلی ممکن است تصویر لباس مربوطه را تولید نکند: رنگ و شکل لباس تحت تأثیر صورت یا سر قرار می گیرد. . ما قصد داریم یک رویکرد پیچیدهتر ایجاد کنیم که مطابقت سطح پیکسل بین ورودیها و خروجیها را در نظر میگیرد، و قصد داریم نحوه تغییر شکل بدن یک کاراکتر ورودی را برای سازگاری در کل مجموعه داده بررسی کنیم.
یادداشت
https://github.com/tan5o/anime2clothing
لطفاً توجه داشته باشید که این نام متریک "شباهت" است، اما هر چه کوچکتر باشد، بیشتر شبیه است.
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion/AttributePrediction.html
آموزش ما در (b) (یعنی فقط اضافه کردن طرح درشت به ریز) ناپایدار شد، بنابراین عادی سازی نمونه تمایزکننده [35] را به نرخ یادگیری مساوی [13] تغییر دادیم تا آموزش (b) را تثبیت کنیم. ما این تنظیم را در (c) لغو کردیم.
https://www.sanrio.co.jp/character/hellokitty/
منابع
مجموعه داده های MyAnimeList Azathoth (2018): شامل 300 هزار کاربر، 14 هزار متادیتا انیمه و 80 میلیون است. رتبه بندی از MyAnimeList.net. https://www.kaggle.com/azathoth42/myanimelist. مشاهده شده در 19 آگوست 2020
Chen Y، Wang Z، Peng Y، Zhang Z، Yu G، Sun J (2018) شبکه هرمی آبشاری برای تخمین حالت چند نفره. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 7103-7112
Cheng W-H، Song S، Chen C-Y، Hidayati SC، Liu J (2020) Fashion Meets Computer Vision: A Survey. arXiv:2003.13988
Ci Y, Ma X, Wang Z, Li H, Luo Z (2018) رنگآمیزی هنری خط انیمه عمیق با شبکههای خصمانه مشروط توسط کاربر. در: مجموعه مقالات بیست و ششمین کنفرانس بین المللی ACM در چند رسانه ای، صفحات 1536-1544
پایگاه داده توصیههای انیمه CooperUnion (2016): دادههای توصیهای از 76000 کاربر در myanimelist.net. https://www.kaggle.com/CooperUnion/anime-recommendations-database. مشاهده شده در 19 آگوست 2020
Cordts M، Omran M، Ramos S، Rehfeld T، Enzweiler M، Benenson R، Franke U، Roth S، Schiele B (2016) مجموعه دادههای Cityscapes برای درک معنایی صحنه شهری. در: مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، صفحات 3213-3223
Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y (2014) Generative Adversarial Nets. در: پیشرفت در سیستم های پردازش اطلاعات عصبی، صفحات 2672-2680
Hamada K، Tachibana K، Li T، Honda H، Uchida Y (2018) نسل انیمه با وضوح بالا با ساختار پیشرو-شبکههای متخاصم مولد مشروط. در: کنفرانس اروپایی بینایی کامپیوتر. اسپرینگر، صص 67-74
Han X، Wu Z، Wu Z، Yu R، Davis L S (2018) Viton: یک شبکه آزمایشی مجازی مبتنی بر تصویر. در: مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، صفحات 7543-7552
Heusel M، Ramsauer H، Unterthiner T، Nessler B، Hochreiter S (2017) GAN های آموزش دیده توسط یک قانون به روز رسانی دو مقیاس زمانی به یک تعادل نش محلی همگرا می شوند. در: پیشرفتها در سیستمهای پردازش اطلاعات عصبی، صفحات 6626-6637
Isola P, Zhu J-Y, Zhou T, Efros A A (2017) ترجمه تصویر به تصویر با شبکه های متخاصم شرطی. در: مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، صفحات 1125-1134
Jin Y، Zhang J، Li M، Tian Y، Zhu H، Fang Z (2017) به سوی ایجاد خودکار شخصیتهای انیمه با شبکههای متخاصم مولد. arXiv:1708.05509
Karras T، Aila T، Laine S، Lehtinen J (2017) رشد پیشرونده GAN ها برای بهبود کیفیت، ثبات و تنوع. arXiv:1710.10196
Kingma DP، Ba J (2014) Adam: A Method for Stochastic Optimization. arXiv:1412.6980
Krizhevsky A, Sutskever I, Hinton G E (2012) طبقه بندی ImageNet با شبکه های عصبی پیچیده عمیق. در: پیشرفتها در سیستمهای پردازش اطلاعات عصبی، صفحات 1097-1105
Kwon Y، Kim S، Yoo D، Yoon S-E (2019) تولید تصویر لباسهای درشت به ریز با GAN شرطی ساخته شده به تدریج. در: چهاردهمین کنفرانس بین المللی تئوری و کاربردهای بینایی رایانه، انتشارات SCITPRESS-علوم و فناوری، صص 83–90
Li V (2018) FashionAI KeyPoint Detection Challenge Keras. https://github.com/yuanyuanli85/FashionAI_KeyPoint_Detection_Challenge_Keras. مشاهده شده در 19 آگوست 2020
Liu W، Anguelov D، Erhan D، Szegedy C، Reed S، Fu C-Y، Berg AC (2016) SSD: Single Shot Multibox Detector. در: کنفرانس اروپایی بینایی کامپیوتر. اسپرینگر، ص 21-37
Liu Z, Luo P, Qiu S, X, Tang X (2016) DeepFashion: قدرت تشخیص و بازیابی لباس های قوی با حاشیه نویسی های غنی. در: مجموعه مقالات کنفرانس IEEE در Comp
بینایی رحم و تشخیص الگو (CVPR)، صفحات 1096-1104
lltcggie (2018) Waifu2x-Caffe. https://github.com/lltcggie/waifu2x-caffe. (آخرین دسترسی: 19/08/2020)
Long J, Shelhamer E, Darrell T (2015) شبکه های کاملاً پیچیده برای تقسیم بندی معنایی. در: مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، صفحات 3431-3440
Mao X، Li Q، Xie H، Lau RY، Wang Z، Paul Smoley S (2017) شبکههای متخاصم مولد حداقل مربعات. در: مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، صفحات 2794-2802
میرزا ام، اوسیندرو اس (2014) شبکه های متخاصم مولد مشروط. arXiv:1411.1784
Miyato T، Kataoka T، Koyama M، Yoshida Y (2018) عادی سازی طیفی برای شبکه های متخاصم مولد. arXiv:1802.05957
Park T، Liu M-Y، T-C، Zhu J-Y (2019) ترکیب تصویر معنایی با عادی سازی فضایی-تطبیقی. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 2337-2346
ripobi-tan (2016) DupFileEliminator. https://www.vector.co.jp/soft/winnt/util/se492140.html. مشاهده شده در 19 آگوست 2020
Ronneberger O, Fischer P, Brox T (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. در: کنفرانس بین المللی محاسبات تصویر پزشکی و مداخله به کمک کامپیوتر. اسپرینگر، ص 234-241
Royer A, Bousmalis K, Gouws S, Bertsch F, Mosseri I, Cole F, Murphy K (2020) XGAN: ترجمه تصویر به تصویر بدون نظارت برای نگاشتهای چند به چند. در: تطبیق دامنه برای درک بصری. اسپرینگر، ص 33-49
Salimans T، Goodfellow I، Zaremba W، Cheung V، Radford A، Chen X (2016) تکنیک های بهبود یافته برای آموزش GAN ها. در: پیشرفت در سیستم های پردازش اطلاعات عصبی، صفحات 2234-2242
Shocher A, Bagon S, Isola P, Iranian M (2018) InGAN: گرفتن و نقشه برداری مجدد "DNA" یک تصویر طبیعی. arXiv:1812.00231
Shorten C, Khoshgoftaar TM (2019) A Survey on Image Augmentation Data for Deep Learning. J Big Data 6(1):60
مقاله
Google Scholar
Simonyan K, Zisserman A (2014) شبکه های پیچیده بسیار عمیق برای تشخیص تصویر در مقیاس بزرگ. arXiv:1409.1556
Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z (2016) بازاندیشی در معماری آغازین برای بینایی کامپیوتری. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 2818-2826
Tang H, Xu D, Sebe N, Yan Y (2019) شبکههای متخاصم مولد با هدایت برای ترجمه تصویر به تصویر بدون نظارت. arXiv:1903.12296
Ulyanov D, Vedaldi A, Lempitsky V (2017) بهبود شبکههای بافت: به حداکثر رساندن کیفیت و تنوع در سبکسازی پیشخور و سنتز بافت. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 6924-6932
Vijayanarasimhan S، Grauman K (2011) یادگیری مقوله بصری فعال حساس به هزینه. Int J Comput Vis 91 (1): 24-44
مقاله
Google Scholar
Wang T-C، Liu M-Y، Zhu J-Y، Tao A، Kautz J، Catanzaro B (2018) ترکیب تصویر با وضوح بالا و دستکاری معنایی با GANهای شرطی. در: مجموعه مقالات کنفرانس IEEE در مورد دید کامپیوتری و تشخیص الگو، صفحات 8798-8807
WCS Inc. (2019) WCS چیست؟. https://en.worldcosplaysummit.jp/championship2019-about. 24 مه 2020
Wu W، Cao K، Li C، Qian C، Loy CC (2019) Transgaga: Geometry-Aware Unsupervised Image-to-Image translation. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 8012-8021
Wu Z، Lin G، Tao Q، Cai J (2019) M2E-Try On Net: Fashion from Model to Everyone. در: مجموعه مقالات بیست و هفتمین کنفرانس بین المللی ACM در زمینه چند رسانه ای، صفحات 293–301
Yoo D، Kim N، Park S، Paek AS، Kweon IS (2016) انتقال دامنه در سطح پیکسل. در: کنفرانس اروپایی بینایی کامپیوتر. اسپرینگر، ص 517-532
Zhang R، Isola P، Efros AA، Shechtman E، Wang O (2018) اثربخشی غیرمنطقی ویژگیهای عمیق به عنوان یک معیار ادراکی. در: مجموعه مقالات کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو، صفحات 586-595
Zhu J-Y، Park T، Isola P، Efros AA (2017) ترجمه بدون جفت تصویر به تصویر با استفاده از شبکههای متخاصم سازگار با چرخه. در: مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، صفحات 2223-2232
Zhu S، Urtasun R، Fidler S، Lin D، Change Loy C (2017) خودتان پرادا باشید: ترکیب مد با انسجام ساختاری. در: مجموعه مقالات کنفرانس بین المللی IEEE در بینایی کامپیوتر، صفحات 1680-1688
Zou X، Kong X، Wong W، Wang C، Liu Y، Cao Y (2019) FashionAI: مجموعه داده سلسله مراتبی برای درک مد. در: مجموعه مقالات کنفرانس IEEE در کارگاه های آموزشی بینایی کامپیوتری و تشخیص الگو، صفحات 296-304
- ۰۱/۰۶/۰۳