Што има на фотографијата?

Што има на фотографијата?

Подготвил: Светлана Петковска

“Google“ отвори нов прототип модел за системот за машинско учење наречен “Show and Tell“ што може од прикажената фотографија да генерира точни и оригинални легенди.

Моделот е пуштен за да овозможи побрзо вежбање и подобрување на фотографиите со легенди во споредба со верзиите кои претходно помогнаа да се обезбеди првото место со “Microsoft Research“ во натпреварот за објаснување на слики“Microsoft's COCO 2015“.


TensorFlow


Системот за прикажување на слики е достапен за користење со “TensorFlow“. Се работи за отворена фрејмворк за машинско учење на “Google“, а може да поседува стапка на прецизност од 93,9 проценти на “ImageNet“, за разлика од претходните повторувања.

Кодот вклучува подобрена модел визија, дозволувајќи му на системот кој ја прикажува фотографија, да ги признае различните објекти во фотографијата, а со тоа да создаде подобри описи. Подобрување на моделот на фотографијата во меѓувреме помага во овластувањата на опис на системот за објаснување, така што не само што би идентификувало куче, трева или фризби во фотографијата, туку би ја опишува и бојата на тревата и други детали од  контекстот.

Подобрувањата, детално опишани во новиот документ, ќе се применуваат на неодамнешниот развој во компјутерска визија и машинско преведување во предизвиците за објаснување на фотографиите. Истражувачите на “Google“ гледаат потенцијал за тоа како алатка за пристапност за визуелно хендикепирани лица кога гледаат слики на интернет.

Тој пристап е сличен на  “Facebook“  кој користи техники на компјутерска визија за да опише слики за слепите лица. Заменувањето на “Google“ од претходните нејзини имплементации на “DistBelief“ со “TensorFlow“ има произведено импресивно намалување на времето во брзината на обуката.

"Имплементацијата на “TensorFlow“ објавена во Петокот,  постигнува исто ниво на прецизност со значително побрзи перформанси: време по чекор за вежбање изнесува само 0,7 секунди во “TensorFlow“ во споредба со три секунди во “DistBelief“ на “Nvidia K20“ графичкиот процесор, што значи дека вкупното време за обука е само 25 проценти од времето што претходно се бараше"-напишал Крис Шали, софтверски инженер од тимот на “Google“.

Според Шали, системот за објаснување, не ги повторува само описите за слични сцени што се учат од вежбањето на слики кои се опишани од страна на луѓето. Тој ги произведува понекогаш истите легенди, но тоа исто така може да создаде сосема нови текстови под сликата и да ги претстави со нови сцени и да ги изрази со природен звук на англиски фрази.
SaveSaveSave