Фото: Shutterstock
Компјутерите станаа многу поуспешни во преведувањето од еден на друг јазик во изминативе години благодарение на примената на нервните мрежи. Сепак, овие системи на вештачка интелигенција обично бараат доста содржина преведена од страна на луѓето, од која компјутерите можат да учат. Сега, две нови истражувања покажуваат дека може да се развие систем кој нема да се потпира на паралелни текстови.
Микел Артетксе, компјутерски научник на Универзитетот во Баскија и еден од авторите на овие истражувања, ја споредува ситуацијата кога на некого му се дадени неколку вида книги на кинески и на арапски јазик, без истите текстови да се преклопуваат. На човекот би му било тешко да научи да преведува од кинески на арапски, меѓутоа, на компјутерот не.
Во еден типичен процес на машинско учење, системот за вештачка интелигенција би бил надгледуван. Ова значи дека би направил обид да го даде одговорот за кој било даден проблем, а човекот ќе каже дали е точно или не и ќе ја измени неговата активност онаму каде што е потребно. Но ова не е случајот со двата документи.
Наместо тоа, тие зависат од начинот на кој се поврзани зборовите, на сличен начин во различни јазици - на пример, „маса“ и „столче“ обично се користат заедно, без разлика на дијалектот. Со мапирање на овие врски за секој јазик и потоа со нивно споредување, возможно е да се добие пристојна идеја за тоа кои термини се однесуваат еден на друг. Овој процес не е надгледуван од човекот.
Системите можат да се користат за преведување цели реченици, а не само на индивидуални зборови, со користење две комплементарни стратегии за обука.
Тест за зборови
Двата системи - еден развиен на Универзитетот во Баскија, а другиот од компјутерскиот научник од „Фејсбук“, Гијом Лимп - допрва треба да бидат рецензирани, но покажаа ветувачки резултати од почетокот на тестирањето.
Единствениот начин да се направи директна споредба помеѓу нивните способности е преку мерење на нивната способност за преведување помеѓу англиски и француски текст што доаѓа од заеднички „базен“ од околу 30 милиони речници. И двата успеале да постигнат 15 двојазични поени.
„Гугл тренслејт“, кој користи надгледано машинско учење, има околу 40 поени, додека преведувачите можат да достигнат 50 поени. Сепак,
резултатите без надзор се значително подобрени во однос на основниот, збор-за-збор превод.