Az MTA TK RECENS Kutatócsoportja és az MTA PTI POLTEXT Projektje többek között 20. századi nyomtatott újságokat használ fel társadalomtudományi kérdések szövegbányászati módszerekkel történő vizsgálatához. Ehhez szükséges a papír alapon keletkezett majd scannelt újságok előfeldolgozására is, melyen a két csoport kutatói közösen dolgoznak. Az előadás során egyrészt bemutatjuk, hogy miért nem elégséges a scannelt állományokat csupán optikai karakterfelismerés segítségével feldolgozni, miért szükséges újratördelni azokat. Majd a gyakorlatban is megmutatjuk a jelenleg kidolgozás alatt álló algoritmus működését, amely computer vision és mesterséges intelligencia eszközök segítségével ismeri fel az újságok tördeléséhez szükséges képi elemeket: címeket, hasáb- és szakaszhatárokat, töréseket.
Pontos helyszín:
MTA Humán Tudományok Kutatóháza
Tóth Kálmán u. 4.
Budapest, Budapest 109