Думите “Duplicate content filter” явно се свързват изцяло и само със SEO и разните му гугълски оптимизиация. Да, ама днес реших да правя такова нещо – не! не! и не! не става дума за SEO, а чисто и просто откриване на поваряща се информация. В моя случай: десетки хиляди заглавия и няколко процента от тях повтарящи се или най-точно казано всичко, което се излива на килограми в AlfaRSS.Info
Намирането на напълно еднакви заглавия е лесно, но както винаги лесните неща не са най-добрите (въпреки, че една скоропоговорка твърди обратното) и софтуера трябва да намира и близки или поне възможно най-много разновидности на едни и същи изречения.
В крайна сметка гугленето не помогна и сега, някъде към три през ноща, цялата глупост се опрости до една малка функция, която работи перфектно.
Накратко функцията търси думите в един речник, после в друг речник търси изречения със същия брой и вид думи с относителна точност плюс/минус една дума.
За сега работи перфектно, но ще следя резултатите за да хвана евентуалните проблеми.
Май е време да си лягам… Монк тайм!