Интересна статистика излезе като резултат от оптимизацията и изтриването на излишните текстове/линкове в alfarss.info.
AlfaRSS не е единственият агрегатор на rss канали, но е уникален по това, че не извежда повтарящи се новини. Роботите на AlfaRSS.Info проверяват всяка новина за предишна подобна, така елиминират в голяма степен повтарящото се съдържание и извеждат само уникални текстове. С времето алгоритъма откриващ дупликатите доста се разви и стана сравнително акуратен – над 95% от прекопирани текстове биват хващани. Разбира се има и такива, които преминават през алгоритъма, но те са твърде изменени, а робота все още не може да хваща семантиката на новини. За сега.
Днес реших да не губя излишно място на сървъра, на който е AlfaRSS и реших да затрия повтарящите се новини. Така или иначе те не се извеждат под никаква форма в сайта.
Статистиката сочи, че средно на всеки 3 секунди излиза новина, която не е оригинална, а е прекопирана едно към едно или е с много висок процент близка или казано направо: твърде съмнително близка. Такъв тъп новини не се извеждат на сайта, а се използват единствено за създаване на статистика за всеки източник. От тази статистика се виждат и няколко сайта, в които 2 от 3 новини са копирани от някъде… звучи ужасно, но е факт, че това не са никак малки сайтове!
*Крадена или копирана – към момента няма създаден автоматичен алгоритъм разпознаващ единия от другия вид.
Добре, че няма такава статистика за родната преса…
Там е тъмна Индия за човек като мен :)))
Още ли се произвеждат такива неща?:D
Ами крайно време е нещо да се направи срещу копирането и краденето на информация.
Не мислиш ли?
В случая не е ясно дали става дума за крадене на информация, тъй като повечето сайтове не са източници на тази информация. Те я откупуват и я използват.
Проблема е, че всички явно купуват правата за ползване от едно място (от БТА) от там и еднаквите материали.