Програмиране


От няколко дни (нощи) мъча xmlrpc протокола и по-скоро неговата свързаност с така нашумялите в днешно време блогове.

В крайна сметка го преборих! Вероятно тази вечер българският каталог за безплатен софтуер ще стане пълноправен член на общността даваща достъп до протокола pingback работещ върху xmlrpc.

За какво става дума? Какви са тези съкращения дето ги дрънкам? Всъщност всеки един блогер без да знае използва протоколите pingback или trackback. Те дават възможност на авторите на блогове, които биват цитирани, да получават известие за това, че са били цитирани.
Или с по-ясни думи: когато някой блогер постави в своя блог линк към статия на notrial.info, то неговият блог автоматично ще информира noТrial за този пост. В последствие от това в цитираната статия най-отдолу ще се появи линк към сайта на блогера.

Системата за сега работи тестово и е възможно да дава бъгове. Не се използва готова система/софтуер и с времето ще се добавят всички екстри. Функционалността за сега е съвсем базова.

Едно линкче за проба: Софтуер удвоява P2P скоростите

1.Сговорни инженери и 8086 Upgrade-ват.
2.Незаредена дънна батерия, Setup не поддържа.
3.Бай програмисте, да не те срещне “Правец”.
4.Краткотрайното програмиране – срам за програмиста.
5.Който вирус пише, от вирус бива форматиран.
6.Присмял се 8086 на 8088.
7.Който crack-ва сам бива crack-нат.
8.На 286-ца – двойка копроцесори.
9.Видяла 286-цата, че вграждат копроцесор на Pentium-а, и тя разтворила слотове.
10.Longit баби – лоши сектори.
11.Малкият вирус и големия диск форматира.
12.Който не е информиран, ще бъде форматиран.
13.Беден програмист – Pentium сънува.
14.Не е луд този, който пише софтуеър за 16 MB RAM, а този, който го използва.
15.Хитрият cracker, с двата крака.

Думите “Duplicate content filter” явно се свързват изцяло и само със SEO и разните му гугълски оптимизиация. Да, ама днес реших да правя такова нещо - не! не! и не! не става дума за SEO, а чисто и просто откриване на поваряща се информация. В моя случай: десетки хиляди заглавия и няколко процента от тях повтарящи се или най-точно казано всичко, което се излива на килограми в AlfaRSS.Info

Намирането на напълно еднакви заглавия е лесно, но както винаги лесните неща не са най-добрите (въпреки, че една скоропоговорка твърди обратното) и софтуера трябва да намира и близки или поне възможно най-много разновидности на едни и същи изречения.

В крайна сметка гугленето не помогна и сега, някъде към три през ноща, цялата глупост се опрости до една малка функция, която работи перфектно.

Накратко функцията търси думите в един речник, после в друг речник търси изречения със същия брой и вид думи с относителна точност плюс/минус една дума.

За сега работи перфектно, но ще следя резултатите за да хвана евентуалните проблеми.

Май е време да си лягам… Монк тайм!