четверг, 28 августа 2025 г.

Неделя ЖЖ

Окрыленный победой над википедией, целую неделю убил на ЖЖ, в основном из-за комментариев. А в результате решил оставить эту затею. Официально ЖЖ отдает немного последних комментариев. Исследовал три проекта, где утверждается, что все комментарии можно взять :

Все они требуют авторизации, либо непосредственно при архивации конверттного блога, либо своя авторизация забита разработчиком. Этот вариант мне категорически не нравится. Поэтому было решено парсить, что отдается в браузер. И тут я понял почему ЖЖ так слабо развивается и, красиво стартонув, практически отстал и становится никому не нужен. Вместо того, что бы развивать по современным требованим свой функционал, они все свои ресурсы потратили на защиту комментариев от ботов. Он их распознает и отдает не те страницы, которые отдает простому браузеру. Попытки замаскироваться ни к чему не привели. Были попытки программно обнаружить триггеры, которые меняют сценарии динамической подгрузки, безуспешно. Остался единственный вариант, эти триггеры найти глазавми в ручную. А том столько рекламы, проверок на толлерантность и прочего мусора, что заставило глубже задуматься о том, что это потраченное время может быть не контролируемым и неоправданным. Ну получу я все комментрии неизвестно когда. Зачем? О затем, что или забыть про них или, все-таки, просмотреть каждый на предмет того, нужен или нет, с точки зрения ценности информации. Каждый. А после этого львинную долю удалить. И все это на фоне их большой кучи. Ссылка на оргинальную страницу комментария есть. Каая разница где смотреть и проверять. Может даже проще и меньше работы для анализа, когда наоборот формируешь тиддлеры вручную для той инфы которая нужна. Если требуется в специальныйх случая сохранить иерархию отдельного диалога, то на примере последних комментариев есть схема такой организации. А больше ничего и не надо. Вот и все. 

Можно говорить, что более половины работы над модудем конвертации сделано. И не смотря на то, что следующая платформа - телеграм, все должно быть проще, поскольку все оставшиеся по плану платформы, сделаны с учетом современных требований и, кажется все отдают все често (кроме явно закрытых) и даже в JSON.

Комментариев нет:

Отправить комментарий