Окрыленный победой над википедией, целую неделю убил на ЖЖ, в основном из-за комментариев. А в результате решил оставить эту затею. Официально ЖЖ отдает немного последних комментариев. Исследовал три проекта, где утверждается, что все комментарии можно взять :
- https://github.com/sandlex/toolboxxy/tree/master/src/main/java/com/sandlex/toolboxxy/lj
- https://sourceforge.net/projects/ljarchive (https://github.com/zanybaka/ljArchive, https://ljarchive.livejournal.com)
- https://ljsear.ch (https://kukutz.livejournal.com)
Все они требуют авторизации, либо непосредственно при архивации конверттного блога, либо своя авторизация забита разработчиком. Этот вариант мне категорически не нравится. Поэтому было решено парсить, что отдается в браузер. И тут я понял почему ЖЖ так слабо развивается и, красиво стартонув, практически отстал и становится никому не нужен. Вместо того, что бы развивать по современным требованим свой функционал, они все свои ресурсы потратили на защиту комментариев от ботов. Он их распознает и отдает не те страницы, которые отдает простому браузеру. Попытки замаскироваться ни к чему не привели. Были попытки программно обнаружить триггеры, которые меняют сценарии динамической подгрузки, безуспешно. Остался единственный вариант, эти триггеры найти глазавми в ручную. А том столько рекламы, проверок на толлерантность и прочего мусора, что заставило глубже задуматься о том, что это потраченное время может быть не контролируемым и неоправданным. Ну получу я все комментрии неизвестно когда. Зачем? О затем, что или забыть про них или, все-таки, просмотреть каждый на предмет того, нужен или нет, с точки зрения ценности информации. Каждый. А после этого львинную долю удалить. И все это на фоне их большой кучи. Ссылка на оргинальную страницу комментария есть. Каая разница где смотреть и проверять. Может даже проще и меньше работы для анализа, когда наоборот формируешь тиддлеры вручную для той инфы которая нужна. Если требуется в специальныйх случая сохранить иерархию отдельного диалога, то на примере последних комментариев есть схема такой организации. А больше ничего и не надо. Вот и все.
Можно говорить, что более половины работы над модудем конвертации сделано. И не смотря на то, что следующая платформа - телеграм, все должно быть проще, поскольку все оставшиеся по плану платформы, сделаны с учетом современных требований и, кажется все отдают все често (кроме явно закрытых) и даже в JSON.
Комментариев нет:
Отправить комментарий