群晖Video Station豆瓣刮削器插件(改)
终于我还是弃坑了。在我写了半天TMDB的东西之后,发现Video Station本来就是用的TMDB接口啊(摔!自带得搜索不能用的原因是TMDB接口地址被墙了。但我调试api的时候发现了一个不正规地址z4vrpkijmodhwsxzc.stoplight-proxy.io。遵循如下步骤修改就可以使用自带搜索了。
- ssh 登录群晖
- 执行命令 cd /var/packages/VideoStation/target/plugins
- 编辑 util_themoviedb.php 文件
- 修改其中的api.themoviedb.org 为 z4vrpkijmodhwsxzc.stoplight-proxy.io
另外还可以通过修改dns来解决。 https://www.v2ex.com/t/647000
我自己对刮削没有那么多要求,能有名字,有海报就可以了,所以这个后面应该不会再更新了。
好了,没事了,大家散了吧。
下面的内容已经弃坑
前段时间搞了一个星际蜗牛 D 款,做了一点散热改装之后,装了黑群晖已经正常服役了两个多月了。用的最多应该就是下载和 Video Station,本来也是为了这个来的,省的老是要帮对象找各种在线资源。
Video Station 原生的刮削器只支持国外一些网站,速度慢不说很多国内的内容也没有信息。有一位老哥做了豆瓣得刮削器补丁,试用了一下。一开始感觉还不错,用了一段时间之后,发现数据有时候回滞后,豆瓣上明明有内容,通过插件却查找不到。
之后稍微研究了一下源代码,发现原作者是自己写了一组 API 供插件调用,可能是为了避免豆瓣得反爬虫屏蔽,API 内容应该是做缓存的。有一个现象是,有一个关键词一开始搜不出内容,但是搜索过一次过段时间之后就有内容了。所以猜测是通过搜索来触发缓存的异步更新了。
虽然用用也可以,但是总是不放心。一个是缓存策略导致数据滞后,另外就是万一哪天老哥把 API 停了就不能用了。反正代码也是 PHP 的的老本行就直接拿来改成了直接抓取豆瓣网页了。顺便把代码部署到了 github,安装相关说明直接安装即可使用。
目前仅修改了电影数据的抓取代码,但是把搜索器也开放给了电视数据,所有理论上都是能搜索的了。还有一个问题是豆瓣的反扒比较严格,如果发现搜不到内容了,很可能是 ip 被封了,这时候建议直接重新拨号。
有问题可以在这里留言或者提 issue,让我们愉快得玩耍吧。
2020-02-23更新
找到了代理服务器的替代方案--cloudflare workers 更新后使用即可。目前worker是用的我的worker, 免费版本10w请求每天。如果后面免费量不够了或者我弃坑了,我会写一下替换worker的地址,现在懒得写了。 安装脚本也更新了,所以安装的时候要记得重新下载。
2020-04-01更新
- 删除了其他搜索源,只保留了豆瓣源
- 封面图片也通过cf-worker获取
- 修复部分数据抓取错误的bug
- 安装脚本更新,从master分支下载最新代码。以后更新不用重新下载安装脚本了。
2020-04-09更新
- 修改安装脚本自定义cf-worker地址.cf-worker部署说明:地址
synology_video_station_douban_plugin
老哥请问下这是什么情况啊
–2020-05-07 22:30:53– https://raw.githubusercontent.com/_plugin/master/install.sh
Resolving raw.githubusercontent.com… 0.0.0.0, ::
Connecting to raw.githubusercontent.com|0.0.0.0|:443… connected.
ERROR: cannot verify raw.githubusercontent.com’s certificate, issued by ‘CN=Synology Inc. CA,O=Synology Inc.,L=Taipei,C=TW’:
Unable to locally verify the issuer’s authority.
ERROR: certificate common name ‘synology.com’ doesn’t match requested host name ‘raw.githubusercontent.com’.
To connect to raw.githubusercontent.com insecurely, use `–no-check-certificate’.
你的github被墙了。这个已经不维护了哦。建议参照最上面的说明修改,通过修改DNS的方式让群晖原生的刮削器正常工作。原生刮削器挺好用的。
请问现在是不能用了么?
一直安装失败
wget https://raw.githubusercontent.com/jswh/synology_video_station_douban_plugin/master/install.sh
老哥我跟您确认下哈,这里的“修改其中的api.themoviedb.org 为 z4vrpkijmodhwsxzc.stoplight-proxy.io”,是替换“api.themoviedb.org”还是替换“api.themoviedb.org/3”?
不带3
其实老实讲,还是参考v2ex的帖子,找到合适的ip地址,修改dns来好。 z4vrpkijmodhwsxzc.stoplight-proxy.io这个貌似是开发用的测试api地址,不确定什么时候就boom了。
感谢,我再试试。
老哥请教下,目前修改hosts后电影没问题,电视剧的信息还是无法获取,这个有啥好办法么?
我也发现了这个问题,最近没有时间看
大佬,第二部的编辑文件具体怎么弄啊? 望指点,谢谢!
ssh登入,
然后sudo -i获取权限,
然后cd /var/packages/VideoStation/target/plugins到文件所在位置,
然后vi util_themoviedb.php进入vim编辑器命令模式,
然后按i进入编辑模式,
然后修改其中的api.themoviedb.org 为 z4vrpkijmodhwsxzc.stoplight-proxy.io,
然后按esc返回命名模式,
然后按:wq!保存并退出。
大概就这样吧,希望能帮到你。
大佬,登录群晖后的第二步,编辑文件具体怎么操作啊,看不太懂,希望能帮帮,谢谢!
这个我不知道该如何解释
放弃了, 他妈的, 把白裙出掉
50包邮解君愁
使用你的代码布置worker后,就在那个页面send尝试连接,显示 “500 Internal Server Error
content-length:0” 而使用默认代码测试没事
发现cf-worker网址无法导入是空值,后来安装后手动更改写入,还是收寻不到视频资讯,不知道原因。
另外,移除还是会留下doban.php,档案其实还是在,期待更新了。
升级9号和10号更新的版本,什么都搜索不出来了 ,而1号以前的版本都正常,只不过时不时的会蹦出结果“未知”,应该是IP屏蔽造成的…
PHP语句不太懂,但对比1号和10号douban.php,就是句首CFworker调用语句有变化,10号后的这个应该调用的是空值吧?更换为LZ或自己的worker网址,依旧搜不出来
function build_proxy_url($url) {
$worker = ‘CF_WORKER_URL’;
$worker = trim($worker, ‘/’);
return $worker . ‘/—–‘ . $url;
}
我昨晚弄了以后, 一直都搜不出来,全是黑框框!
强烈建议采用上面老哥说的用百度百科
豆瓣屏蔽爬虫实在是太厉害了
百科的搜索时所有词条类型混合在一起的,提取数据的工作量比较大。我会努力尝试一下。
替换成自己申请的worker后 ,只工作了一小段时间后,就出问题了,后台查看请求数在增加,但不和本地视频资源自动匹配,不过手动搜索的话没有再出现“未知”的选项,都可以和电影、电视剧匹配成功…
搜刮器基本上趋于完美了,感谢大神辛勤努力…
不知道后期会不会考虑背景图片的搜索添加…:)
那个我看了,找不的合适的图片
我一直很好奇,削刮来源为什么一定要有豆瓣的,百度百科的不行嘛,百科查询应该挺开放的吧,没什么限制吧,资料也全,当做影视资料查询完全足够,为什么不用百科了!
有道理,后面看看
刮削器显示的全部都是“未知” 是什么原因 我自己替换了我的worker
搜索词是什么?未知应该是有搜索结果但是匹配内容出错了
可能不是worker的原因 我先前也是这样 重新更换外网IP后 就可以了 应该是IP被ban了
老哥,今天白天还能削刮 晚上就不行了……
cf-worker的免费额度用完了。建议自己部署一个
小白一个,,,,昨天发邮件给群晖了 答复被墙 再找国内的
你按照我今天更新的内容部署一下自己的worker。共用的worker基本到傍晚就没有额度了
老哥我又发现了个问题:
刮削出来后发现标语栏处出现了类型词
效果如下:
标题:变形金刚2 Transformers: Revenge of the Fallen
标语:动作,科幻, 变形金刚2:堕落者的复仇 , 变形金刚狂派再起(港) , 变形金刚2:复仇之战(台) , 变形金刚2:卷土重来 , 变形金刚2:狂派的反击
就是类型词重复出现在标语栏处
请问,为什么安装完,我试了一下电视剧可以搜索了,但是我关闭PUTTY后,在搜索就什么都搜索不到了?原来电影能搜索出来现在电影也不行了。。。
而且我看下载安装的是V20200309的不是你最新的呢?
大佬好,按照你的方法安装后,仍然无法搜索到信息,无论是自动还是手动搜索,语言切换到了英文也不行。 我不清楚是否因为IP被封了,但是个人本身是公网IP,比较难变动,请问有什么解决方法吗?
你好,按照你的方法安装后,仍然无法自动搜到信息,手动搜索也无法搜索,请问是怎么解决?
大佬,安装过你这个刮削器,但群晖索引文件太夸张,几天了,一只在处理。另外,看到别的文章,群晖的索引服务器被墙了,正好家里路由可以出去。想还原到DS video station 安装豆瓣刮削器之前的状态,如何操作?谢谢!
返回的结果是:检测到有异常请求从你的 IP 发出,请 登录 使用豆瓣。
前几天还正常,从昨天开始,出来的都是未知了
谢谢LZ更新!
4.1版重新安装后 总算是可以自行搜刮匹配了,准确率也挺高…
但刚正常搜索匹配了一阵后,问题就出来了,搜索出来的全部合并到“未知”文件夹里,先前已经匹配成功的没有问题,手动搜索出来的结果框里也全部都是未知,目前为止电影和电视剧都是如此,是不是worker负荷过载了??
大佬,为什么还是直接在豆瓣搜索有,刮削不出来呢?
比如?
比如so long my son(地久天长)
搜索英文有空格,应该是还没处理,你可以吧空格去掉,或者用%20代替,就可以搜索出来了。
不行哦,输入中文<地久天长>搜索也是一样的。其他影片的搜索结果也是时有时无,大部分是时候没有。
请问,为什么安装完,我试了一下电视剧可以搜索了,但是我关闭PUTTY后,在搜索就什么都搜索不到了?原来电影能搜索出来现在电影也不行了。。。
老哥, 这个如何删除其他的搜索通道呢? 只保留你这个豆瓣的渠道,很迷,我的搜索出来都是英文的, 但是我确定我选择了中文, 求解~
我已经改了,等我晚上上机测试一下然后放出来
感谢老哥,坐等更新回复
更新喽
豆瓣有的,还是会有一点刮不出来
老哥 想问问这个有时候会刮削不到 例如碟中谍6 还有变5
自动处理的时候默认是取搜索结果的第一个。如果自动处理的不对,可以手动修改
意思是例如 变形金刚系列中的变5、碟中谍系列的碟中谍6
自动索引的结果显示剧名‘未知’ 评分、演员、编剧、导演等信息都是没有的,海报图片也是没有
只有摘要信息是有的
我看看哦,有实际例子就好办
手动搜索亦是如此,感谢老哥无私奉献
更新喽
感谢!
我按github内写的三步操作完,也成功了。但在videostation和plex内,都没效果??我是不是少了什么步骤??
api.9hut.cn不能访问,造成“文件格式不对”无法保存。图片地址直接访问douban才OK .
辛苦老哥!很需要这个!试用之后有个问题,选择的视频库为 电影,语言为简体中文,发现大部分影视自动搜索出来的信息都为英文,而且发现英文信息并不是来自豆瓣(而是来自TheMoviedb上的英文信息,从评分和介绍可以对比出);只有少部分影视自动搜索出来的信息是中文,且信息与豆瓣网页上相同。
但是自动搜索出来为英文信息的那些影视,通过手动搜索名字 且能搜出来自豆瓣的中文信息,可以手动搜索后保存。
请问老哥也是这样的吗?能否修改为自动搜索出来的信息都是信息,不要英文的?
这个还真没遇到过。目前对于群晖的自动搜索到底怎么走通道我还是很迷。包括之前那个电视剧搜索出来有问题的也是一样。后面我打算直接把别的通道删了先,只留下豆瓣,再来看看。目前只能先麻烦一点手动修正了。
我又测试了几遍,发现如果电影文件的文件名或者文件夹名中有电影的英文名字,自动搜索出来的信息就是TheMoviedb上的英文信息;
如果把文件名和文件夹名中的英文名字删掉,只留下电影中文名,自动搜索出来的信息则是豆瓣上的中文信息。
只有偶尔一两个电影还显示英文,但多自动搜两次也可以正确显示为中文的信息。
尽快删了其他通道好了
其他通道确实可以删了,群晖官方已回复tmdb国内被墙,目前正在与豆瓣对接相关事宜
这么棒,要是可以官方对接,那就省事了
有考虑用https://github.com/zce/douban-api-proxy里的https://douban.uieee.com/作为代理吗?
另外,中文+英文是代码中原本就存在的。是不是考虑有部分用户用过之前的搜刮器里只存在中文,考虑只显示中文部分(或者空格前半部分)呢。。
我改动的初衷就是希望可以尽量不依赖第三方服务,不然用老哥的原始版本就行了。用CloudFlare worker不违背这个原则因为每个人都可以自己部署。
后面一部分没有看懂。
演员,导演,作者,这几个内容,豆瓣的格式是“中文名 英文名”,而之前一直都是中文名,可以直接获取前面半部分么。库存电影多了。一个一个换成新的工作量有点大啊。。
大佬,能不能分享下cloudflare workers的代码?
addEventListener('fetch', event => {
event.respondWith(handleRequest(event.request))
})
async function handleRequest(request) {
targetUrl = request.url.split('-----')[1]
return await fetch(targetUrl)
}
查询都是get方式的,所以没啥特别的代码。
剧集的信息数据搜取开始出现问题,几天前已经匹配好的剧集信息又混乱了,开始自行匹配一些毫无相干的剧集甚至是电影的信息;
而电影的搜取比较正常,不过仍然存在零星几个无法匹配
试了下,刮削的信息标语栏还有影片类型
还有,能不能标题以及演职人员信息不显示英文啊
你好,Video Station自带的刮削器除了海报外,还有背景图,这样首页的横幅上就会同时显示海报和背景,请问作者后期是否考虑把背景图也加上?
好的,我会看看
博主你好,尝试了几次后,终于装上了,但我有比较多的电影和电视剧,部署前右下角显示479个项目,部署后,索引有点慢,并且右下角显示的电影数变少了,现在显示392个项目,请问是什么原因?
这个有点不明白是什么意思,最好贴个图看看
支持
目前可以一部部的单独索引到。可以一下子索引全部吗?
索引全部是什么意思?
我也是这样,就是添加剧集后是黑色的图片,需要自己手动点进去搜索,就能索引出来,。不能像原来那样,放进去自己就下载更新好了。
能否修改为优先找douban,如果搜索不到再找api.themoviedb.org?谢谢
这个是为了什么呢?douban数据不全?
你好,想要安装博主2月23日更新的代码,在sudo bash install.sh install这一步时,提示
install.sh: line 7: syntax error near unexpected token `newline’
install.sh: line 7: `’
本人6.2.2系统
估计你也是没有下载到正确的文件
非常实用 感谢分享!!
就是不能自动匹配下载 是必须要手动搜索匹配么?
这个我看看哦
电影的信息搜刮除了必须手动搜索下载外这点外基本上已经很完美了,99%的影片都能找到…
电视剧的就有点不太完善,虽然也是99%的信息都能手动搜到,但却不能匹配所搜取电视剧的所有剧集,就像是一部10集的电视剧,匹配到信息的只有8集,剩下的两集都归纳到未知的文件夹里,然后又得把这两集再做一次单独信息匹配… 先前那位GEBI那位大神的补丁也存在这个问题,但不同的是,如果把文件夹名改成和所搜到影视的豆瓣信息名一样时,未匹配到信息的剧集会自动归纳匹配成功.. 不知道博主会否在匹配完整性上稍微修改一下
我想了一下,可能是电视剧的搜索也是走的豆瓣的电源搜索渠道了,我后面改下。
搜索“速度与激情”出现很多“未知”选项
请教博主,wget –no-check-certificate https://raw.githubusercontent.com/jswh/synology_video_station_douban_plugin/master/install.sh这一步之后
–2020-02-25 10:06:19– https://raw.githubusercontent.com/jswh/synology_video_station_douban_plugin/master/install.sh
Resolving raw.githubusercontent.com… 151.101.228.133
Connecting to raw.githubusercontent.com|151.101.228.133|:443… failed: Connection refused.
拒绝连接怎么办
看了评论,改了地址后wget https://github.com/jswh/synology_video_station_douban_plugin/blob/master/install.sh,,可以下载,但是sudo bash install.sh install的时候出现install.sh: line 7: syntax error near unexpected token `newline’
install.sh: line 7: `’ 这是不是已经安装好了
这是没有下载到正确的文件
能否做一个只拉取电影不拉取电视剧的啊?因为我多数看日剧,还是tvdb那种对于sp分在一起的分类比较好
目前我还是以我自己的需求为主哦
楼主你好,谢谢你的辛劳付出,我提个问题:我安装了你的插件后,电影刮削很好用,但是电视剧依然无法搜索到任何结果,我尝试过在电影搜索电视剧名字是可以搜索到结果的,但是电视剧目录下就不行,这个是什么问题呢?
已经修复了,您更新之后再看一下哦
另外代理池的方案我试了一下,但是免费代理可用性太差了,还不如不用代理。
在电影文件名同时存在中文和英文时,刮削出来的信息是英文的,不知道问什么,然后简介里存在的br换行符应该如何处理?
可以给个例子么,我好调试一下
感谢博主,很好用。不过有点小问题,我讲一下我遇到的。
有时候电影有些海报刮不出来,提示“文件大于4MB”, 我看了下,应该是海报图片大于4MB。例如《绿皮书》这电影,博主插件调用的海报地址是“https://api.9hut.cn/pic.php?url=
https://img3.doubanio.com/view/photo/raw/public/p2549177902.jpg”, 这张海报原图是大于4MB(原图是5.96MB),博主可以改成调用小于4MB的么,或者例子中,把“raw” 改成“l”,即https://img3.doubanio.com/view/photo/l/public/p2549177902.jpg 就行。
豆瓣图片 应该有 raw/l/m/s,这几种吧
这个已经改了好了。之前没考虑到大小问题,觉得原图可能质量好些。
楼主,您好,您的刮削器我用了,是比videostation要好,问题是不稳定,经常不能搜,应该就是您说的豆瓣反扒的原因,但是我是公网IP,所以不能经常换。因此您的刮削器只能作为videostation默认削刮器的补充。但老是换来换去也不是路啊,因此楼主能否写个代替不常用语言,比如意大利语、波兰语之类的语言的豆瓣刮削器,就是说如果选择视频识别时,选择意大利语、波兰语之类的,就用你的简体中文豆瓣刮削器这样。谢谢。
感谢你的反馈和意见。
这样的方式有点治标不治本。豆瓣反爬这个是最终还是要么更换反爬规则不那么严格网站比如时光网之类,或者上代理。我目前考虑还是上代理,今天刚找到一个还不错的代理池程序,结合群晖的docker,可以把所有东西都部署在本地,过完年会着手处理一下。
原始的插件貌似老哥也在更新的,你可以去看看。
请问干好了没有?用了你的 苦恼搜不到图啊
一开始使用
wget https://raw.githubusercontent.com/jswh/synology_video_station_douban_plugin/master/install.sh
提示连接错误,看了路径又改为
wget https://github.com/jswh/synology_video_station_douban_plugin/blob/master/install.sh
成功下载,但是安装错误:
root@Hyperspace:~# sudo bash install.sh install
install.sh: line 7: syntax error near unexpected token `newline’
install.sh: line 7: `’
请问可以更新下吗,谢谢您
(目前使用918+6.2.2up4系统,套件版本最新)
安装提示错误
install.sh: line 7: syntax error near unexpected token `newline’
> install.sh: line 7: `’
-sh: !DOCTYPE: event not found
>
大佬,你去看下github的反馈
电视剧刮削是要把电视剧也放在电影目录下么,还是电视剧分栏下也能体验到这个刮削器的作用
不需要的,我改过了
感谢博主的脚本
刮削出来的没有背景图
目前我自己这边是有图片的。明后天我会看看,顺便把默认的搜索改到豆瓣,到时候您再看看。
新的脚本仍然无法拉取背景
如果要卸载怎么卸?
安装脚本里面带有卸载功能的
老哥,还有我在执行第3步时,报错“Sorry, you have not installed DS Video Douban Patch yet.”,这是怎么回事?
没有安装过的话,可以跳过第三步
老哥好,用了你的方法,我的VideoStation图标不见了,请问怎么回事?又什么可能出现这种问题?谢谢!