0x01 前言

我和我的家人都喜欢看各种连续剧,但因为各种因素,只能到网上下载资源并存放到家里的媒体服务器中。

想知道怎样搭建一个媒体服务器?点击这里!

要知道下载存有下载链接的网站都有很多广告和弹窗信息,真是太令人厌烦了。同时他们的网站也不支持chrome 浏览器,很难一键获取所有链接以便用于迅雷下载。正好我开始学习python ,以下是我的第一个python 脚本。

0x02 准备

我使用python 3与BeautifulSoup 作为基础,同时使用网站4567.tv 的数据,地址如下:

导入urlopen 与BeautifulSoup 模块并解析网页:

0x03 获取片名

将片名赋值给html_title 备用。

0x04 格式化内容框架

0x05 寻找有效内容

为了从页面的众多代码中找到有效的下载链接,我对网页结构分析后写出以下函数和循环。

首先定义函数:

通过循环在上面的列表中寻找存在“下载链接2”这几个字符的元素位置

提取存在字符串“下载链接2”的内容

0x06 整理下载链接并格式化

0x07 写入文件

0x08 结语

首先我得承认这网站确实不错,这只是我学习python的一个过程,并没有对这个网站存在任何恶意。

这脚本有不合理的地方,例如:可能“下载链接2”并不是高清的、有可能并不在存在“下载链接2”、为什么要手动输入id?、获取id需要在院网站中寻找等等… …

这只是我学习的一个开始,我相信这会变得更好,甚至适配更多的网站。如果你有什么建议或问题,欢迎与我联系。

以下是存放于Github的全部代码:

Crawl_download_link_from_4567.tv.py