【问题标题】:Python href and save to .txt (no worries, not another regex question)Python href 并保存到 .txt(不用担心,不是另一个正则表达式问题)
【发布时间】:2023-04-02 23:57:02
【问题描述】:

我目前正在创建一个 python 脚本,允许用户输入种子的哈希(通过终端),并通过网站检查更多的跟踪器。但是,由于我是 Python 编程新手,所以我很茫然,希望能得到一些建议。我遇到了麻烦,因为来自 html_page 的结果有另一个链接可以访问。所以,我的程序分配了 html_page "http://torrentz.eu/******* 但是,现在我发现自己在尝试让它跟随页面上的另一个链接到达http://torrentz.eu/announcelist_* ...话虽如此,我发现它可以被检索(从查看源代码中可以看出)

    <a href="/announcelist_********" rel="e">&#181;Torrent compatible list here</a> 

或可能从此处检索,因为值与它们出现在 /announcelist_**

中的值相同

    <a name="post-comment"></a>
    <input type="hidden" name="torrent" value="******" /> 

由于 /announcelist_** 以文本格式出现,我还想知道如何将生成的跟踪器列表保存在 .txt 文件中。话虽如此,这是我目前在 Python 脚本方面的进步。

    from BeautifulSoup import BeautifulSoup
    import urllib2
    import re
    var = raw_input("Enter hash:")
    html_page = urllib2.urlopen("http://torrentz.eu/" +var)
    soup = BeautifulSoup(html_page)
    for link in soup.findAll('a'):
            print link.get('href')

我还要提前感谢大家的支持、知识、建议和技能。

编辑:我已将代码更改为如下所示:

    from BeautifulSoup import BeautifulSoup
    import urllib2
    import re
    hsh = raw_input("Enter Hash:")
    html_data = urllib2.urlopen("http://torrentz.eu/" +hsh, 'r').read()
    soup = BeautifulSoup(html_data)
    announce = soup.find('a', attrs={'href': re.compile("^/announcelist")})
    print announce

结果:

    <a href="/announcelist_00000" rel="e">&#181;Torrent compatible list here</a>

所以,现在我只是在寻找一种仅获取 /announcelist_00000 部分输出的方法。

【问题讨论】:

  • 我不确定我是否完全理解您的问题,但您应该能够打开远程文件和本地文件,从其中一个文件读取内容并将其写入另一个文件并保存。这有帮助吗?
  • 这就是我想要实现的目标,但老实说,我是 python 新手,真的有点不知所措……但是,是的,我想成为能够:#1) 手动输入哈希(通过控制台提示符)#2) 将torrentz.eu 与哈希连接以实现torrentz.eu/hashoftorrent 的 URL #3) 找到并点击指向 torrentz.eu/announcelist_***** 的链接(星号表示与跟踪器关联的值)#4)将页面torrentz.eu/announcelist_*****保存到/home/durr/trackers.txt
  • 我必须将此作为答案发布。太多代码无法作为评论发布

标签:
python
beautifulsoup
href