id
name
processing priority
4
site type
0 (generic, awaiting analysis)
review version
11
html import
20 (imported)
first seen date
2024-01-27 23:53:39
expired found date
-
created at
2024-06-28 17:41:01
updated at
2026-01-06 18:14:06
length
10
crc
35895
tld
2211
nm parts
0
nm random digits
0
nm rare letters
0
is subdomain of id
-
previous id
0
replaced with id
0
related id
-
dns primary id
dns alternative id
0
lifecycle status
0 (unclassified, or currently active)
deleted subdomains
0
page imported products
0
page imported random
0
page imported parking
0
count skipped due to recent timeouts on the same server IP
0
count content received but rejected due to 11-799
0
count dns errors
0
count cert errors
0
count timeouts
1
count http 429
0
count http 404
0
count http 403
0
count http 5xx
0
next operation date
-
server bits
—
server ip
-
mp import status
20
mp rejected date
-
mp saved date
-
mp size orig
40988
mp size raw text
3343
mp inner links count
11
mp inner links status
20 (imported)
title
謝乾坤 | Kingname
description
高級數據挖掘工程師,《Python 爬蟲開發 從入門到實戰》、《左手 MongoDB 右手 Redis——從入門到商業實戰》作者。 微軟最有價值專家 MVP,Python, Scrapy, MongoDB, Redis, Pandas, Golang。
image
site name
謝乾坤 | Kingname
author
青南
updated
2026-01-02 22:49:22
raw text
謝乾坤 | Kingname 謝乾坤 | Kingname 給時光以生命。 首頁 歸檔 標簽 公眾號 關於 搜索 一日一技:如何使用大模型提高開發效率 發表於 2024-08-27 更新於 2024-09-03 本文字數: 1.6k 閱讀時長 ≈ 5 分鍾 前兩天,有同學在微信群裏麵問怎麽識別下圖所示的驗證碼: 一般爬蟲驗證碼我會使用ddddocr來解析,在大模型出來之前,這個工具基本上是Python下麵效果最好的免費驗證碼識別工具了。但是這次它翻車了。 這個提問的同學也試過了很多個大模型,發現都提取不出來。 甚至連GPT-4o也失敗了: GPT-4o都失敗了,還能怎麽辦呢?難道要使用付費的商業方案了?這個時候,突然有個同學發出來了一張截圖: ChatGLM,也就是智譜AI,竟然識別對了!這個同學接著又發了一張圖,另一個驗證碼識別又對了! 甚至連四則運算驗證碼都能識別: 這下整個群裏麵做爬蟲的人都熱鬧了起來: 於是就有了今天這篇文章。 閱讀全文 » 一日一技:如何正確保護Python代碼 發表於 2024-07-29 更新於 2024-09-03 本文字數: 613 閱讀時長 ≈ 2 分鍾 去年我寫過一篇文章 《一日一技:如何對Python代碼進行混淆》 介紹過一個混淆Python代碼的工具,叫做 pyminifier ,這個東西混淆出來的代碼,咋看起來有模有樣,但仔細一看,本質上就是變量名替換而已,隻要耐下心來就能看懂,如下圖所示: 而我今天要介紹另一個工具,叫做 pyarmor 。 pyminifier 跟它比起來,就跟玩具一樣。 閱讀全文 » 一日一技:真正的自然語言編程 發表於 2024-07-28 更新於 2024-09-03 本文字數: 1.4k 閱讀時長 ≈ 5 分鍾 在之前的文章 《一次性數據抓取的萬能方法,半自動抓取任意異步加載網站》 中,我講到一個萬能的爬蟲開發方法。從瀏覽器保存HAR文件,然後寫Python代碼解析HAR文件來抓取數據。 但可能有同學連Python代碼都不想寫,他覺得還要學習 haralyzer 太累了,有沒有什麽辦法,隻需要說自然...
redirect type
0 (-)
block type
0 (no issues)
detected language
126 (language undetectable (empty document, too short, or engines disagree))
category id
index version
2025123101
spam phrases
0
text nonlatin
1743
text cyrillic
0
text characters
2526
text words
351
text unique words
236
text lines
190
text sentences
1
text paragraphs
0
text words per sentence
255
text matched phrases
2
text matched dictionaries
2
links self subdomains
0
links other subdomains
links other domains
1 - hexo.io
links spam adult
0
links spam random
0
links spam expired
0
links ext activities
0
links ext ecommerce
0
links ext finance
0
links ext crypto
0
links ext booking
0
links ext news
0
links ext leaks
0
links ext ugc
5 - mp.weixin.qq.com
links ext klim
0
links ext generic
0
dol status
0
dol updated
2026-01-02 22:49:22
rss path
rss status
1 (priority 1 already searched, no matches found)
rss found date
-
rss size orig
0
rss items
0
rss spam phrases
0
rss detected language
0 (awaiting analysis)
inbefore feed id
-
inbefore status
0 (new)
sitemap path
sitemap status
30 (processing completed, results pushed to table crawler_sitemaps.ext_domain_sitemap_lists)
sitemap review version
1
sitemap urls count
245
sitemap urls adult
0
sitemap filtered products
0
sitemap filtered videos
0
sitemap found date
2024-09-13 17:02:17
sitemap process date
2024-09-13 17:02:19
sitemap first import date
-
sitemap last import date
-