簡單java網(wǎng)絡(luò)爬蟲代碼 Java爬蟲代碼

請教用java編寫一個網(wǎng)絡(luò)爬蟲程序

你說說你都要什么功能啊，要是功能簡單我就給你做，復(fù)雜你得給點錢

五常網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián),五常網(wǎng)站設(shè)計制作，有大型網(wǎng)站制作公司豐富經(jīng)驗。已為五常近千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站建設(shè)要多少錢，請找那個售后服務(wù)好的五常做網(wǎng)站的公司定做！

Java網(wǎng)絡(luò)爬蟲怎么實現(xiàn)？

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。\x0d\x0a傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件。對于垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網(wǎng)頁的爬蟲，更為適合。\x0d\x0a\x0d\x0a以下是一個使用java實現(xiàn)的簡單爬蟲核心代碼：\x0d\x0apublic void crawl() throws Throwable { \x0d\x0a while (continueCrawling()) { \x0d\x0a CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL \x0d\x0a if (url != null) { \x0d\x0a printCrawlInfo(); \x0d\x0a String content = getContent(url); //獲取URL的文本信息 \x0d\x0a \x0d\x0a //聚焦爬蟲只爬取與主題內(nèi)容相關(guān)的網(wǎng)頁，這里采用正則匹配簡單處理 \x0d\x0a if (isContentRelevant(content, this.regexpSearchPattern)) { \x0d\x0a saveContent(url, content); //保存網(wǎng)頁至本地 \x0d\x0a \x0d\x0a //獲取網(wǎng)頁內(nèi)容中的鏈接，并放入待爬取隊列中 \x0d\x0a Collection urlStrings = extractUrls(content, url); \x0d\x0a addUrlsToUrlQueue(url, urlStrings); \x0d\x0a } else { \x0d\x0a System.out.println(url + " is not relevant ignoring ..."); \x0d\x0a } \x0d\x0a \x0d\x0a //延時防止被對方屏蔽 \x0d\x0a Thread.sleep(this.delayBetweenUrls); \x0d\x0a } \x0d\x0a } \x0d\x0a closeOutputStream(); \x0d\x0a}\x0d\x0aprivate CrawlerUrl getNextUrl() throws Throwable { \x0d\x0a CrawlerUrl nextUrl = null; \x0d\x0a while ((nextUrl == null) (!urlQueue.isEmpty())) { \x0d\x0a CrawlerUrl crawlerUrl = this.urlQueue.remove(); \x0d\x0a //doWeHavePermissionToVisit：是否有權(quán)限訪問該URL，友好的爬蟲會根據(jù)網(wǎng)站提供的"Robot.txt"中配置的規(guī)則進行爬取 \x0d\x0a //isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往采用BloomFilter進行排重，這里簡單使用HashMap \x0d\x0a //isDepthAcceptable：是否達到指定的深度上限。爬蟲一般采取廣度優(yōu)先的方式。一些網(wǎng)站會構(gòu)建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環(huán)），采用深度限制加以避免 \x0d\x0a if (doWeHavePermissionToVisit(crawlerUrl) \x0d\x0a (!isUrlAlreadyVisited(crawlerUrl)) \x0d\x0a isDepthAcceptable(crawlerUrl)) { \x0d\x0a nextUrl = crawlerUrl; \x0d\x0a // System.out.println("Next url to be visited is " + nextUrl); \x0d\x0a } \x0d\x0a } \x0d\x0a return nextUrl; \x0d\x0a}\x0d\x0aprivate String getContent(CrawlerUrl url) throws Throwable { \x0d\x0a //HttpClient4.1的調(diào)用與之前的方式不同 \x0d\x0a HttpClient client = new DefaultHttpClient(); \x0d\x0a HttpGet httpGet = new HttpGet(url.getUrlString()); \x0d\x0a StringBuffer strBuf = new StringBuffer(); \x0d\x0a HttpResponse response = client.execute(httpGet); \x0d\x0a if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { \x0d\x0a HttpEntity entity = response.getEntity(); \x0d\x0a if (entity != null) { \x0d\x0a BufferedReader reader = new BufferedReader( \x0d\x0a new InputStreamReader(entity.getContent(), "UTF-8")); \x0d\x0a String line = null; \x0d\x0a if (entity.getContentLength() 0) { \x0d\x0a strBuf = new StringBuffer((int) entity.getContentLength()); \x0d\x0a while ((line = reader.readLine()) != null) { \x0d\x0a strBuf.append(line); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a if (entity != null) { \x0d\x0a nsumeContent(); \x0d\x0a } \x0d\x0a } \x0d\x0a //將url標記為已訪問 \x0d\x0a markUrlAsVisited(url); \x0d\x0a return strBuf.toString(); \x0d\x0a}\x0d\x0apublic static boolean isContentRelevant(String content, \x0d\x0aPattern regexpPattern) { \x0d\x0a boolean retValue = false; \x0d\x0a if (content != null) { \x0d\x0a //是否符合正則表達式的條件 \x0d\x0a Matcher m = regexpPattern.matcher(content.toLowerCase()); \x0d\x0a retValue = m.find(); \x0d\x0a } \x0d\x0a return retValue; \x0d\x0a}\x0d\x0apublic List extractUrls(String text, CrawlerUrl crawlerUrl) { \x0d\x0a Map urlMap = new HashMap(); \x0d\x0a extractHttpUrls(urlMap, text); \x0d\x0a extractRelativeUrls(urlMap, text, crawlerUrl); \x0d\x0a return new ArrayList(urlMap.keySet()); \x0d\x0a} \x0d\x0aprivate void extractHttpUrls(Map urlMap, String text) { \x0d\x0a Matcher m = (text); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split("a href=\""); \x0d\x0a for (String term : terms) { \x0d\x0a // System.out.println("Term = " + term); \x0d\x0a if (term.startsWith("http")) { \x0d\x0a int index = term.indexOf("\""); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a urlMap.put(term, term); \x0d\x0a System.out.println("Hyperlink: " + term); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a} \x0d\x0aprivate void extractRelativeUrls(Map urlMap, String text, \x0d\x0a CrawlerUrl crawlerUrl) { \x0d\x0a Matcher m = relativeRegexp.matcher(text); \x0d\x0a URL textURL = crawlerUrl.getURL(); \x0d\x0a String host = textURL.getHost(); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split("a href=\""); \x0d\x0a for (String term : terms) { \x0d\x0a if (term.startsWith("/")) { \x0d\x0a int index = term.indexOf("\""); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a String s = //" + host + term; \x0d\x0a urlMap.put(s, s); \x0d\x0a System.out.println("Relative url: " + s); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a \x0d\x0a}\x0d\x0apublic static void main(String[] args) { \x0d\x0a try { \x0d\x0a String url = ""; \x0d\x0a Queue urlQueue = new LinkedList(); \x0d\x0a String regexp = "java"; \x0d\x0a urlQueue.add(new CrawlerUrl(url, 0)); \x0d\x0a NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L, \x0d\x0a regexp); \x0d\x0a // boolean allowCrawl = crawler.areWeAllowedToVisit(url); \x0d\x0a // System.out.println("Allowed to crawl: " + url + " " + \x0d\x0a // allowCrawl); \x0d\x0a crawler.crawl(); \x0d\x0a } catch (Throwable t) { \x0d\x0a System.out.println(t.toString()); \x0d\x0a t.printStackTrace(); \x0d\x0a } \x0d\x0a}

如何用Java寫一個爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術(shù)點：

（1）程序package組織

（2）模擬登錄（爬蟲主要技術(shù)點1）

要爬去需要登錄的網(wǎng)站數(shù)據(jù)，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現(xiàn)一個網(wǎng)站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關(guān)鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網(wǎng)頁下載（爬蟲主要技術(shù)點2）

模擬登錄后，便可下載目標網(wǎng)頁html了。知乎爬蟲基于HttpClient寫了一個網(wǎng)絡(luò)連接線程池，并且封裝了常用的get和post兩種網(wǎng)頁下載的方法。

（4）自動獲取網(wǎng)頁編碼（爬蟲主要技術(shù)點3）

自動獲取網(wǎng)頁編碼是確保下載網(wǎng)頁html不出現(xiàn)亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網(wǎng)頁亂碼問題。

（5）網(wǎng)頁解析和提?。ㄅ老x主要技術(shù)點4）

使用Java寫爬蟲，常見的網(wǎng)頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現(xiàn)Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲采用的就是Jsoup。

（6）正則匹配與提?。ㄅ老x主要技術(shù)點5）

雖然知乎爬蟲采用Jsoup來進行網(wǎng)頁解析，但是仍然封裝了正則匹配與提取數(shù)據(jù)的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數(shù)據(jù)去重（爬蟲主要技術(shù)點6）

對于爬蟲，根據(jù)場景不同，可以有不同的去重方案。（1）少量數(shù)據(jù)，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數(shù)據(jù)，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數(shù)據(jù)，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現(xiàn)，但是采用的Redis進行去重。

（8）設(shè)計模式等Java高級編程實踐

除了以上爬蟲主要的技術(shù)點之外，知乎爬蟲的實現(xiàn)還涉及多種設(shè)計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術(shù)，這對學習設(shè)計模式和Java反射機制也是一個不錯的案例。

4. 一些抓取結(jié)果展示

如何使用Java語言實現(xiàn)一個網(wǎng)頁爬蟲

我給你代碼

public class DEmo {

public static void match(String s1) {

Pattern p = Pattern.compile("a(.*).*/a");

Matcher m = p.matcher(s1);

while (m.find()) {

System.out.println(m.group(1));

}

public static void main(String args[]) {

URL url;

int responsecode;

HttpURLConnection urlConnection;

BufferedReader reader;

String line;

try {

// 生成一個URL對象，要獲取源代碼的網(wǎng)頁地址為：

url = new URL("");

// 打開URL

urlConnection = (HttpURLConnection) url.openConnection();

// 獲取服務(wù)器響應(yīng)代碼

responsecode = urlConnection.getResponseCode();

String temp = "";

if (responsecode == 200) {

// 得到輸入流，即獲得了網(wǎng)頁的內(nèi)容

reader = new BufferedReader(new InputStreamReader(

urlConnection.getInputStream(), "GBK"));

while ((line = reader.readLine()) != null) {

temp = temp + line;

}

System.out.println(temp);

match(temp);

} else {

System.out.println("獲取不到網(wǎng)頁的源碼，服務(wù)器響應(yīng)代碼為：" + responsecode);

}

} catch (Exception e) {

System.out.println("獲取不到網(wǎng)頁的源碼,出現(xiàn)異常：" + e);

}

求用JAVA編寫一個網(wǎng)絡(luò)爬蟲的程序

先根據(jù)一個鏈接，抓取該頁面；解析該頁面，搜取出該頁面中有用的鏈接，根據(jù)鏈接地址循環(huán)抓取就OK了；--簡單爬行器原理

抓取完文件后還需要一個功能好點的文檔解析器來解析出文件中的內(nèi)容；--文件解析器

再根據(jù)關(guān)鍵字（分詞器）處理這些頁面，建立自己的搜索引擎；--分詞器不好解決

我也正在搞這方面

呵呵

用java編寫網(wǎng)絡(luò)爬蟲求代碼和流程急

import java.awt.*;

import java.awt.event.*;

import java.io.*;

import java.net.*;

import java.util.*;

import java.util.regex.*;

import javax.swing.*;

import javax.swing.table.*;//一個Web的爬行者(注：爬行在這里的意思與抓取，捕獲相同)

public class SearchCrawler extends JFrame{

//最大URL保存值

private static final String[] MAX_URLS={"50","100","500","1000"};

//緩存robot禁止爬行列表

private HashMap disallowListCache=new HashMap();

//搜索GUI控件

private JTextField startTextField;

private JComboBox maxComboBox;

private JCheckBox limitCheckBox;

private JTextField logTextField;

private JTextField searchTextField;

private JCheckBox caseCheckBox;

private JButton searchButton;

//搜索狀態(tài)GUI控件

private JLabel crawlingLabel2;

private JLabel crawledLabel2;

private JLabel toCrawlLabel2;

private JProgressBar progressBar;

private JLabel matchesLabel2;

//搜索匹配項表格列表

private JTable table;

//標記爬行機器是否正在爬行

private boolean crawling;

//寫日志匹配文件的引用

private PrintWriter logFileWriter;

//網(wǎng)絡(luò)爬行者的構(gòu)造函數(shù)

public SearchCrawler(){

//設(shè)置應(yīng)用程序標題欄

setTitle("搜索爬行者");

//設(shè)置窗體大小

setSize(600,600);

//處理窗體關(guān)閉事件

addWindowListener(new WindowAdapter(){

public void windowClosing(WindowEvent e){

actionExit();

}

});

//設(shè)置文件菜單

JMenuBar menuBar=new JMenuBar();

JMenu fileMenu=new JMenu("文件");

fileMenu.setMnemonic(KeyEvent.VK_F);

JMenuItem fileExitMenuItem=new JMenuItem("退出",KeyEvent.VK_X);

fileExitMenuItem.addActionListener(new ActionListener(){

public void actionPerformed(ActionEvent e){

actionExit();

}

});

fileMenu.add(fileExitMenuItem);

menuBar.add(fileMenu);

setJMenuBar(menuBar);

本文標題：簡單java網(wǎng)絡(luò)爬蟲代碼 Java爬蟲代碼
轉(zhuǎn)載源于：http://sd-ha.com/article26/hieijg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供營銷型網(wǎng)站建設(shè)、電子商務(wù)、網(wǎng)站制作、網(wǎng)站維護、網(wǎng)站導(dǎo)航、定制網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

久久久精品一区ed2k-女人被男人叉到高潮的视频-中文字幕乱码一区久久麻豆樱花-俄罗斯熟妇真实视频