.net 中有没有提取html中文本的方法

ycline

2010/4/26镜像同步15 回复

rt 也就是把html转成txt，只保留里面的文本信息。如果用的是form的话，有webBroswer的控件可以把html转成document的类。但在命令行程序下有类似的函数或类吗？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

ahomer机器人#1 · 2010/4/27

用python提取会非常之简单，有相应的库可用要不很多标签还得处理很麻烦的

shooter机器人#2 · 2010/4/29

在命令行程序下手动添加webBrowser引用就可以了【在 ycline (line) 的大作中提到: 】 : rt : 也就是把html转成txt，只保留里面的文本信息。 : 如果用的是form的话，有webBroswer的控件可以把html转成document的类。但在命令行程序下有类似的函数或类吗？ : ...................

ycline机器人#3 · 2010/4/29

具体怎么搞呢，我试了几次都有错。。【在 shooter 的大作中提到: 】 : 在命令行程序下手动添加webBrowser引用就可以了 : 【在 ycline (line) 的大作中提到: 】 : : rt : ...................

shooter机器人#4 · 2010/4/29

click solution explorer right click references click "Add Reference" menu item select System.Windows.Forms in the ".NET" tab item, and click OK. add "using System.Windows.Forms" instance one WebBrowser object 【在 ycline 的大作中提到: 】 : 具体怎么搞呢，我试了几次都有错。。 : 【在 shooter 的大作中提到: 】 : : 在命令行程序下手动添加webBrowser引用就可以了 : ...................

snoopyboy机器人#5 · 2010/4/29

CA的IP...回答都用E文了哈【在 shooter (加油 ≮雪域≯之雪神 ) 的大作中提到: 】 : click solution explorer : right click references : click "Add Reference" menu item : ...................

wangjianzhou机器人#6 · 2010/5/1

哥们，可以这样，解析XML文档，现在的网页都是标准的XHTML格式，你只要解析XML文档就成，不过事先的知道XHTML代码

lixunhuan机器人#7 · 2010/5/11

或者用 webbrower, 获得 HTMLelements. 然后Innertext 或者 innerHTML

AirSendoh机器人#8 · 2010/6/27

自己写个函数，去除字符串里的html标签比如 private static string delHtmlTag(string input) { string TAGLIST = "!--;!DOCTYPE;A;ACRONYM;ADDRESS;APPLET;AREA;B;BASE;BASEFONT;" + "BGSOUND;BIG;BLOCKQUOTE;BODY;BR;BUTTON;CAPTION;CENTER;CITE;CODE;" + "COL;COLGROUP;COMMENT;DD;DEL;DFN;DIR;DIV;DL;DT;EM;EMBED;FIELDSET;" + "FONT;FORM;FRAME;FRAMESET;HEAD;H1;H2;H3;H4;H5;H6;HR;HTML;I;IFRAME;IMG;" + "INPUT;INS;ISINDEX;KBD;LABEL;LAYER;LAGEND;LI;LINK;LISTING;MAP;MARQUEE;" + "MENU;META;NOBR;NOFRAMES;NOSCRIPT;OBJECT;OL;OPTION;P;PARAM;PLAINTEXT;" + "PRE;Q;S;SAMP;SCRIPT;SELECT;SMALL;SPAN;STRIKE;STRONG;STYLE;SUB;SUP;" + "TABLE;TBODY;TD;TEXTAREA;TFOOT;TH;THEAD;TITLE;TR;TT;U;UL;VAR;WBR;XMP;" + "APPLET;EMBED;FRAMESET;HEAD;NOFRAMES;NOSCRIPT;OBJECT;SCRIPT;STYLE;/"; string[] htmTag = TAGLIST.Split(';'); string output = input; string contentToReplace = null; for (int i = 0; i < htmTag.Length; i++) { //Console.WriteLine(htmTag[i]); int start = input.ToUpper().IndexOf("<" + htmTag[i]); int end = 0; while (start > -1) { end = input.IndexOf(">", start); if (end > -1 && end > start) { contentToReplace = input.Substring(start, end - start + 1); output = output.Replace(contentToReplace, ""); } else { break; } start = input.ToUpper().IndexOf("<" + htmTag[i], start + 1); } } return output; }

ycline机器人#9 · 2010/6/27

哥们，你这也太能挖坟了。。后来我用正则表达式搞定了。。【在 AirSendoh 的大作中提到: 】 : 自己写个函数，去除字符串里的html标签 : 比如 : private static string delHtmlTag(string input) : ...................